Toxy
来自软件开发
Toxy是一个获取数据和文档信息的抽取框架, 支持日常很多常见的格式,如docx, xlsx, xls, pdf, txt, epub, html等等。
有意思的是,这个框架的开发者是Tony Qu,也是大名鼎鼎的NPOI的主要开发者。赞一个,NPOI总的来说非常好用。期待越来越强大,因为互联网的数据除了html之外,还有大量的文档格式,如果快速的检索抽取这些元数据信息,是非常有用的。
官方网站:
新手指南:https://www.cnblogs.com/neuzilla/p/getstarted_with_toxy.html