本文介绍: Apache Tika是一个内容分析工具包。该工具包可以从一千多种不同的文件类型(如PPT、XLS和PDF)中检测并提取元数据和文本。所有这些文件类型都可以通过同一个接口进行解析,这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。
Apache Tika是什么?能干什么?
该工具包可以从一千多种不同的文件类型(如PPT、XLS和PDF)中检测并提取元数据和文本。
所有这些文件类型都可以通过同一个接口进行解析,这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。
基于Apache License 2.0
Apache Tika的安装
Build artifacts说明
Tika解析器。基于各种外部解析器库实现Tika Parser接口的类集合。这包括最常用的解析器。用户可能希望添加tika–parser–sqlite3-package和tika-parser–scientific–package科学包或其他解析器模块。
Tika应用程序。将上述组件和标准解析器库组合成一个具有GUI和命令行接口的可运行jar。
Apache Tika试用
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。