`

Tika DefaultParser 如何找到实现类

    博客分类:
  • Tika
 
阅读更多
通过在METE-INF下的services包里建立相应的文件,文件名是
org.apache.tika.parser.Parser接口的名字。而文件内容是其所有实现类的全名。在DefaultParser里通过
https://connect8.uc.att.com/dstsystems/SyncEvents/WaitingRoom.asp?RM=1&LessonID=0&CreateEvent=0&MeetID=84354464&EMail=gge@dstsystems.com&Lname=HT&fName=Hengtian&MeetingKey=

List<Parser> parsers = new ArrayList<Parser>();
        if (loader != null) {
            Iterator<Parser> iterator =
                ServiceRegistry.lookupProviders(Parser.class, loader);
            while (iterator.hasNext()) {
                parsers.add(iterator.next());
            }
       }
来得到所有实现类

org.apache.tika.parser.asm.ClassParser
org.apache.tika.parser.audio.AudioParser
org.apache.tika.parser.audio.MidiParser
org.apache.tika.parser.dwg.DWGParser
org.apache.tika.parser.epub.EpubParser
org.apache.tika.parser.feed.FeedParser
org.apache.tika.parser.font.TrueTypeParser
org.apache.tika.parser.html.HtmlParser
org.apache.tika.parser.image.ImageParser
org.apache.tika.parser.image.TiffParser
org.apache.tika.parser.iwork.IWorkParser
org.apache.tika.parser.iwork.IWorkPackageParser
org.apache.tika.parser.jpeg.JpegParser
org.apache.tika.parser.mbox.MboxParser
org.apache.tika.parser.microsoft.OfficeParser
org.apache.tika.parser.microsoft.ooxml.OOXMLParser
org.apache.tika.parser.mp3.Mp3Parser
org.apache.tika.parser.hdf.HDFParser
org.apache.tika.parser.netcdf.NetCDFParser
org.apache.tika.parser.odf.OpenDocumentParser
org.apache.tika.parser.pdf.PDFParser
org.apache.tika.parser.pkg.PackageParser
org.apache.tika.parser.rtf.RTFParser
org.apache.tika.parser.txt.TXTParser
org.apache.tika.parser.video.FLVParser
org.apache.tika.parser.xml.DcXMLParser
分享到:
评论

相关推荐

    tika提取文本内容

    7. **API使用**:Tika提供了一个简单的API,开发者可以通过调用`TikaConfig`和`Parser`类的方法来提取文本和元数据。例如,使用`Detector.detect()`方法检测MIME类型,`Parser.parse()`方法则用于提取文本内容。 8....

    tika读取文件专用包

    - **Parser**:Tika的核心组件是解析器,每个解析器专门处理一种或一类文件格式。例如,`PDFParser`用于解析PDF文件,`HTMLParser`用于解析HTML。 - **Detector**:文件探测器(Detector)根据字节流或文件名判断...

    tika-python绑定到 Apache Tika REST 服务

    tika-python 绑定到 Apache Tika REST 服务 Python binding to the Apache Tika REST services Apache Tika 库的 Python 端口,可使用 Tika REST 服务器使 Tika 可用。这使得 Apache Tika 可作为 Python 库使用,可...

    tika jar包

    它提供了API,使得开发者可以方便地与Tika交互,例如,通过`org.apache.tika.Tika`类来获取文件的基本信息。这个核心JAR文件不包含具体的解析器,因此,如果要解析特定类型的文件,需要配合其他组件。 2. **tika-...

    tika-core-1.22.jar_tika_

    Apache Tika本产品包括在以下位置开发的软件Apache软件基金会。版权所有1993-2010大学大气研究公司/ Unidata该软件包含源自UCAR / Unidata的NetCDF库的代码。Tika服务器组件使用CDDL许可的依赖项

    tika1.4.zip

    Tika的核心组件是Parser接口和Metadata类,它们协同工作来提取文件内容和元数据。 Parser接口定义了如何解析文件并提取内容的方法。Tika提供了一系列实现该接口的解析器,每个解析器专门处理特定类型的文件格式。...

    tika0.5基本jar包

    在使用"tika0.5基本使用的jar包"时,开发者需要将jar包添加到项目类路径中,然后可以通过Tika的API来调用上述功能。例如,提取一个PDF文件的文本内容,可以使用以下代码示例: ```java import org.apache.tika.Tika...

    apache中的tika包

    它通过集成多种解析器库来实现这一点,如Apache POI用于处理Microsoft Office格式,PDFBox用于PDF,以及JDOM和DOM4J用于XML。 2. **内容提取**:Tika可以有效地从这些文件中提取文本内容,这对于构建搜索引擎或进行...

    tika+lucene完整jar包

    2. 创建Lucene索引:利用`Directory`、`Analyzer`和`IndexWriter`等类,将Tika提取的文本内容建立索引。 3. 查询Lucene索引:使用`IndexSearcher`和`QueryParser`创建查询,并获取匹配的结果集。 4. 更新和删除索引...

    tika 1.0最新版本

    tika最新版本,tika-app-1.0.jar,提取office和pdf文档内容

    apache tika jar包

    Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。  功能包括:  侦测文档的类型,字符编码,语言,等其他现有文档的属性。  提取结构化的文字内容。...

    Python库 | tika-1.13.tar.gz

    **Python库tika-1.13.tar.gz详解** 在Python开发中,库扮演着至关重要的角色,它们提供了丰富的功能,让开发者能够高效地完成任务。"tika-1.13.tar.gz"是一个针对Python的库,它封装了Apache Tika,一个强大的内容...

    Apache Tika 1.1 所需jar包

    Apache Tika 1.1 所需要的jar包,方便不想用maven的同学. 此压缩包内是核心jar包,依据http://tika.apache.org/1.1/gettingstarted.html 中Using Tika in an Ant project章节列出的 classpath 找齐 部分版本比文章中...

    apache-tika-0.8-src.jar

    在"apache-tika-0.8-src"源代码中,你可以找到以下几个关键部分: - **Parsers**: 这里包含了各种解析器的实现,每个解析器针对特定的文件格式。 - **Detectors**: 这部分代码用于文件类型的检测,通常基于文件的二...

    跟益达学Solr5之使用Tika从PDF中提取数据导入索引

    这通常意味着你需要将Tika的JAR文件添加到Solr的类路径中。在Solr 5版本中,可能需要手动添加,因为默认的Solr版本可能并未包含Tika。 然后,创建一个处理链,将Tika集成到Solr的更新请求处理器中。在`solrconfig....

    apache-tika-1.0-src.zip

    1. `src/main/java`: 这个目录包含了Tika的主要Java源代码,包括解析器、探测器和其他关键组件的实现。 2. `src/test/java`: 测试代码,用于验证Tika的功能是否正确。这些测试可以作为理解Tika如何工作的示例。 3. `...

    tika-app-1.19.1.jar

    tika-app.1.19.1.jar,轻松提取文本正文的工具。。。。

    apache-tika-1.2-src.zip_ tika-app-1.2_java poi word_tika-app-1.2

    在"apache-tika-1.2-src.zip"这个压缩包中,你将找到Tika的源代码,这对于理解其工作原理和进行自定义扩展非常有帮助。"tika-app-1.2"是Tika的可执行JAR文件,它集成了所有必需的依赖项,可以直接运行,用于处理和...

Global site tag (gtag.js) - Google Analytics