阅读更多

6顶
0踩

开源软件
Apache Tika 1.0 正式发布了。



Apache Tika是一种利用现有的解析类库,从不同格式的文档中(例如HTML、PDF、Doc等)检测和提取元数据、结构化文本内容的工具包。

其功能包括:

  • 检测文档的类型、字符编码、语言以及其他现有文档的属性。
  • 提取结构化的文本内容。
  • 支持20多种常见的文件格式,包括各种Office文档格式、压缩格式、网页格式、文本格式等。
Apache Tika主要用于搜索引擎以及其他内容索引和分析工具,其编程语言为Java。Tika项目于2007年3月启动,最开始是Apache Lucene(全文检索引擎工具包)的子项目,现在已经成为了Apache组织的顶级开源项目。

Apache Tika 1.0在之前版本基础上,针对API、配置、OSGi以及各种文档(包括RTF、MS Office、PDF、OpenOffice等文档)作了大量改进。

详细改进参阅:http://www.apache.org/dist/tika/CHANGES-1.0.txt

项目官网:http://tika.apache.org/

下载地址:http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.0-src.zip

  • 大小: 21.7 KB
6
0
评论 共 3 条 请登录后发表评论
3 楼 stta04 2011-12-29 21:38
1.0和0.9版本变化还不小啊,搞得人都找+_+了。
2 楼 yuhe 2011-11-10 09:34
是不错,就是jar太大,23M呢。
1 楼 hu437 2011-11-09 17:33
这个不错~~

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Linux下Com组件例子

    Linux 下C++ Com组件demo

  • XPCOM--LINUX下的组件开发技术

    XPCOM LINUX下的组件开发技术   COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件

  • 创建 XPCOM 组件:XPCOM 简介

     LINUX下的组件开发技术 COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件模块的复用。 

  • 在Linux下实现COM组件(原创)

    <br />好久没有写代码啦,今天翻到大学时候写的COM组件,当时那个叫崇拜COM技术啊。不过发现,工作中根本没啥用处。反正没事干,想想把COM组件在Linux环境下,实现一下。<br />COM组件是一种编程规范,它规定了软件编程的一般方法,虽然它由Microsoft公司制定和提出,但是它的规则也可以在Linux下使用,下面是在Linux下实现COM组件的方法。<br />----参考《COM技术内幕》一书。<br />COM实现的技术,主要是C++的虚函数、多继承以及动态链接库(DLL)技术。<br /

  • 解决Firefox无法打开问题,提示Couldn’d load XPCOM

        最近通过emerge安装了Eclipse,结果把libjpeg.so也作为依赖更新了,后来打开firefox,半天没有反应,在shell中打开,提示Couldn’d load XPCOM。我又试了一下别的程序,Konqueror、Seamonkey、Galeon、Epiphany、Thunderbird、Webhttrack都无法打开了,Konqueror还好,有提示,说找不到libjpe

  • COM组件技术在Linux C++下的使用例子

    COM的接口 看了Window下的COM组件知识后,就想在Linux下 模仿写一个Com相关的例子,这几天刚好有时间,就写了一个小例子,现在把它分享出来,希望各位能提出宝贵的意见

  • Mozilla XPCOM组件开发常见错误解决方法

    最近做Firefox的开发,一直在用javascript写XPCOM组件,javascript这个东东来写XPCOM非常痛苦,有一点错误都无法注册成功,许多时候基本靠肉眼一个单词一个单词的找,当然也有一些技巧。Firefox开发最常用的工具有firebug,javascript Debug和XPCOMViewer,使用XPCOMViewer来查看已注册的组件。 常见的错误: 一、死活注册不上: 注...

  • Linux运行firefox出错

    虚拟机自带的firefox版本太旧了,于是在官网上下载了最新的安装包,运行后提示: $ firefox XPCOMGlueLoad error for file /home/parallels/firefox-32/libmozgtk.so: libgtk-3.so.0: cannot open shared object file: No such file or directory Coul

  • yum groupinstall "Development Tools" 批量安装软件 linux

    注:可以通过yumgrouplist来查看可能批量安装哪些列表从Windows转到Linux下面,一个不习惯的地方就是在图形界面下安装和删除软件的时候非常缓慢。但是如果你掌握了用yum的命令行模式进行配置程序,你肯定会从心底喜欢上这个强大的工具。因为yum提供了查找、安装、删除某一个、一组甚至全部软件包的命令,而且命令简洁而又好记。yum的命令形式一般是如下:yum...

  • How to build the environment of XPCOM in Windows XP

    v/:* {behavior:url(#default#VML);}o/:* {behavior:url(#default#VML);}w/:* {behavior:url(#default#VML);}.shape {behavior:url(#default#VML);} Normal 0 7.8 磅 0 2

  • 用Visual Studio创建XPCOM组件

    一、开发环境设置下载XULRunner和XULRunner SDK,当前版本是1.8.1.3。可以在http://releases.mozilla.org/pub/mozilla.org/xulrunner/releases/找到最新的版本。解压到一个目录下,我的目录结构: 这个SDK里还需要两个dll文件,下载wintools.zip,从buildtools/windows/bin/x86里拷贝

  • XPCOM--LINUX下的组件开发技术的一些补充与说明

    XPCOM--LINUX下的组件开发技术的一些补充与说明   原文出自:《世界商业评论》ICXO.COM ( 日期:2004-07-14 13:56) --------------------------------------------------------------------------------   boise  bjgxjob@163.com-------------------

  • 在Linux下实现COM组件

    好久没有写代码啦,今天翻到大学时候写的COM组件,当时那个叫崇拜COM技术啊。不过发现,工作中根本没啥用处。反正没事干,想想把COM组件在Linux环境下,实现一下。 COM组件是一种编程规范,它规定了软件编程的一般方法,虽然它由Microsoft公司制定和提出,但是它的规则也可以在Linux下使用,下面是在Linux下实现COM组件的方法。 ----参考《COM技术内幕》一书。 COM实现的技术,主要是C++的虚函数、多继承以及动态链接库(DLL)技术。 COM组件的实现: --类型定义文件

  • 在Linux系统下初始化COM组件,Linux操作系统的引导和初始化.doc

    Linux操作系统的引导和初始化系统引导和初始化概述相关代码(引导扇区的程序及其辅助程序,以x86体系为例):\linux-2.4.22\arch\i386\boot\bootsect.S:Linux引导扇区的源代码;512字节\linux-2.4.22\arch\i386\boot\setup.S:辅助程序;\linux-2.4.22\arch\i386\boot\video.S:辅助程序,用于...

  • linux的com技术,《com 技术内幕》

    《com 技术内幕》第1章 组件1、COM,即组件对象模型,是关于如何建立组件以及如何通过组件建构应用程序的一个规范。2、组件的优点:应用程序可随时间的流逝而发展变化;定制应用程序;组件库;分布式组件。3、对组件的需求:组件必须动态连接;必须隐藏其内部实现细节。4、COM组件是以Win32动态链接库(DLLs)或可执行文件(EXEs)的形式发布的可执行代码组成的。遵循COM规范编写的组件将能够满足...

Global site tag (gtag.js) - Google Analytics