阅读更多

6顶
0踩

开源软件
Apache Tika 1.0 正式发布了。



Apache Tika是一种利用现有的解析类库,从不同格式的文档中(例如HTML、PDF、Doc等)检测和提取元数据、结构化文本内容的工具包。

其功能包括:

  • 检测文档的类型、字符编码、语言以及其他现有文档的属性。
  • 提取结构化的文本内容。
  • 支持20多种常见的文件格式,包括各种Office文档格式、压缩格式、网页格式、文本格式等。
Apache Tika主要用于搜索引擎以及其他内容索引和分析工具,其编程语言为Java。Tika项目于2007年3月启动,最开始是Apache Lucene(全文检索引擎工具包)的子项目,现在已经成为了Apache组织的顶级开源项目。

Apache Tika 1.0在之前版本基础上,针对API、配置、OSGi以及各种文档(包括RTF、MS Office、PDF、OpenOffice等文档)作了大量改进。

详细改进参阅:http://www.apache.org/dist/tika/CHANGES-1.0.txt

项目官网:http://tika.apache.org/

下载地址:http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.0-src.zip

  • 大小: 21.7 KB
6
0
评论 共 3 条 请登录后发表评论
3 楼 stta04 2011-12-29 21:38
1.0和0.9版本变化还不小啊,搞得人都找+_+了。
2 楼 yuhe 2011-11-10 09:34
是不错,就是jar太大,23M呢。
1 楼 hu437 2011-11-09 17:33
这个不错~~

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Linux下Com组件例子

    Linux 下C++ Com组件demo

  • 创建 XPCOM 组件:XPCOM 简介

     LINUX下的组件开发技术 COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件模块的复用。 

  • 本人整理的xpcom资料合集

    本人近两年整理的xpcom资料合集,包括接口资料以及相应教学资料

  • 浅谈Linux系统的几大组件

    在Linux启动期间,最顶层的文件系统与该目录相关联(即挂载到该目录),该文件系统的所有内容都显示在/下。在Linux中,内核将程序分别加载到内存中,内核要求这些程序存储在组织成文件和目录的某种介质上。引导加载程序的主要工作是找到操作系统的二进制程序,将该二进制程序加载到内存中,然后运行操作系统。由于嵌入式系统有不同的硬件限制,因此Linux嵌入式系统常常使用特殊的文件系统格式,而不是台式机或便携式计算机上使用的典型的EXT3、EXT4、btrfs或xfs。在Linux下,服务只是在后台运行的程序。

  • firefox附加组件开发者指南(四)——使用XPCOM:实现高级处理

    本章描述如何利用javascript脚本语言使用XPCOM来实现高级的处理。 概述 Javascript没有类似于用来打开文件以及进行字符编码转换的函数。要实现这些功能需要采用其他机制。IE使用activex来处理,在firefox中我们使用XPCOM(跨平台组件对象模型)。 关于XPCOM XPCOM是用来开发独立于平台的组件的一个框架(framework)。在这个框架下开发的组

  • XPCOM指南-4_创建组件的代码

    创建组件的代码   本章会讲述一些基本代码,这些代码用于处理你的组件与XPCOM之间的关系。 如何发现和注册组件是本指南的第一节的目标。在后续的章节里,我们就可以专注WebLock本生的功能开发了。   为了创建组件库并把它加载进XPCOM,你需要编写大量的代码。 一个XPCOM组件至少需要实现XPCOM必须的3个接口,而且往往还要其它的接口。 这一章你将会看到更多的代码,然而这些

  • xpcom:思想理解,思考总结

    1.xpcom的思想核心,将接口与实现分开,接口写在固定的idl文件。具体的实现则是相应的c++或js文件。 这样的目的是使得所定义的接口可在全范围内使用,只要引了.idl???是这样吗? 2.所以创建一个xpcom 组件的方法是什么呢??? idl file. js implement file.这是实现部分???如何使用呢?? 通过xpcom.component.xxx来注册使用。所以...

  • linux 常见组件

    1:-bash: scp: command not found #yum -y install openssh-clients   2:-bash: wget: command not found #yum -y install wget    

  • 使用XPCOM

    开始使用XPCOM的最好方法是,看客户端怎么使用XPCOM。尤其是当你要设计接口给其他人使用时。 像Mozilla浏览器的应用程序复杂,模块化的客户XPCOM组件,实际上,几乎用到的所有的功能,包括导航、窗口管理、cookies管理,书签, 安全、搜索、渲染和其他特性都是定义为XPCOM组件并通过接口访问。Mozilla由XPCOM组件构成。本章演示了Mozilla怎么使用XPC

  • xpcom简介

    xpcom可以看作是开源版的Microsoft COM,但是目前应用的范围比较有限,主要是firefox的gecko引擎在使用。xpcom不是浏览器的插件,而是浏览器本身。火狐浏览器就是一堆的xpcom组件构成的。在火狐里面,基本上所有与浏览器相关的功能都被定义成了组件的形式,包括网页间的跳转,窗口管理,cookie 管理,书签,安全,搜索,润色等等的其他功能, 这些功能都是由组件的接口提供的...

  • XPCOM--LINUX下的组件开发技术的一些补充与说明

    XPCOM--LINUX下的组件开发技术的一些补充与说明   原文出自:《世界商业评论》ICXO.COM ( 日期:2004-07-14 13:56) --------------------------------------------------------------------------------   boise  bjgxjob@163.com-------------------

  • Linux操作系统的组件

    Linux内核、Shell、文件系统、应用程序

  • Linux查找命令或组件对应安装包的方法

    Linux查找命令或组件对应安装包的方法当新搭建服务器或者维护不熟悉的服务器环境时,难免会碰到自己想用的命令或组件不存在的情况。如何通过包管理软件,方便地找到命令或组件对应的package进行安装?下面介绍三种方法。名称搜索一种直观方法就是,猜测命令或组件与安装包同名或包含,尝试搜索安装。比如,想安装redis数据库:搜索repo的相关命令:apt-cache search {cmd} #ubunt

  • Linux开发的一些个人经验

    Linux开发的一些个人经验

  • Linux常用的基础组件

    Linux服务器(新机器) yum install gcc gcc-c++ glibc-devel make ncurses-devel openssl-devel autoconf git yuminstallmakegccgcc-c++kernel-develm4ncurses-developenssl-devel 建议先执行这些基础包的安装 转载于:http...

  • 一个简单的Demo带你走进组件化开发

           一直以来,插件化,组件化,模块化开发一直都是大家容易弄混淆的东西,而其中让人最不易分清的是插件化与组件化,那么首先从简单说起,模块化,他很好理解,他就像是我们平时开发的工具类一样,比如说,一个网络请求库就可以说是一个模块,这么说,相信大家就都懂了,再来说说两个最易混淆的。从规模上来说,他们一个是apk,一个是module,从通信角度看,一个是进程内通信(组件化)一个是进程间通信(插件...

  • 在桌面Linux环境下开发图形界面程序的方案对比

    在Linux下开发GUI程序的方法有很多,比如Gnome桌面使用GTK+作为默认的图形界面库,KDE桌面使用Qt作为默认的图形界面库,wxWidgets则是另一个使用广泛的图形库,此外使用Java中的Swing/AWT组件也可以用于开发Linux下的GUI应用。 本文将依次介绍GTK+、Qt、wxWidgets和Swing/AWT,对其进行对比分析。 1. GTK+ 平台支持 虽然GT...

  • XPCOM--LINUX下的组件开发技术

    XPCOM LINUX下的组件开发技术   COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件

  • linux的com技术,《com 技术内幕》

    《com 技术内幕》第1章 组件1、COM,即组件对象模型,是关于如何建立组件以及如何通过组件建构应用程序的一个规范。2、组件的优点:应用程序可随时间的流逝而发展变化;定制应用程序;组件库;分布式组件。3、对组件的需求:组件必须动态连接;必须隐藏其内部实现细节。4、COM组件是以Win32动态链接库(DLLs)或可执行文件(EXEs)的形式发布的可执行代码组成的。遵循COM规范编写的组件将能够满足...

Global site tag (gtag.js) - Google Analytics