阅读更多

6顶
0踩

开源软件
Apache Tika 1.0 正式发布了。



Apache Tika是一种利用现有的解析类库,从不同格式的文档中(例如HTML、PDF、Doc等)检测和提取元数据、结构化文本内容的工具包。

其功能包括:

  • 检测文档的类型、字符编码、语言以及其他现有文档的属性。
  • 提取结构化的文本内容。
  • 支持20多种常见的文件格式,包括各种Office文档格式、压缩格式、网页格式、文本格式等。
Apache Tika主要用于搜索引擎以及其他内容索引和分析工具,其编程语言为Java。Tika项目于2007年3月启动,最开始是Apache Lucene(全文检索引擎工具包)的子项目,现在已经成为了Apache组织的顶级开源项目。

Apache Tika 1.0在之前版本基础上,针对API、配置、OSGi以及各种文档(包括RTF、MS Office、PDF、OpenOffice等文档)作了大量改进。

详细改进参阅:http://www.apache.org/dist/tika/CHANGES-1.0.txt

项目官网:http://tika.apache.org/

下载地址:http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.0-src.zip

  • 大小: 21.7 KB
6
0
评论 共 3 条 请登录后发表评论
3 楼 stta04 2011-12-29 21:38
1.0和0.9版本变化还不小啊,搞得人都找+_+了。
2 楼 yuhe 2011-11-10 09:34
是不错,就是jar太大,23M呢。
1 楼 hu437 2011-11-09 17:33
这个不错~~

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Linux下Com组件例子

    Linux 下C++ Com组件demo

  • XPCOM--LINUX下的组件开发技术

    XPCOM LINUX下的组件开发技术   COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件

  • 创建 XPCOM 组件:XPCOM 简介

     LINUX下的组件开发技术 COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件模块的复用。 

  • linux的com技术,《com 技术内幕》

    《com 技术内幕》第1章 组件1、COM,即组件对象模型,是关于如何建立组件以及如何通过组件建构应用程序的一个规范。2、组件的优点:应用程序可随时间的流逝而发展变化;定制应用程序;组件库;分布式组件。3、对组件的需求:组件必须动态连接;必须隐藏其内部实现细节。4、COM组件是以Win32动态链接库(DLLs)或可执行文件(EXEs)的形式发布的可执行代码组成的。遵循COM规范编写的组件将能够满足...

  • XPCOM简介

          Cross Platform Component Object Module (XPCOM) 是一个允许开发人员把一个大的工程划分成小的模块的框架. 这些小模块称为组件, 它们在运行时刻组装在一起. XPCOM 的目标是使软件的不同部分分别开发, 相互独立. 为了是应用的不同组件之间能够互操作, XPCOM 把组件的实现与接口(后面讨论接口)分开. 同时 XPCOM 还提供了加载...

  • 火狐 load xpcom_为Firefox浏览器创建并实现XPCOM组件

    跨平台组件对象模型(XPCOM)是Mozilla的跨平台组件模型,类似于CORBA和Microsoft®COM。 它具有多种语言绑定和IDL描述,因此XPCOM组件可以在JavaScript,Java™语言,Python和C ++中使用和实现。 您可以将自定义函数插入框架,并将它们与其他组件连接。 XPCOM支持Windows®和Linux®平台。 在本文中,所有指令,环境变量和命令行都将...

  • 本人整理的xpcom资料合集

    本人近两年整理的xpcom资料合集,包括接口资料以及相应教学资料

  • 浅谈Linux系统的几大组件

    在Linux启动期间,最顶层的文件系统与该目录相关联(即挂载到该目录),该文件系统的所有内容都显示在/下。在Linux中,内核将程序分别加载到内存中,内核要求这些程序存储在组织成文件和目录的某种介质上。引导加载程序的主要工作是找到操作系统的二进制程序,将该二进制程序加载到内存中,然后运行操作系统。由于嵌入式系统有不同的硬件限制,因此Linux嵌入式系统常常使用特殊的文件系统格式,而不是台式机或便携式计算机上使用的典型的EXT3、EXT4、btrfs或xfs。在Linux下,服务只是在后台运行的程序。

  • xpcom简介

    xpcom可以看作是开源版的Microsoft COM,但是目前应用的范围比较有限,主要是firefox的gecko引擎在使用。xpcom不是浏览器的插件,而是浏览器本身。火狐浏览器就是一堆的xpcom组件构成的。在火狐里面,基本上所有与浏览器相关的功能都被定义成了组件的形式,包括网页间的跳转,窗口管理,cookie 管理,书签,安全,搜索,润色等等的其他功能, 这些功能都是由组件的接口提供的...

  • Linux的基本组件是什么?思维导图 代码示例(java 架构)

    这些组件共同构成了一个完整的Linux操作系统,使得Linux能够有效地管理和利用硬件资源,同时为用户提供丰富的计算环境。

  • Linux 发行版的组件是什么?

    有很多组件构成了Linux发行版,这些组件可能会从一个发行版更改为另一个发行版,它们可能完全不同,但这是一件好事,因为代码是开源的,你可以用你的操作系统做任何你想做的事情。

  • 在Linux下实现COM组件(原创)

    <br />好久没有写代码啦,今天翻到大学时候写的COM组件,当时那个叫崇拜COM技术啊。不过发现,工作中根本没啥用处。反正没事干,想想把COM组件在Linux环境下,实现一下。<br />COM组件是一种编程规范,它规定了软件编程的一般方法,虽然它由Microsoft公司制定和提出,但是它的规则也可以在Linux下使用,下面是在Linux下实现COM组件的方法。<br />----参考《COM技术内幕》一书。<br />COM实现的技术,主要是C++的虚函数、多继承以及动态链接库(DLL)技术。<br /

  • firefox附加组件开发者指南(四)——使用XPCOM:实现高级处理

    本章描述如何利用javascript脚本语言使用XPCOM来实现高级的处理。 概述 Javascript没有类似于用来打开文件以及进行字符编码转换的函数。要实现这些功能需要采用其他机制。IE使用activex来处理,在firefox中我们使用XPCOM(跨平台组件对象模型)。 关于XPCOM XPCOM是用来开发独立于平台的组件的一个框架(framework)。在这个框架下开发的组

  • XPCOM指南-4_创建组件的代码

    创建组件的代码   本章会讲述一些基本代码,这些代码用于处理你的组件与XPCOM之间的关系。 如何发现和注册组件是本指南的第一节的目标。在后续的章节里,我们就可以专注WebLock本生的功能开发了。   为了创建组件库并把它加载进XPCOM,你需要编写大量的代码。 一个XPCOM组件至少需要实现XPCOM必须的3个接口,而且往往还要其它的接口。 这一章你将会看到更多的代码,然而这些

  • xpcom:思想理解,思考总结

    1.xpcom的思想核心,将接口与实现分开,接口写在固定的idl文件。具体的实现则是相应的c++或js文件。 这样的目的是使得所定义的接口可在全范围内使用,只要引了.idl???是这样吗? 2.所以创建一个xpcom 组件的方法是什么呢??? idl file. js implement file.这是实现部分???如何使用呢?? 通过xpcom.component.xxx来注册使用。所以...

  • Linux学习总结(三):Linux系统组件

    文章目录1.UBoot2.Kernel(1)Linux内核(2)linux内核组成3.dtb(1)设备树简介(2)DTS的加载过程4.根文件系统 完整的linux系统,通常包含了系统运行需要的4个基础组件:Uboot、Kernel、**.dtb以及根文件系统。 1.UBoot UBoot,全称 Universal Boot Loader,主要作用是用来启动操作系统内核。 uBoot分为两个阶段,即boot + loader: boot阶段启动系统,初始化硬件设备,建立内存空间映射图,将系统的软硬件带到一个

  • linux 常见组件

    1:-bash: scp: command not found #yum -y install openssh-clients   2:-bash: wget: command not found #yum -y install wget    

  • 使用XPCOM

    开始使用XPCOM的最好方法是,看客户端怎么使用XPCOM。尤其是当你要设计接口给其他人使用时。 像Mozilla浏览器的应用程序复杂,模块化的客户XPCOM组件,实际上,几乎用到的所有的功能,包括导航、窗口管理、cookies管理,书签, 安全、搜索、渲染和其他特性都是定义为XPCOM组件并通过接口访问。Mozilla由XPCOM组件构成。本章演示了Mozilla怎么使用XPC

  • Linux 的基本组件是什么

    flink技术学习待续

Global site tag (gtag.js) - Google Analytics