阅读更多

6顶
0踩

开源软件
Apache Tika 1.0 正式发布了。



Apache Tika是一种利用现有的解析类库,从不同格式的文档中(例如HTML、PDF、Doc等)检测和提取元数据、结构化文本内容的工具包。

其功能包括:

  • 检测文档的类型、字符编码、语言以及其他现有文档的属性。
  • 提取结构化的文本内容。
  • 支持20多种常见的文件格式,包括各种Office文档格式、压缩格式、网页格式、文本格式等。
Apache Tika主要用于搜索引擎以及其他内容索引和分析工具,其编程语言为Java。Tika项目于2007年3月启动,最开始是Apache Lucene(全文检索引擎工具包)的子项目,现在已经成为了Apache组织的顶级开源项目。

Apache Tika 1.0在之前版本基础上,针对API、配置、OSGi以及各种文档(包括RTF、MS Office、PDF、OpenOffice等文档)作了大量改进。

详细改进参阅:http://www.apache.org/dist/tika/CHANGES-1.0.txt

项目官网:http://tika.apache.org/

下载地址:http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.0-src.zip

  • 大小: 21.7 KB
6
0
评论 共 3 条 请登录后发表评论
3 楼 stta04 2011-12-29 21:38
1.0和0.9版本变化还不小啊,搞得人都找+_+了。
2 楼 yuhe 2011-11-10 09:34
是不错,就是jar太大,23M呢。
1 楼 hu437 2011-11-09 17:33
这个不错~~

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Linux下Com组件例子

    Linux 下C++ Com组件demo

  • XPCOM--LINUX下的组件开发技术

    XPCOM LINUX下的组件开发技术   COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件

  • 创建 XPCOM 组件:XPCOM 简介

     LINUX下的组件开发技术 COM技术作为微软推行的一种组件技术,在WINDOWS平台站有重要地位,在模块重用,跨语言通信等方面都能见到其身影。但今天给我要介绍的是LINUX下的COM实现----XPCOM,这是MOZILLA浏览器项目中所使用的基本技术,我们可以用C++制作XPCOM组件,在C++客户程序或MOZILLA浏览器中通过JAVASCRIPT脚本来调用组件,从而实现软件模块的复用。 

  • linux的com技术,《com 技术内幕》

    《com 技术内幕》第1章 组件1、COM,即组件对象模型,是关于如何建立组件以及如何通过组件建构应用程序的一个规范。2、组件的优点:应用程序可随时间的流逝而发展变化;定制应用程序;组件库;分布式组件。3、对组件的需求:组件必须动态连接;必须隐藏其内部实现细节。4、COM组件是以Win32动态链接库(DLLs)或可执行文件(EXEs)的形式发布的可执行代码组成的。遵循COM规范编写的组件将能够满足...

  • 浅谈Linux系统的几大组件

    在Linux启动期间,最顶层的文件系统与该目录相关联(即挂载到该目录),该文件系统的所有内容都显示在/下。在Linux中,内核将程序分别加载到内存中,内核要求这些程序存储在组织成文件和目录的某种介质上。引导加载程序的主要工作是找到操作系统的二进制程序,将该二进制程序加载到内存中,然后运行操作系统。由于嵌入式系统有不同的硬件限制,因此Linux嵌入式系统常常使用特殊的文件系统格式,而不是台式机或便携式计算机上使用的典型的EXT3、EXT4、btrfs或xfs。在Linux下,服务只是在后台运行的程序。

  • Linux的基本组件是什么?思维导图 代码示例(java 架构)

    这些组件共同构成了一个完整的Linux操作系统,使得Linux能够有效地管理和利用硬件资源,同时为用户提供丰富的计算环境。

  • Linux 发行版的组件是什么?

    有很多组件构成了Linux发行版,这些组件可能会从一个发行版更改为另一个发行版,它们可能完全不同,但这是一件好事,因为代码是开源的,你可以用你的操作系统做任何你想做的事情。

  • 在Linux下实现COM组件(原创)

    <br />好久没有写代码啦,今天翻到大学时候写的COM组件,当时那个叫崇拜COM技术啊。不过发现,工作中根本没啥用处。反正没事干,想想把COM组件在Linux环境下,实现一下。<br />COM组件是一种编程规范,它规定了软件编程的一般方法,虽然它由Microsoft公司制定和提出,但是它的规则也可以在Linux下使用,下面是在Linux下实现COM组件的方法。<br />----参考《COM技术内幕》一书。<br />COM实现的技术,主要是C++的虚函数、多继承以及动态链接库(DLL)技术。<br /

  • Linux学习总结(三):Linux系统组件

    文章目录1.UBoot2.Kernel(1)Linux内核(2)linux内核组成3.dtb(1)设备树简介(2)DTS的加载过程4.根文件系统 完整的linux系统,通常包含了系统运行需要的4个基础组件:Uboot、Kernel、**.dtb以及根文件系统。 1.UBoot UBoot,全称 Universal Boot Loader,主要作用是用来启动操作系统内核。 uBoot分为两个阶段,即boot + loader: boot阶段启动系统,初始化硬件设备,建立内存空间映射图,将系统的软硬件带到一个

  • linux 常见组件

    1:-bash: scp: command not found #yum -y install openssh-clients   2:-bash: wget: command not found #yum -y install wget    

  • 解决Firefox无法打开问题,提示Couldn’d load XPCOM【完美解决】

    先说一下原因: 这是因为浏览器注册的组件出错所致。为了解决这个问题,可以尝试充分卸载火狐浏览器后再重新安装。 请注意:所谓的彻底卸载是指包括清除所有之前火狐浏览器的安装信息,包括注册表信息。 我个人是卸载后又安装到导致的这个情况,百度了许久也没有找到一个完整的解决流程,于是自己摸索了一下。   首先,需要完全删除火狐: 1、在电脑桌面,打开“开始”菜单,选择“所有程序”这一项,然后在其...

  • Linux 的基本组件是什么

    flink技术学习待续

  • os的组成

    这个问题不难的,Linux内核由进程管理、内存管理、文件系统、网络协议、进程间通信、设备驱动等模块组成,如下图所示。 一个完整的Linux内核一般由5部分组成,它们分别是内存管理、进程管理、进程间通信、虚拟文件系统和网络接口。1、内存管理 内存管理主要完成的是如何合理有效地管理整个系统的物理内存,同时快速响应内核各个子系统对内存分配的请求。Linux内存管理支持虚拟内存,而多余出的这部

  • COM组件技术在Linux C++下的使用例子

    COM的接口 看了Window下的COM组件知识后,就想在Linux下 模仿写一个Com相关的例子,这几天刚好有时间,就写了一个小例子,现在把它分享出来,希望各位能提出宝贵的意见

  • COM组件入门(一)

    最近需要用到COM组件的知识,看了看COM编程指南,感觉还不错,把我的学习心得记录下来。这是我写

  • XPCOM编译错误

    1. LNK2019: public: wchar_t const * __thiscall nsAString::BeginReading(void)const设置VC编译选项 /Zc:wchar_t-To set this compiler option in the Visual Studio development environmentOpen the project's Property Pages dialog box. For details, see Modifying Project S

  • 火狐 load xpcom_为Firefox浏览器创建并实现XPCOM组件

    跨平台组件对象模型(XPCOM)是Mozilla的跨平台组件模型,类似于CORBA和Microsoft®COM。 它具有多种语言绑定和IDL描述,因此XPCOM组件可以在JavaScript,Java™语言,Python和C ++中使用和实现。 您可以将自定义函数插入框架,并将它们与其他组件连接。 XPCOM支持Windows®和Linux®平台。 在本文中,所有指令,环境变量和命令行都将...

Global site tag (gtag.js) - Google Analytics