DMC文本抽出支持office、pdf、邮件、压缩文件等几乎所有软件的各个版本的文本提取以及邮件中的附件、压缩文件中的压缩文件、嵌入文件中的文件的文本提取。
DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。本产品采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属性抽出函数,页抽出函数,设定User Password的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。本产品在国内外得到了广泛的应用,在产品性能和质量上都得到了用户高度的好评。
产品功能:
1. 文件格式自动识别功能
本产品通过解析文件内部的信息,自动识别生成文件的应用程序名和其版本号,不依赖于文件的扩展名,能够正确识别文件格式和相应的版本信息。可以识别的文件格式如下: 支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、压缩文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式
2. 文本抽出功能
即使系统中没有安装作成文件的应用程序,可以从指定的文件或插入到文件中的OLE中抽出文本数据。
3. 文件属性抽出功能
从指定的文件中,抽出文件属性信息。
4. 页抽出功能
从文件中,抽出指定页中文本数据。
5. 对加密的PDF文件文本抽出功能
从设有打开文档口令密码的PDF文件中抽出文本数据。
6. 流(Stream)抽出功能
从指定的文件、或是嵌入到文件中的OLE对象中向流里抽取文本数据。
7. 支持的语言种类
本产品支持以下语言:英语,中文简体,中文繁体,日本语,韩国语
8. 支持的字符集合的种类
抽出文本时,可以指定以下的字符集合作为文本文件的字符集(也可指定任意特殊字符集,但需要另行定制开发):GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等。
目前,DMCTextFilter V4.2 纯文本抽出通用程序库产品在数字图书馆,搜索引擎,全文检索,数据库等各个领域得到了广泛应用。在世界各地得到了众多知名企业的青睐。本产品在性能和质量上都得到了用户高度评价。我司将不懈努力,继续为用户提供品质优良,性能可靠的一流产品。为用户提供优良的技术服务,满足用户的各种需求。
在实际的推广和应用中,我公司的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图书馆,电子商务等领域。
目前主要突出体现出如下应用价值:
1) 为海量非结构化资源提供了智能加工工具,提高信息资源加工效率;同时,可为政务信息资源服务的使用者提供智能检索和挖掘分析的手段,放大政务信息资源增值效用。
2) 此软件在国家相关部门的搜索引擎以及多个行业垂直搜索引擎服务的建设中,获得了成功应用,可以为提高垂直搜索引擎服务的智能化、行业化和知识化水平奠定了基础。
3) 此软件为相关机构从事内容安全管理提供了智能化的技术,可以降低监管成本,提高监管效率。
4) 此软件可以作为信息资源利用和知识管理应用的基础构件,为企业信息资源的加工、分析和服务提供先进智能的文本转换技术。
相关推荐
### ETL数据抽取使用——以Kettle为例 #### 一、引言 随着大数据时代的到来,数据处理成为了企业和组织日常运营的重要组成部分。ETL(Extract, Transform, Load)作为数据集成的关键步骤,对于确保数据质量及提升...
根据数据来源的不同,数据抽取主要可以分为两大类别:数据库抽取和纯文本抽取。 ##### 1. 数据库抽取 数据库抽取是指从关系数据库中抽取数据的过程,通常涉及全量抽取和增量抽取两种方式: - **全量抽取**:将...
数据抽取工具,可以实现多种数据库之间的数据复制 ; 默认管理员密码:1233211234567
在这个场景中,"技术领域+数据抽取+应用工具ES" 指的是使用特定的应用工具——可能是Elasticsearch(ES),来进行数据抽取操作。Elasticsearch是一款强大的开源搜索引擎,同时也广泛用于数据处理和分析。 **数据...
在IT行业中,数据抽取、转换和加载(ETL)是数据仓库和大数据处理的重要环节。本文将探讨如何实现一个工具,用于在Oracle和SQL Server数据库之间进行数据的抽取与转换。Oracle是广受欢迎的关系型数据库管理系统,而...
Frescoar Data Manager 是一款强大的数据迁移工具,其核心功能在于ETL(Extract, Transform, Load),即数据抽取、转换和加载。该软件专为高效、稳定的数据迁移设计,不仅提供软件产品,还配套全面的数据迁移解决...
课程通过PPT形式,详细讲解了数据清洗的重要环节——数据抽取,包括文本文件抽取、Web数据抽取、数据库数据抽取以及增量数据抽取等关键知识点。 **第五章 数据抽取** 1. **文本文件抽取** - 文本文件抽取的核心是...
ETL(Extract, Transform, Load)数据抽取工具是数据仓库和大数据处理中不可或缺的一部分,它主要负责从各种数据源中提取数据,经过清洗、转换,然后加载到目标系统,如数据库或数据分析平台。本篇文章将重点介绍ETL...
DUL数据抽取工具的源码对于深入理解Oracle数据库的数据恢复机制以及进行定制化的数据抢救工作具有极高的价值。 在数据库遇到严重错误,如物理损坏、逻辑错误或意外删除时,常规的备份可能无法直接恢复数据。此时,...
Kettle,全称为Pentaho Data Integration(PDI),是一款强大的数据集成工具,主要用于数据抽取、转换和加载(ETL)过程。在信息技术领域,ETL是数据仓库建设中的核心环节,它负责从不同的数据源抽取数据,进行清洗...
《数据仓库工具箱——维度建模权威指南》第三版是一本深入探讨数据仓库设计与构建的专业书籍,尤其在维度建模领域提供了详尽的指导。维度建模是数据仓库设计的核心技术,它使得业务分析和决策支持变得更加高效、直观...
基于改进BERT算法的专利实体抽取研究——以石墨烯为例 实体关系抽取是判断专利新颖性的核心环节,传统的实体关系抽取都是采用串行方式来进行,有很大的局限性。该文利用两种改进的BERT算法研究了专利实体关系抽取的...
Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 的主要功能是将数据从来源端经过萃取、转置、加载至目的端的过程。Kettle 中有两种...
对于oracle数据库,如果因为软件或者系统问题导致的实例不能启动,在没有其他办法的情况下,如果数据文件没有损坏,可使用此工具从数据文件中直接抽取数据。 工具名为ParnassusData,使用有限制需注册使用。
在用于ETL工具进行数据抽取的郭晨各种更通长会出现一个初始化方法在单元测试时可以完美运行单一旦加载到服务器上的时候就会出现异常,一般情况下就是少少这个jar包。
基于python实现中文医学文本实体关系抽取源码+数据集+项目说明.zip 【项目介绍】 CHIP-2020-2中文医学文本实体关系抽取数据集,数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百...
数据备份技术是IT行业中至关重要的一个领域,尤其是在大数据和企业级应用中,数据仓库作为数据备份的核心工具,扮演着保存历史数据、支持决策分析的关键角色。数据仓库是一种专门设计用于查询和分析的系统,它从各种...