`

数据转换服务-文本抽出技术

阅读更多

利用我公司自主开发的数据格式转换产品,面向社会各界,提供数据转换技术服务。根据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式。本公司向广大用户承诺,数据格式转换结果满足用户的需求,收费价格合理。为用户提供质量优良的技术服务。

 

    DMC Text Filter是北京市红樱枫软件有限公司自主独立开发完成的,支持多平台、多线程、多语言的通用文本抽出程序库。利用该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出。

  (1)原数据文件的语言
    中国语(简体/繁体),英语,日本语及韩国语。

  (2)文本抽出时可以指定以下的文字集合
    ★中文简体(GB2312、GB18030、GBK)
    ★中文繁体(Big5)
    ★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)
    ★韩文(KoreanKSC)
    ★西文(ISO8859-1~15)
    ★Unicode(UTF8、UTF16、UCS4、UCS8)

  (3)原数据文件格式的种类
    ·Microsoft Word95/97/98/2000/2003/XP
    ·Microsoft Excel95/97/2000/2003/XP
    ·Microsoft PowerPoint95/97/2000/2003/XP
    ·Adobe PDF 1.2/1.3/1.4/1.5
    ·Adobe PageMaker 6.0/6.5
    ·Microsoft RTF
    ·Lotus 1-2-3 R5/97/98/2000
    ·Works 2000 WP/DB/SS
    ·一太郎 7/8/9/10/11/12/13
    ·OASYS V3/V4/V5/V6/V7/V8 OA2
    ·ClarisWorks 4.0
    ·AppleWorks 6
    ·WordPerfect Office 2000(仅限于WordPerfect 8/9 )
    ·Corel Presentations 9(Slide show 7/8/9)
    ·QuarkXPress 3.3/4
    ·AutoCAD R13/LT95/ R14/LT97 DXF
    ·AutoCAD 2000/2002
    ·DocuWorks Ver.4/5
    ·HTML
    ·XML

  (4)文本抽出时可以指定以下的功能
    ★从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
    ★从指定的文件中,将文件的属性信息进行抽出。
    ★从指定的文件中,抽出指定页中的文本数据。
    ★从设定了安全保护的PDF文件中抽出文本数据。

0
0
分享到:
评论

相关推荐

    从MFC中抽出的CString类

    使用Format()方法,你可以像C语言中的printf函数一样,将格式化的数据插入到字符串中,支持整型、浮点型等各种类型的数据转换。 4. **拼接与比较:** 通过`+`或`+=`运算符,你可以方便地连接两个或多个CString...

    HTML5CSS3实现的超炫卡片抽出动画特效源码.zip

    卡片抽出动画的核心在于CSS3的转换(transform)和过渡(transition)属性。转换可以改变元素的位置、大小、旋转等属性,而过渡则让这些变化过程平滑进行。例如,可以通过设置transform: translateX()和transform: ...

    poi转word含包

    标题中的“poi转word含包”指的是使用Apache POI库将数据从Excel(通常使用POI处理)转换为Microsoft Word文档。Apache POI是Java的一个开源项目,它提供了API来读取、创建和修改Microsoft Office格式的文件,包括...

    dvbbs 6.0 to vbv 2.3.0转换程序

    动网论坛6.0 转 VBB 【我发现近来要这个程序的人比较多,希望大家顶一顶,这样我就轻松一点】 上一次在发布后很多人问我这个那个问题,其实也是因为程序有点问题,而我自己时间不多,所以尽量抽出时间把它...

    拼音编码表

    拼音编码表是一种将汉字转换为拼音并进一步编码的数据结构或列表。在计算机处理中文文本时,这种转换非常关键,它不仅用于文字输入法的设计,还广泛应用于语言处理、语音识别等多个领域。 #### 二、拼音编码表的...

    GettingDataProject:获取和清理数据课程项目的回购

    将数据集转换为整洁数据集并最终生成一组平均值的 R 脚本, 描述最终数据集中变量的码本, 每个主题/活动组合的每个变量的平均值的文本文件输出, 这个自述 ##Requirements 我的脚本使用了 R 的 reshape2 包。我...

    黑龙江省肇东市第一中学2015-2016学年高二数学下学期期中试题理.doc

    13. 进制转换:将5进制数321转换为10进制,需要应用进制转换的规则。 14. 数的整除性:192016被5整除的条件与末尾数字有关,根据这个条件,可以确定`m`的值。 15. 随机事件的概率:事件A的概率`P(A) = kx`,且`P(A...

    php字符串操作全实例心得

    convert_cyr_string 函数将古斯拉夫字符串转换成其它字符串,以便于在不同的系统之间传输数据。 7. crypt: 将字符串用 DES 编码加密 crypt 函数将字符串用 DES 编码加密,以保护数据的安全。 8. echo: 输出字符串...

    ps高级考证第六单元

    8. **文本处理**:掌握文本工具的使用,如设置字体、大小、颜色,应用文本样式,以及进行文本变形和路径文本。 9. **非破坏性编辑**:通过智能对象实现非破坏性编辑,保持原始数据的完整,便于后期调整。 10. **...

    正则表达式

    当一个正则表达式成功地和目标字符串相匹配时,可以从目标串中抽出和括号中的子模式相匹配 的部分.例如,假定我们正在检索的模式是一个或多个字母后面跟随一位或多位数字,那么我们可以使用模式 / [a-z] + \ d+/.但是...

    廖雪峰python3教程

    6. 高级特性:介绍了切片、迭代、列表生成式、生成器、迭代器、函数式编程、高阶函数等,这些都是Python语言中支持编程范式转换和高效编程的特性。 7. 模块:模块是Python程序的基本组织单位,教程中解释了如何使用...

Global site tag (gtag.js) - Google Analytics