`
touchinsert
  • 浏览: 1346106 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

小议信息抽取系统的结构(1) ------by songlinhai

 
阅读更多

小弟是从去年6月份开始研究信息抽取的,读了不少文献,写了两个半吊子的信息抽取系统,算是对信息抽取比较了解了。今年8、9月份就要硕士开题,我捉摸着得把自己的东西弄到一起,要不然做了的东西领导又看不见,这不白瞎了。于是我就想整个信息抽取的框架出来,自己定义些内部的接口,把写过的代码按照接口封装到框架里。这样领导看的清楚,后来的师弟师妹接我的活也方便。

大三的时候,做ms的实训,对三层架构记忆犹新,于是咱也把3层架构搬到内容抽取上。解释层,逻辑层,表示层是我给三层起的名字。解释层,顾名思义就是解释网页,它拿网页作为输入,向逻辑层提供token接口和DOM接口(copy了html parser 的设计)。逻辑层包含了实现抽取算法的代码。表示层是展示抽取结果的,我想到的也就是作为web服务展示,把抽取结果插入到数据库里,要不然就是按照特殊的格式写道文件里。

解释层

咱们coder干活的时候,总想着站在巨人的肩膀上,实在不行抱抱大腿也行。写这层代码的时候,我想咱尽可能的要得多用点开源软件。用过的具有解析html网页功能的开源软件有以下3个:

1、htmlcxx(http://htmlcxx.sourceforge.net/),c++写的,功能最差。不提供标签的补齐,不提供中文字符集的转化,处理中文的时候还经常咣当下挡掉。不过毕竟是c++的作品,跑得速度很快。

2、beautifulsoup(http://www.crummy.com/software/BeautifulSoup/),python写的。解析中文网页的时候,会默认的把网页转化成unicode,这点相当恶心,要是想转回来,除了改变字符集之外,还得记得吧charset标签的属性一并的改过来。有自动补齐标签的功能,不过得读读源码,看看是怎么补齐的。要不然,用补齐网页训练的wrapper去抽没补齐的网页,经常抽不出来。

3、html parser(http://htmlparser.sourceforge.net/),java写的。提供了token和dom两个接口,有标签补齐的功能。不过利用标签补齐的时候,向beautifulsoup那样得读读源码吧。

解释层是我们框架的最底层,有个底层设计的标准是这么说的:

一个底层结构设计是否成功,这个设计者是否称职,我一直觉得是有一个很简单的衡量标准的。你不需要看这个设计人用了多少NB的技术,你只需要关心,他的设计,是否给其他开发人员带来了困难。一个NB的设计,是将所有困难都集中在底层搞定,把其他开发人员换成白痴都可以工作的那种;一个SB的设计,是自己弄了半天,只是为了给其他开发人员一个长达250条的注意事项,然后很NB的说,你们按照这个手册去开发,就不会有问题了。。。

照这个看法,直接用那三个开源软件还远不够,继续封装,继续改造吧。我最近还有个想法是到开源浏览器firefox和chrome中去找找代码,期望能有现成的解决方案。

(待续)

分享到:
评论

相关推荐

    小议如何删除数据结构B-tree的关键字.pdf

    (3)除根节点外,每个节点至少有m/2个关键字,至多有m-1个关键字;(4)所有非叶子节点包含信息数据,如(n, A1, K1, A2, K2, A3, ..., Kn, An),其中Ki是关键字,Ai是指向子树的指针。实际上每个关键字也应包含指向...

    小议我国的价格听证制度-论文.zip

    小议我国的价格听证制度-论文.zip

    小议在航道测量中GPS-RTK定位技术的应用.pdf

    GPS-RTK(Real-Time Kinematic)定位技术是一种高精度的全球定位系统应用,尤其适用于航道测量等需要厘米级精度的领域。该技术通过实时处理载波相位观测值,能够在野外作业中实现厘米级的定位精度,极大地提高了工作...

    小议宪法规范的结构.docx

    小议宪法规范的结构.docx

    小议企业集团财务风险预警系统-3页.pdf

    企业集团财务风险预警系统是企业预防和控制财务风险的关键工具,它通过收集和分析财务数据,预测潜在的财务危机,从而为企业提供及时的决策依据。本文主要探讨了财务风险预警的两种主要方法——单变量模型和多变量...

    小议企业网络交易的税收问题-小规模企业税收问题.docx

    小议企业网络交易的税收问题-小规模企业税收问题.docx

    小议信息系统审计思考(全文).docx

    【信息系统审计概述】 信息系统审计(Information Systems Audit,简称ISA)是一种评估组织中信息技术(IT)系统安全性、效率、效果和合规性的过程。随着信息化的快速发展,信息系统审计的重要性日益凸显,审计师...

    小议国际工程的结构模式及选择.pdf

    小议国际工程的结构模式及选择.pdf

    让Struts 1焕发青春----小议对Struts的改造.

    随着时间的推移,虽然Struts 2和其他现代框架如Spring MVC、Play Framework等逐渐成为主流,但Struts 1在某些遗留系统中仍然发挥着作用。本文将探讨如何通过对Struts 1进行改造,让它在当今的开发环境中焕发生机。 ...

    小议保险公司治理结构制度建设.doc

    1. **多元化股权结构**:许多发达国家的保险公司拥有多元化的股东结构,这有助于平衡各方利益,减少内部冲突,提高决策的公正性和透明度。 2. **独立董事制度**:独立于管理层的独立董事可以在董事会中发挥监督作用...

    小议视频分享网站的侵权责任-著作权-文学.pdf

    因此,它们不构成直接侵权,但因有机会知道或应当知道直接侵权行为的存在,且有能力删除侵权内容,故构成了对信息网络传播权的间接侵权。这种间接侵权责任的前提是用户的直接侵权行为,同时要求网站经营者有能力和...

    小议证券公司信息化发展的重点与问题-证券信息化市场趋势DOC热门文档.docx

    【小议证券公司信息化发展的重点与问题】 随着全球经济逐渐步入知识经济时代,信息化已经成为各行各业发展的重要推动力。证券行业作为金融市场的重要组成部分,信息化建设对于其发展具有决定性的影响。证券公司的...

    小议建筑物及电子信息系统防雷设计.pdf

    1. 防雷系统等级的确定:根据电子信息系统所处的地理环境不同,防雷系统等级通常被划分为A、B、C、D四个等级。 2. 对共用接地装置的设计:共用接地装置是防雷系统中重要的组成部分,能有效避免电位差现象。设计时,...

    小议iOS内存管理-中文.pdf

    该池在运行结束时会自动销毁所有`autorelease`对象,但仅调用`release`方法,若对象的引用计数大于1,则仍会导致内存泄露。 #### 总结 iOS内存管理的核心在于理解对象生命周期、引用计数机制以及自动释放池的使用...

    小议信息技术课如何培养学生的信息素养的论文-教学管理.docx

    信息素养包含了信息意识、信息知识、信息能力和信息道德四个主要组成部分。在当今科技社会和信息社会,具备信息素养已成为现代人必备的基本素质,因为这直接影响到个体获取、筛选和利用信息的能力,对于个人的学习、...

    C语言版数据结构基础学习

    - 随着计算机应用领域的扩展,如数据库、操作系统等,数据结构的研究领域也不断扩展。 - 近年来,随着大数据和云计算的发展,对数据结构的需求更加多样化和复杂化。 **1.02 数据结构的基本概念** - **数据元素与...

    小议信息资源管理在图书馆的运用.doc

    《小议信息资源管理在图书馆的运用》这篇文章探讨了高校图书馆在信息资源管理中的关键环节,包括信息收集、存储、组织和检索,并分析了当前存在的问题及改进措施。 信息资源管理的内容主要包括四个方面: 1. **...

Global site tag (gtag.js) - Google Analytics