`
xiebh
  • 浏览: 614039 次
  • 性别: Icon_minigender_1
  • 来自: 太原
社区版块
存档分类
最新评论

Deep Web问题及技术

阅读更多
Deep Web数据集成专刊前言
孟小峰1, 于 戈2
1(中国人民大学 信息学院,北京 100872)
2(东北大学 信息科学与工程学院,辽宁 沈阳 110004)
作者简介:
孟小峰(1964-),男,博士,中国人民大学信息学院教授,博士生导师.现为中国计算机学会理事,普及工委主任,中国计算机学会数据库专委会委员、秘书长,办公自动化专委会副主任委员,《计算机研究与发展》等期刊编委,MDM、WAIM等国际学术会议指导委员会委员,IEEE CS、ACM SIGMOD会员.曾先后在香港中文大学、香港城市大学、新加坡国立大学、法国Prism实验室访问研究.主持或参加过20多项国家科技攻关项目、国家自然科学基金、国家高技术研究发展计划(863)、信息产业部发展基金项目以及国际合作交流项目等.先后获得国家科技进步二等奖1项、电子部科技进步特等奖 1项、北京市科技进步二等奖2项,以及第7届"中创软件人才奖"、"新世纪优秀人才"、"第三届北京市高等学校名师奖"等奖项.研制开发的主要软件产品有国产数据库系统COBASE、嵌入式移动数据库系统"小金灵"、中文自然语言查询系统NChiql、并行数据库系统PBASE/1等.近5年先后在国内外学术期刊以及VLDB、SIGMOD、ICDE等重要国际会议发表论文100余篇.多次应邀担任国际会议程序主席或委员,如SIGMOD、ICDE、 ER、DASFAA、MDM等.近期主要研究领域为Web数据集成、XML数据库、移动数据管理.
于戈(1962-),男,博士,东北大学教授,博士生导师,中国计算机学会理事,数据库专业委员会副主任委员,电子政务与办公自动化专业委员会副主任委员,YOCSEF学术委员会荣誉委员,美国ACM学会和IEEE学会会员.1982年和1986年在东北大学分别获得计算机应用专业学士学位和硕士学位,1996年于日本九州大学获得计算机工学博士学位.1986年起在东北大学计算机科学与工程系任教.曾在日本九州大学、香港中文大学和香港科技大学做访问学者.研究方向涉及数据库系统、嵌入式软件、信息安全等相关领域.近年来,在国内外重要学术期刊和会议上发表论文100余篇,获得省部级自然科学奖3项、科技进步奖2项.
联系人: 孟小峰 E-mail: xfmeng@ruc.edu.cn
Received 2007-12-28

随着World Wide Web的飞速发展,出现了越来越多的可以在线访问的数据库,我们把这些数据库称作Web数据库.据统计,目前Web数据库的数量已经超过了45万个,在此基础上构成了Deep Web.Deep Web蕴含了大量有用的信息,其价值远远超过了仅由网页构成的Surface Web.但由于对Web数据库的访问只能通过其提供的查询接口,因此很难被一般的搜索引擎获取到.由于Deep Web的大规模性、动态性以及异质性等特点,通过手工方式远远不能在效果和效率上满足用户对信息获取的需要.为了帮助人们快速、准确地利用Deep Web中的海量信息,研究者们已经在Deep Web数据集成方面展开了研究.这逐渐成为数据库领域的一个研究热点.研究者力图提出一种通用的集成方法,可以实现对现实世界各个领域的Deep Web数据的集成,并在查询接口集成和数据抽取等方面取得实质性的进展.近几年来,已有大量的研究成果在SIGMOD、VLDB等高级别的国际会议和期刊上发表.国内对Deep Web数据集成的研究也取得了一定的成果,但与国际水平相比还有一定的距离,主要表现在研究问题和解决方法上尚缺乏突破性的成果.

为了推动Deep Web数据集成在国内的进展,本专刊关注于当前国内在该研究领域最新的基础性、前瞻性、战略性的重大理论问题和关键技术的问题,目的在于为大家展示当前该领域的研究状况和最新的研究成果,为该领域的研究者们提供一个相互学习交流、借鉴指导的机会.

本专刊得到了国内同行的广泛响应与支持,收到稿件60余篇.本专刊严格按照《软件学报》审稿流程和评审要求对稿件进行了认真评审.审稿工作由本领域从事 Deep Web数据集成的海内外专家组成的评审委员会来组织,每篇稿件均经过两位以上评审委员的认真评审.最后,经过《软件学报》编委会终审,遴选出具有代表性的研究工作9篇.这些论文涉及了Deep Web数据集成的若干关键问题,研究的内容注重理论创新与实际应用相结合,立足于国际上最新的研究和应用状况,真实反映了当前我国的Deep Web数据集成技术在重要科学领域的应用研究状况.这里,我们要再次感谢大家的关注和向本专刊投稿的各位作者.

论文"一种基于图模型的Web数据库采样方法"把Web数据库模型化为一种图结构,在这个图结构上实现对Web数据库的采样,可以增量的方式获取近似随机的样本.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种通用的Web数据库采样方法.

论文"一种基于语义及统计分析的Deep Web实体识别机制" 提出了一种基于语义及统计分析的实体识别机制(SS-EIM).SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果.该方法可有效解决Deep Web数据集成中数据纠错、消重及整合等问题.

论文"针对模板生成网页的一种数据自动抽取方法"提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.

论文"基于属性相关度的Web数据库大小估算方法"提出了一种基于词频统计的解决方法,通过分析Web数据库查询接口中属性间的相关度来获取某个属性上一组随机样本,并以对该属性分别提交由前k位高频词形成的试探查询的方式,估算出Web数据库中记录的总数.

论文"基于本体的Deep Web数据标注"借鉴语义Web领域中深度标注的思想,将领域本体作为Web数据库遵循的全局模式,引入到查询结果语义标注过程中,并将本体与接口模式、结果模式相结合,辅以查询条件重置的策略,对查询结果进行统计及结构特征分析,确定查询结果数据的语义标记.

论文"使用分类器自动发现特定领域的深度网入口"提出了一种三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以便于查询信息.

论文"基于知识的Deep Web集成环境变化处理的研究" 研究了Deep Web集成环境中构件的依赖关系(执行偏序依赖和知识依赖),并在此基础上提出了一种基于知识的环境变化的处理方法,包括Deep Web集成环境变化处理模型、适应Deep Web环境变化的动态体系结构和处理算法,可以对大规模Deep Web集成的进一步探索和走向应用提供参考.

论文"基于网页上下文的Deep Web数据库分类" 给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化的算法.基于上述预处理,给出了计算Deep Web数据库的K-NN分类算法,其中对数据库之间的语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.

论文"基于页面Block的Web档案采集和存储"提出了基于页面Block的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.本文还实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.

这些论文集中反映了国内研究者在Deep Web数据的分析、集成和检索等方面的最新研究成果,对于促进针对下一代信息系统的创新性研究,以及鼓励数据库技术与其他相关领域的交叉研究具有重要的意义.
分享到:
评论
1 楼 wangyazhen 2008-12-03  
我的毕业设计做这个东西,真是令人头疼!!!不知阁下有没有好的建议 谢谢啦!

相关推荐

    Deep Web 数据集成问题研究

    ### Deep Web 数据集成问题研究 #### 一、引言与背景 随着互联网的迅猛发展,全球范围内的信息量呈指数级增长,其中大量的信息隐藏在所谓的Deep Web之中。不同于Surface Web,即那些可以通过传统搜索引擎轻松索引...

    Deep Web研究现状

    无论是国际上的LexiBot、ShopBot还是国内的MetaQuerier项目,都在不断推动Deep Web技术的进步,为用户提供了更多有价值的信息和服务。未来,随着技术的不断革新,Deep Web的潜力还将被进一步挖掘,为各行各业带来更...

    Deep Web 数据集成问题研究.pdf

    ### Deep Web 数据集成问题研究 #### 一、引言 ...综上所述,虽然Deep Web数据集成面临着诸多挑战,但随着技术的不断进步和发展,相信在未来能够更好地解决这些问题,充分利用Deep Web中的海量信息资源。

    Deep Web查询接口的复杂模式匹配

    例如,使用元数据来标准化不同来源的数据,利用自然语言处理技术理解查询意图,或者通过分布式计算框架如Hadoop和Spark来处理大规模的Deep Web数据。此外,还有一些隐私保护技术,如差分隐私和同态加密,可以在检索...

    Deep Web数据源分类模型研究

    该研究主要探讨了Deep Web数据源的自动分类问题,旨在提高对这类数据的检索效率和准确性。作者首先分析了Deep Web数据源分类研究的内容和面临的挑战,如数据的动态性、异构性以及隐私保护等。然后,提出了一个Deep ...

    DeepWeb信息抽取研究

    ### DeepWeb信息抽取研究 #### 一、DeepWeb的特点与挑战 ...此外,随着人工智能和大数据技术的发展,结合这些先进技术将进一步推动DeepWeb信息抽取技术的进步,为用户提供更加智能、便捷的信息服务。

    Deep+Web数据抽取关键技术研究

    根据提供的文件信息,本文主要探讨了Deep Web数据抽取的关键技术研究。Deep Web(深层网络)是指互联网上那些不能通过标准搜索引擎索引的部分,通常包括动态生成的网页、数据库查询结果等。由于这部分网络资源的特殊...

    基于主题Deep Web数据挖掘的研究与探索.pdf

    为了解决这一问题,研究者提出了使用通用搜索引擎来加速发现不同主题的Deep Web数据库的方法。此外,也提出了采用最常用的字符来最大限度地下载Deep Web信息的技术策略。这意味着使用搜索引擎的广泛覆盖能力以及对...

    DeepWeb语义搜索系统设计.pdf

    《DeepWeb语义搜索系统设计》是一篇关于技术领域的研究论文,主要探讨了如何利用本体检索技术设计和实现一个能够高效搜索Deep Web信息的系统。Deep Web,又称Invisible Web或Hidden Web,是指互联网上那些无法通过...

    Deep web经典文献(英文+中文)

    7. **DeepWeb爬虫研究与设计.pdf**:这是一篇关于深网爬虫的研究与设计的文章,深入讨论了爬虫的设计原则、技术及其在深网环境中的应用。 8. **Deep Web数据集成问题研究.pdf**:这份研究可能探讨了深网数据集成...

    Deep+Web垂直搜索引擎设计与实现.pdf

    本文通过深入研究Deep Web垂直搜索引擎的设计与实现,不仅解决了传统搜索引擎在检索Deep Web信息方面的局限性,还提出了一系列创新的技术方案,为未来的搜索引擎技术发展提供了重要的参考和启示。

    Google's Deep Web crawl

    为解决这一问题,Google开发了一种高效的算法,能够在可能的输入组合搜索空间中导航,仅识别出那些适合加入到Web搜索索引中的URL。这种方法极大地减少了不必要的计算,提高了系统的整体效率。 #### 实验验证 ...

    基于云计算面向网络舆情的Deep Web数据抽取关键技术研究.pdf

    基于云计算面向网络舆情的Deep Web数据抽取关键技术研究.pdf

Global site tag (gtag.js) - Google Analytics