`
shimo
  • 浏览: 4922 次
  • 性别: Icon_minigender_1
  • 来自: 河南
最近访客 更多访客>>
社区版块
存档分类
最新评论

标题抽取效果:baidu vs google

阅读更多

最近在做标题抽取的工作。基于相似度的效果较之前改进了一点点,90.6%提高到91.56%。
测试了一下百度和google关于北大信息科学技术学院的”非标准网页“的标题抽取效果,发现google的比百度的强,至于我的方法因为没有抓取北大的 网页没法测;郑大的则由于google抓郑大的数据很少,也没法比较,不过可以和百度大学搜索比较,方法效果比百度的强:),直接看截图吧。

图中可以发现,google的效果比baidu的好很多,虽然也有部分错误。方法肯定是用机器学习训练出来的。

百度大学搜索:北大内 搜索“信息技术学院”


google搜索:北大信息科学技术学院内搜索“信息技术学院”


百度大学搜索:郑州大学内搜“信息工程学院”

p.s.  附件中图片效果。


 

 

 

天网搜索:信息技术学院

 


 

眉湖通搜索:信息工程学院。


  • 大小: 209.2 KB
  • 大小: 165.9 KB
  • 大小: 171.7 KB
  • 大小: 196.6 KB
  • 描述: 天网搜索
  • 大小: 62.9 KB
0
2
分享到:
评论
2 楼 shimo 2010-07-18  
yycao 写道
最近也在做关于网页主题(标题)的提取工作,大体上通过统计大量网页中标题的标签特征,如位置,字体大小,标签名等来判别,但效果不是很理想,楼主能分享下心得,交流下提取方法嘛。


我不是利用统计各个“单位文本”的属性特征(字体大小,颜色、位置etc.)来判别的。而是利用文本之间的相似度来算的,然后找出权值较大的,通过一些规则取其中一条。
1 楼 yycao 2010-07-17  
最近也在做关于网页主题(标题)的提取工作,大体上通过统计大量网页中标题的标签特征,如位置,字体大小,标签名等来判别,但效果不是很理想,楼主能分享下心得,交流下提取方法嘛。

相关推荐

    百度Google多功能采集

    【标题】:“百度Google多功能采集”指的是一个工具或软件,其主要功能是针对百度和Google这两个全球知名的搜索引擎进行数据采集。这种工具通常被用于市场研究、SEO优化、竞争对手分析等多种目的,通过自动化的方式...

    第三讲 知识抽取与挖掘

    【标题】:“第三讲 知识抽取与挖掘” 在信息技术领域,知识抽取(Knowledge Extraction,KE)和知识挖掘(Knowledge Discovery in Databases,KDD)是至关重要的环节,它们是构建智能系统,尤其是知识图谱的基础。...

    chinese_L-12_H-768_A-12.rar

    最后,通过训练和评估模型,优化模型性能,以达到最佳的事件抽取效果。 总结起来,这个压缩包提供了一个基于Keras的中文BERT模型,用于事件抽取任务。用户可以利用这个模型及其预训练权重,结合自己的数据集进行...

    信息检索与Web搜索.pptx

    2. **公司应用**:搜索引擎公司如Yahoo、Google、百度等以及大型互联网公司如微软、新浪、搜狐、腾讯、网易等都在积极研发信息检索技术,应用于各种场景,如电子商务、社交媒体、数字图书馆、大数据分析等领域。...

    你知道互联网是怎样赚钱的吗

    标题中的核心问题“互联网是怎样赚钱的”涉及到互联网商业模式的探讨,描述中提到的Google和百度是互联网搜索服务的巨头,而标签“互联网”则指明了讨论的领域。以下是关于互联网赚钱方式及其演变的详细解释: ...

    Arise:在搜索引擎中自动提取记录

    Arise组件可以全自动抽取目前主流搜索引擎(百度、谷歌、Bing、Yahoo、Sogou、haosou、Sina、s.weibo、Youdao、Goso、盘古等)结果页面数据记录的三个元信息(标题、URL、摘要)。 Arise由C++编写,由Cmake构建工程...

    官方kettle最新9.3下载百度云

    虽然标题提到的是“官方kettle最新9.3下载百度云”,但请注意,官方的下载链接通常是在Pentaho的官方网站上。不过,如果在中国,由于网络限制,可能需要借助像百度云这样的国内云存储服务来获取资源。根据提供的...

    知识图谱相关资料下载汇总

    下面将根据提供的资源标题、描述以及文件名,深入探讨知识图谱的相关知识点。 1. **知识图谱的定义与结构** 知识图谱是一种结构化的知识存储方式,它以节点表示实体,以边表示实体间的关系。这种图形结构使得信息...

    知识图谱导论

    7. 代表性知识图谱实例:文章提到了一些著名的知识图谱项目,包括Google Knowledge Graph、IBM Watson的自然语言处理能力、百度百科的知识图谱等。这些知识图谱项目展示了知识图谱在处理复杂查询和提供智能搜索服务...

    URL网址采集工具Asp.net源码 自定义采集规则

    它允许用户根据实际需求自定义采集规则,以适应不同的搜索引擎,如百度、谷歌等,满足多样化和定制化的爬虫任务。该工具的核心特性在于其灵活性,能够处理各种复杂的网页结构,从而获取所需的数据。 【详细知识点】...

    2021职称计算机考试基础综合练习及答案(13).docx

    1. **全文索引**:这类搜索引擎如Google和百度,从互联网中提取各个网站的信息并建立数据库,支持用户通过关键词查询获取结果。 2. **目录索引**:虽然具有搜索功能,但主要是按照分类目录列出网站链接,用户可以...

    快来看看“ 搜索引擎”的优化

    2. **第二代:基于内容分析** - 开始分析网页内容,尤其是标题和关键词的频率,如 AltaVista 和 Lycos。 3. **第三代:链接分析** - 引入了PageRank算法,考虑网页之间的链接关系,如Google的诞生,强调链接的重要...

    ElasticSearch 全文搜索引擎;从0到1教你学会ES 搜索引擎

    - **搜索引擎**:如百度、Google 等,用于互联网级别的大规模文本搜索。 - **论坛站内搜索**:提供用户在论坛内查找帖子的能力。 - **电商网站站内搜索**:帮助用户快速找到感兴趣的商品信息。 #### 五、全文检索的...

    Data 数据集 Data 数据集Data 数据集Data 数据集Data 数据集

    2. **BERT-Base-Chinese**:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的深度学习模型,由Google开发。"BERT-Base-Chinese"是针对中文文本的版本,它通过在大量未标注文本上进行...

    搜索引擎中的web数据挖掘(27页).pdf

    大型搜索引擎如Google、百度和搜狗的Spider系统每天处理的链接数量达到十亿级别,存储的网页和链接数量更是天文数字。 Web数据挖掘则是在收集网页数据之后,进一步分析和理解网页内容的过程。通过对网页的特征进行...

    垂直搜索方法

    例如,在舆情监测系统中,需要从新闻评论中提取标题、出处、发布时间、内容等关键信息,以及从论坛帖子中抽取标题、发言人、发布时间、内容等数据,最终形成标准化的信息格式,便于后续分析。 #### 三、舆情管理...

    人工智能之学术搜索-清华大学.pdf

    在产品方面,报告介绍了包括谷歌学术、微软学术、语义学术、百度学术等在内的多个学术搜索产品,并对它们的开发时间线、分类、功能、覆盖的学术资源以及研发人才进行了分析。 报告的最后部分预测了AI学术搜索的未来...

Global site tag (gtag.js) - Google Analytics