- 浏览: 4916 次
- 性别:
- 来自: 河南
最近访客 更多访客>>
最新评论
-
shimo:
yycao 写道最近也在做关于网页主题(标题)的提取工作,大体 ...
标题抽取效果:baidu vs google -
yycao:
最近也在做关于网页主题(标题)的提取工作,大体上通过统计大量网 ...
标题抽取效果:baidu vs google
文章列表
ccf-IR前沿讲习班部分视频
- 博客分类:
- 搜索引擎
注:本视频只供学习使用,任何人请勿用于任何商业行为。
http://www.namipan.com/d/%e5%bd%ad%e6%b3%a2%e8%80%81%e5%b8%88_5.rmvb/4037815e69df6b3ae6a9c2781f9e6e6eb0de181eece5f419
http://www.namipan.com/d/%e9%97%ab%e5%ae%8f%e9%a3%9e%e8%80%81%e5%b8%88_3.rmvb/7044d9517dfe66077bd853559008ec0f137c56baf971c51d
http://www.namipan ...
最近在做标题抽取的工作。基于相似度的效果较之前改进了一点点,90.6%提高到91.56%。
测试了一下百度和google关于北大信息科学技术学院的”非标准网页“的标题抽取效果,发现google的比百度的强,至于我的方法因为没有抓取北大的
网页没法测;郑大的则由于google抓郑大的数据很少,也没法比较,不过可以和百度大学搜索比较,方法效果比百度的强:),直接看截图吧。
图中可以发现,google的效果比baidu的好很多,虽然也有部分错误。方法肯定是用机器学习训练出来的。
百度大学搜索:北大内 搜索“信息技术学院”
google搜索:北大信息科学技术学院内搜索“信息技术学 ...
6.25院系将承办一个CCF“信息检索”的前沿讲座:
http://www.ccf.org.cn/sites/ccf
/nry.jsp?contentId=2551057471156
讲者是 闫宏飞老师(pku)+刘挺老师(hit)+
彭波老师(pku)
偶见有人谈起高亮显示的或这或那得错误。感觉自写个也挺简单的,可控制性强。
贴个原创的,用于“眉湖通”搜索。
/**
*
*/
package util;
import java.io.IOException;
import java.io.StringReader;
import java.util.ArrayList;
import java.util. ...