- 浏览: 80389 次
- 性别:
- 来自: 北京
-
最新评论
-
renhongchao:
你好,特征提取的时候,多分类下一个词对于分类的互信息,这个怎么 ...
信息论中的MI(互信息公式) -
xuzhibin:
这里也有一个识别率还可以正文提取算法,有兴趣的同学可以去看看: ...
聊聊网页正文提取 -
xiang861206:
用navigation.loadURI()加载时,要是http ...
Gecko(jrex)研究记录 JS AJAX页面内容抓取处理(1) -
yy8354:
呵呵 我是JAVA .NET C/C++都用
libsvm分类总结 -
drunkyong:
兄弟可以选择去博客园开博,大家都是搞.net的,这里.NET人 ...
libsvm分类总结
文章列表
HTMLDocument doc=(HTMLDocument)navigation.getDocument();HTMLFormElement form=(HTMLFormElement)doc.getForms().item(0);form.submit();接上回的问题 关于元素事件的调用 以上为主要代码 与IE的webbrowser不同,它必须强转成对应的HTMLFormElement HTMLInputElement HTMLLinkElement……的类型才能调用相对应的事件,至于JS函数的直接调用期待下回分解吧
- 2009-04-09 09:21
- 浏览 2640
- 评论(0)
为了解决JS AJAX网站问题必须一个能够模拟用户操作行为来得到页面上数据的展示,在模拟用户行为上我们需要解决两件事情:1、得到渲染后的网页HTML代码 一般在浏览器中查看页面代码 是浏览器直接下载到的页面代码 在未经渲染前 对于JS AJAX输出的内容是无法得到的 这样我们得到的页面内容和直接走socket抓取回来无任何区别 还是无法得到需要的页面内容2、JS函数及页面元素事件的调用 这些很简单都是依靠用户的EVENT去驱动的,而我们通过SOCKET抓取页面对我们只是流而已无法去模拟用户的EVENT 没有这些EVENT 页面上需要EVENT驱动而展现的内容连显示都不可能 更无从抓取了在wind ...
- 2009-04-09 09:20
- 浏览 7995
- 评论(7)
Egothorjava信息检索库,捷克人Leo Galambos为开发主理,应用在Capek主页: http://www.egothor.org/XapianC++开发的概率信息检索库,强大的功能,实现范例为 Omega现支持:Perl, Python, PHP, Java, TCL语言主页: http://www.xapian.org/MG-1.2.1Ref: Managing Gigabytes: Compress ...
- 2009-04-09 09:19
- 浏览 1817
- 评论(1)
一种非常简单,但是不是很优化的方法,继承Lucene.Net.Analysis.Analyzer,实现了Lucene.Net.Analysis.Analyzer,Lucene.Net.Analysis.Tokenizer,Lucene.Net.Analysis.TokenFilter的子类.参考了Lucene.Net.Analysis.Cn的实现,该项目采用对汉语进行一元分词.ChineseAnalyer类,继承自Lucene.Net.Analysis.Analyzerusing System;using System.IO;using System.Text;using System.Coll ...
- 2009-04-09 09:07
- 浏览 2141
- 评论(0)
工作中同事帮忙写的正则,主要被我用于网页正文提取
#region 相关正则表达式 /// <summary> /// 去掉所有html标签 /// </summary> private static readonly Regex FilterAll = new Regex( @"(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?<lj>(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");])<a\s+[^>]*>[^<]{2,}</a> ...
- 2009-04-09 09:04
- 浏览 2004
- 评论(0)
从网页中提取的正文一般来说模板是最好最准确的方式,在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作,而且如果抓取的种子站过多,人工难以满足需求。 ...
这个公式主要用于对词与词间关系的考察,可以把集合C内所有文档看成C1,C2,C3......如(C1(X)!=0) && (C1(Y)!=0)成立则结果C1(X,Y)=1,如结果不成立则反之C1(X,Y)=0,就最后C1(X,Y)+C2(X,Y)+C3(X,Y)+.....=C(X,Y)
以下是简化公式了目前简化公式:
1.假设一个文章集合 {C},总文章数目为N,其中含有单词X的文章总数为Nx,含有单词Y的文章总数是Ny,含有{X+Y}的文章总数是 Nxy,那么相关性这么计算Corr(X,Y)= Math.log10(N/Nx)*M ...
- 2009-04-09 09:01
- 浏览 18593
- 评论(1)
演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx
属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。
该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。
可用于大家收集语料时候网页内容提取之用。
如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算法完善并编写多个语言版本,在这里先统计下人数
看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提 ...
- 2008-05-28 17:10
- 浏览 2970
- 评论(0)