Gecko(jrex)研究记录 JS AJAX页面内容抓取处理（2）

博客分类：

搜索引擎杂类

HTMLDocument doc=(HTMLDocument)navigation.getDocument();HTMLFormElement form=(HTMLFormElement)doc.getForms().item(0);form.submit();接上回的问题关于元素事件的调用以上为主要代码与IE的webbrowser不同，它必须强转成对应的HTMLFormElement HTMLInputElement HTMLLinkElement……的类型才能调用相对应的事件，至于JS函数的直接调用期待下回分解吧

2009-04-09 09:21
浏览 2640
评论(0)

Gecko(jrex)研究记录 JS AJAX页面内容抓取处理（1）

博客分类：

搜索引擎杂类

Ajax 浏览器 Socket Linux Firefox

为了解决JS AJAX网站问题必须一个能够模拟用户操作行为来得到页面上数据的展示，在模拟用户行为上我们需要解决两件事情：1、得到渲染后的网页HTML代码一般在浏览器中查看页面代码是浏览器直接下载到的页面代码在未经渲染前对于JS AJAX输出的内容是无法得到的这样我们得到的页面内容和直接走socket抓取回来无任何区别还是无法得到需要的页面内容2、JS函数及页面元素事件的调用这些很简单都是依靠用户的EVENT去驱动的，而我们通过SOCKET抓取页面对我们只是流而已无法去模拟用户的EVENT 没有这些EVENT 页面上需要EVENT驱动而展现的内容连显示都不可能更无从抓取了在wind ...

2009-04-09 09:20
浏览 7995
评论(7)

目前主要的开源索引库列表

博客分类：

索引及搜索技术

全文检索 lucene Python MySQL 搜索引擎

Egothorjava信息检索库,捷克人Leo Galambos为开发主理,应用在Capek主页: http://www.egothor.org/XapianC++开发的概率信息检索库,强大的功能,实现范例为 Omega现支持:Perl, Python, PHP, Java, TCL语言主页: http://www.xapian.org/MG-1.2.1Ref: Managing Gigabytes: Compress ...

2009-04-09 09:19
浏览 1817
评论(1)

在DotLucene/Lucene.net中, 增加自己的中文分词Analyzer

博客分类：

索引及搜索技术

.net lucene Apache 算法 SUN

一种非常简单,但是不是很优化的方法,继承Lucene.Net.Analysis.Analyzer,实现了Lucene.Net.Analysis.Analyzer,Lucene.Net.Analysis.Tokenizer,Lucene.Net.Analysis.TokenFilter的子类.参考了Lucene.Net.Analysis.Cn的实现,该项目采用对汉语进行一元分词.ChineseAnalyer类,继承自Lucene.Net.Analysis.Analyzerusing System;using System.IO;using System.Text;using System.Coll ...

2009-04-09 09:07
浏览 2141
评论(0)

正文抽取所需正则

博客分类：

信息抽取

正则表达式 BBS HTML 工作

工作中同事帮忙写的正则，主要被我用于网页正文提取 #region 相关正则表达式 /// <summary> /// 去掉所有html标签 /// </summary> private static readonly Regex FilterAll = new Regex( @"(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?<lj>(?=[^\u4E00-\u9FA5\uFE30-\uFFA0,."");])<a\s+[^>]*>[^<]{2,}</a> ...

2009-04-09 09:04
浏览 2004
评论(0)

聊聊网页正文提取

博客分类：

信息抽取

资讯互联网 ASP.net Web ASP

从网页中提取的正文一般来说模板是最好最准确的方式，在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作，而且如果抓取的种子站过多，人工难以满足需求。� ...

2009-04-09 09:02
浏览 6744
评论(2)
分类:企业架构

信息论中的MI(互信息公式)

博客分类：

自然语言理解

F#C C++C#Blog

这个公式主要用于对词与词间关系的考察，可以把集合Ｃ内所有文档看成Ｃ１，Ｃ２，Ｃ３．．．．．．如(C1(X)!=0) && (C1(Y)!=0)成立则结果C1(X,Y)=1,如结果不成立则反之C1(X,Y)=0,就最后C1(X,Y)+C2(X,Y)+C3(X,Y)+.....=C(X,Y) 以下是简化公式了目前简化公式: 1.假设一个文章集合 {C}，总文章数目为N，其中含有单词X的文章总数为Nx，含有单词Y的文章总数是Ny，含有｛X+Y｝的文章总数是 Nxy，那么相关性这么计算Corr(X,Y)= Math.log10(N/Nx)*M ...

2009-04-09 09:01
浏览 18593
评论(1)

网页正文抽取演示

博客分类：

信息抽取

ASP.net 正则表达式 ASP 算法 .net

演示地址如下：http://202.110.133.114/tsegment/webanalyer.aspx 属于早期作品，采用规则方法提出非正文内容，则认为留下的内容为正文。仅作简单技术演示之用，感谢TT同学提供的空间并帮我写的演示程序。该功能已封装成.NET组件，可提供程序直接调用，近期提供下载。可用于大家收集语料时候网页内容提取之用。如对此组件有兴趣，请直接邮件至我MSN信箱，我正考虑采用新算法完善并编写多个语言版本，在这里先统计下人数看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提 ...

2008-05-28 17:10
浏览 2970
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Gecko(jrex)研究记录 JS AJAX页面内容抓取处理（2）

Gecko(jrex)研究记录 JS AJAX页面内容抓取处理（1）

目前主要的开源索引库列表

在DotLucene/Lucene.net中, 增加自己的中文分词Analyzer

正文抽取所需正则

聊聊网页正文提取

信息论中的MI(互信息公式)

网页正文抽取演示

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>