原本是很自然地想到用XML API去抓取的,但是读下来Google和Baidu的页面都不是标准的xml,甚至连html标准都没有满足。Google省流量省到了极致,整个页面文件只有4行。用Notepad++打开,再开启自动换行,非常卡。不过Google也挺那啥的,少了很多换行符,但是页面里却充满了用处不大的table,难以想想吧,在我们谴责M$的时候,其实Google这个最大的互联网公司本身在自己最最基础的产品里都没有应用xHTML+CSS这一套东西。具体的原因我就不得而知了。Baidu也一样,但是Baidu的页面代码换行符多一些,看起来毕竟舒服一点,不过也不是非常好的xHtml+CSS。
指望XML API是不行了,只好用正则去配了。java.util.regex包中的API,主要用到的是Matcher的find方法和group方法,一个用来配,一个用来抓。对于Google和Baidu我都是先把每一个条目块抓出来,然后在在这一小段String中抓取url、title和description。
对于Google.com的搜索结果,抓条目块用到的正则为
<div class=g((.*?)|)>(.*?)</div>
<a href=\"(.*?)\".*?>(.*?)</a>.*<td class=\"j\">(.*?)<br>
对于Baidu.com的搜索结果,抓条目块用到的正则为
<td class=f>(.*?)</td>
<a.*?href=\"(.*?)\".*?>(.*?)</a><br>(.*?)<br>
其实或许可以直接用第二个正则表达式抓整个页面的信息,不过我没有测试过,不知道会不会存在问题。
相关推荐
在互联网世界中,寻找信息的方式多种多样,但有些网站因其独特性和专业性,能提供比通用搜索引擎如Google和百度更为精准和丰富的信息。以下是一些这样的网站,它们在各自领域内的表现堪称优秀。 1. **世界知识** ...
搜索引擎爬虫会通过互联网抓取网页,并根据网页内容和结构来确定其在搜索结果中的排名。它们遵循一个名为"robots.txt"的文件指示,该文件位于网站的根目录下。`robots.txt`文件是一种简单文本格式,用于告诉爬虫哪些...
搜索引擎,如百度和谷歌,为了维护搜索结果的公正性和用户体验,对这类链接进行严厉打击。 百度的绿萝算法就是一个针对垃圾外链的专项打击行动。该算法旨在减少买卖链接的行为,特别是针对那些买卖链接的平台和中介...
1. **地图选择**:支持多种地图源,包括但不限于谷歌地图、百度地图、高德地图等,用户可以根据需求选择合适的地图服务。 2. **截图工具**:提供精确的截图功能,用户可以自由设定截图区域,确保获取所需的地图部分...
asp抓蜘蛛的代码,生成日志文件,仅2.34K。...可以识别:Google蜘蛛B,Google蜘蛛A,百度蜘蛛,微软蜘蛛,inktomi蜘蛛,openbot蜘蛛,Alexa蜘蛛,yahoo蜘蛛,Survey蜘蛛等。 文件收集于网络。经过使用很好
谷歌(Google)、雅虎(Yahoo)、百度等搜索引擎产品的兴起,极大地促进了互联网的发展。然而,面对网页动态化等新技术的挑战,传统的搜索引擎面临着诸多局限。在这种背景下,垂直搜索引擎应运而生。 垂直搜索引擎...
可以按百度和(google)的规则快速提升指定关键词的排名。 神速百度SEO排名优化软件特点: 1、最容易收录的是.html的静态页面; 2、网页内容中关键词的密度和突出性(包括Title、DeScription和Keyword,还有...
站长工具更新日志!...现在谷歌限制了主流程序对其搜索框site和domain数据的抓起,通过不断总结的一些方法,本工具能实时抓起到手工查询一样的数据; 同时本程序还能提取长尾关键字和网站简单提交。
除了百度外,有很多网站会自动收录网上的网站,然后查询出网站的基本信息、SEO信息,百度、GOOGLE等搜索引擎的收录量,域名whois查询结果等,而这些操作的前提是要得到所有的网站域名,通过字符串组合也是一个方法,...
安装过程简单,通过搜索引擎如百度或谷歌搜索Sniffer Pro 4.6下载相应版本,这个版本无需序列号。在Windows 2000系统下运行效果最佳,而在Windows 2003下可能会遇到网络流量表的问题。 Sniffer Pro的核心功能包括:...
除了百度外,有很多网站会自动收录网上的网站,然后查询出网站的基本信息、SEO信息,百度、GOOGLE等搜索引擎的收录量,域名whois查询结果等,而这些操作的前提是要得到所有的网站域名,通过字符串组合也是一个方法...
搜索引擎蜘蛛抓取统计插件支持主百度,360,搜搜,搜狗,谷歌的主流抓取记录功能;并且能以图表的趋势查看搜索引擎的抓取趋势;在详细的抓取列表中你还可以通过点击“IP”查看该IP(蜘蛛)最近7天的抓取情况,以及...
搜索引擎蜘蛛抓取统计插件支持主百度,360,搜搜,搜狗,谷歌的主流抓取记录功能; 并且能以图表的趋势查看搜索引擎的抓取趋势; 在详细的抓取列表中你还可以通过点击“IP”查看该IP(蜘蛛)最近7天的抓取情况,...
php抓蜘蛛的代码,生成日志文件,仅2.34K。 使用方法: 将本代码加入要统计的文件中,...可以识别:Google蜘蛛B,Google蜘蛛A,百度蜘蛛,微软蜘蛛,inktomi蜘蛛,openbot蜘蛛,Alexa蜘蛛,yahoo蜘蛛,Survey蜘蛛等。
Python入门网络爬虫之精华版 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。...参考项目:使用Scrapy或Requests递归抓取微信搜索结果
系统特点如下:一、设计完全符合SEO完全从SEO的角度设计,用此系统非常容易在Google和百度等搜索引擎获得非常好的排名,目前已经拥有上百个案例。1、所有网页title和meta标签自动设计2、所有前台网页都是生成HTML3、...
完全从SEO的角度设计,用此系统非常容易在Google和百度等搜索引擎获得非常好的排名,目前已经拥有上百个案例。 1、所有网页title和meta标签自动设计 2、所有前台网页都是生成HTML 3、产品网页是目录结构的URL等等...
- **版本信息**:本文档使用的版本为 Sniffer Pro 4.6,可以通过百度或谷歌搜索关键词“Sniffer Pro 4.6”找到相关的下载资源。值得注意的是,该版本无需序列号即可使用。 - **安装流程**:安装过程十分简便,运行...
完全从SEO的角度设计,用此系统非常容易在Google和百度等搜索引擎获得非常好的排名,目前已经拥有上百个案例。 1、所有网页title和meta标签自动设计 2、所有前台网页都是生成HTML 3、产品网页是目录结构的URL等等...