抓Google和Baidu的搜索结果 - 俺是一个瓜娃！！！ - ITeye博客

`

xiaozhao-521

浏览: 777379 次
性别:
来自: 天堂

最近访客更多访客>>

dkl187788

wtaisi

your_king

soft_xiaohui

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xiaozhao-521：呀呀呀呀呀呀呀
RequestTest222
Andy_hyh：打扰了，问下openmeeting源码可以运行起来吗？
Openmeetings安装详细步骤
qindongliang1922：擦，现在还行么，厉害
北京免费吃饭的地方
minixx77： ...
Openmeetings安装详细步骤
wwwqqqiang：喜欢楼主分享问题的方式，有思想
UIView 和 CALayer的那点事

抓Google和Baidu的搜索结果

Google 正则表达式 CSS 互联网 XML

阅读更多

今天成功的用HttpClient+正则抓取了Google和Baidu的搜索结果。挺有成就感。

原本是很自然地想到用XML API去抓取的，但是读下来Google和Baidu的页面都不是标准的xml，甚至连html标准都没有满足。Google省流量省到了极致，整个页面文件只有4行。用Notepad++打开，再开启自动换行，非常卡。不过Google也挺那啥的，少了很多换行符，但是页面里却充满了用处不大的table，难以想想吧，在我们谴责M$的时候，其实Google这个最大的互联网公司本身在自己最最基础的产品里都没有应用xHTML+CSS这一套东西。具体的原因我就不得而知了。Baidu也一样，但是Baidu的页面代码换行符多一些，看起来毕竟舒服一点，不过也不是非常好的xHtml+CSS。

指望XML API是不行了，只好用正则去配了。java.util.regex包中的API，主要用到的是Matcher的find方法和group方法，一个用来配，一个用来抓。对于Google和Baidu我都是先把每一个条目块抓出来，然后在在这一小段String中抓取url、title和description。

对于Google.com的搜索结果，抓条目块用到的正则为

<div class=g((.*?)|)>(.*?)</div>

抓具体信息的正则为

<a href=\"(.*?)\".*?>(.*?)</a>.*<td class=\"j\">(.*?)<br>

对于Baidu.com的搜索结果，抓条目块用到的正则为

<td class=f>(.*?)</td>

抓具体信息的正则为

<a.*?href=\"(.*?)\".*?>(.*?)</a><br>(.*?)<br>

其实或许可以直接用第二个正则表达式抓整个页面的信息，不过我没有测试过，不知道会不会存在问题。

分享到：

抓取百度搜索结果——解密百度狗 | 在Java中检索Google的搜索结果

2008-11-20 22:56
浏览 2497
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

比Google和百度牛的十倍的搜索类网站: 在互联网世界中，寻找信息的方式多种多样，但有些网站因其独特性和专业性，能提供比通用搜索引擎如Google和百度更为精准和丰富的信息。以下是一些这样的网站，它们在各自领域内的表现堪称优秀。 1. **世界知识** ...

SEO技术,如何禁止搜索引擎百度收录你的网页,指定禁止百度爬蜘蛛访问的网站目录路径.zip: 搜索引擎爬虫会通过互联网抓取网页，并根据网页内容和结构来确定其在搜索结果中的排名。它们遵循一个名为"robots.txt"的文件指示，该文件位于网站的根目录下。`robots.txt`文件是一种简单文本格式，用于告诉爬虫哪些...

百度谷歌同向打击垃圾外链看齐.docx: 搜索引擎，如百度和谷歌，为了维护搜索结果的公正性和用户体验，对这类链接进行严厉打击。百度的绿萝算法就是一个针对垃圾外链的专项打击行动。该算法旨在减少买卖链接的行为，特别是针对那些买卖链接的平台和中介...

电子地图一把抓: 1. **地图选择**：支持多种地图源，包括但不限于谷歌地图、百度地图、高德地图等，用户可以根据需求选择合适的地图服务。 2. **截图工具**：提供精确的截图功能，用户可以自由设定截图区域，确保获取所需的地图部分...

asp抓搜索引擎蜘蛛留下痕迹的代码: asp抓蜘蛛的代码，生成日志文件，仅2.34K。...可以识别：Google蜘蛛B，Google蜘蛛A，百度蜘蛛，微软蜘蛛，inktomi蜘蛛，openbot蜘蛛，Alexa蜘蛛，yahoo蜘蛛，Survey蜘蛛等。文件收集于网络。经过使用很好

搜索引擎-实时垂直搜索引擎数据抓取调度研究.pdf: 谷歌（Google）、雅虎（Yahoo）、百度等搜索引擎产品的兴起，极大地促进了互联网的发展。然而，面对网页动态化等新技术的挑战，传统的搜索引擎面临着诸多局限。在这种背景下，垂直搜索引擎应运而生。垂直搜索引擎...

神速百度SEO排名优化软件 v1.0.4 Beta.rar: 可以按百度和(google）的规则快速提升指定关键词的排名。神速百度SEO排名优化软件特点： 1、最容易收录的是.html的静态页面； 2、网页内容中关键词的密度和突出性（包括Title、DeＳｃｒｉｐｔion和Keyword，还有...

免费站长小工具 v1.1: 站长工具更新日志!...现在谷歌限制了主流程序对其搜索框site和domain数据的抓起，通过不断总结的一些方法，本工具能实时抓起到手工查询一样的数据; 同时本程序还能提取长尾关键字和网站简单提交。

2016年写的一点全网抓取的php爬虫小试验程序.zip: 除了百度外，有很多网站会自动收录网上的网站，然后查询出网站的基本信息、SEO信息，百度、GOOGLE等搜索引擎的收录量，域名whois查询结果等，而这些操作的前提是要得到所有的网站域名，通过字符串组合也是一个方法，...

Sniffer+Pro的基本使用和实例.doc: 安装过程简单，通过搜索引擎如百度或谷歌搜索Sniffer Pro 4.6下载相应版本，这个版本无需序列号。在Windows 2000系统下运行效果最佳，而在Windows 2003下可能会遇到网络流量表的问题。 Sniffer Pro的核心功能包括：...

使用php基于网页之间的链接抓取网站列表的php程序-全网抓取的php爬虫程序小试验: 除了百度外，有很多网站会自动收录网上的网站，然后查询出网站的基本信息、SEO信息，百度、GOOGLE等搜索引擎的收录量，域名whois查询结果等，而这些操作的前提是要得到所有的网站域名，通过字符串组合也是一个方法...

wordpress SEO蜘蛛访问统计插件 v1.0: 搜索引擎蜘蛛抓取统计插件支持主百度，360，搜搜，搜狗，谷歌的主流抓取记录功能；并且能以图表的趋势查看搜索引擎的抓取趋势；在详细的抓取列表中你还可以通过点击“IP”查看该IP（蜘蛛）最近7天的抓取情况，以及...

wordpress SEO蜘蛛访问统计插件.zip: 搜索引擎蜘蛛抓取统计插件支持主百度，360，搜搜，搜狗，谷歌的主流抓取记录功能；并且能以图表的趋势查看搜索引擎的抓取趋势；在详细的抓取列表中你还可以通过点击“IP”查看该IP（蜘蛛）最近7天的抓取情况，...

搜索引擎蜘蛛爬虫插件 for phpcms: php抓蜘蛛的代码，生成日志文件，仅2.34K。使用方法：将本代码加入要统计的文件中，...可以识别：Google蜘蛛B，Google蜘蛛A，百度蜘蛛，微软蜘蛛，inktomi蜘蛛，openbot蜘蛛，Alexa蜘蛛，yahoo蜘蛛，Survey蜘蛛等。

Python入门网络爬虫之精华版: Python入门网络爬虫之精华版 Python学习网络爬虫主要分3个大的版块：抓取，分析，存储另外，比较常用的爬虫框架Scrapy，这里最后也详细介绍一下。...参考项目：使用Scrapy或Requests递归抓取微信搜索结果

DF-seo企业网管理系统 v2.0: 系统特点如下：一、设计完全符合SEO完全从SEO的角度设计，用此系统非常容易在Google和百度等搜索引擎获得非常好的排名，目前已经拥有上百个案例。1、所有网页title和meta标签自动设计2、所有前台网页都是生成HTML3、...

DF-seo企业网管理系统 v2.0.rar: 完全从SEO的角度设计，用此系统非常容易在Google和百度等搜索引擎获得非常好的排名，目前已经拥有上百个案例。 1、所有网页title和meta标签自动设计 2、所有前台网页都是生成HTML 3、产品网页是目录结构的URL等等...

Sniffer Pro的基本使用和实例[图文]: - **版本信息**：本文档使用的版本为 Sniffer Pro 4.6，可以通过百度或谷歌搜索关键词“Sniffer Pro 4.6”找到相关的下载资源。值得注意的是，该版本无需序列号即可使用。 - **安装流程**：安装过程十分简便，运行...

多飞企业网站系统 2.0.rar: 完全从SEO的角度设计，用此系统非常容易在Google和百度等搜索引擎获得非常好的排名，目前已经拥有上百个案例。 1、所有网页title和meta标签自动设计 2、所有前台网页都是生成HTML 3、产品网页是目录结构的URL等等...

Global site tag (gtag.js) - Google Analytics