抓取谷歌网页问题 - 开发笔记 - ITeye博客

`

aguang110

浏览: 901320 次
性别:
来自: 北京

最近访客更多访客>>

tongwawa

ggggoo

lyne15730

gggfff39

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

bugyun：受教了，谢谢
java 正则表达式过滤html标签
xiongxingxing_123：学习了，感谢了
java 正则表达式过滤html标签
wanmeinange：那如果无状态的。对同一个任务并发控制怎么做？比如继承Quart ...
quartz中参数misfireThreshold的详解
fanjieshanghai： ...
XPath 元素及属性查找
tianhandigeng：还是没明白
quartz中参数misfireThreshold的详解

抓取谷歌网页问题

博客分类：

开发笔记

XP Google Windows

阅读更多

当使用
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
url.openStream() 时候发现报403访问拒绝错误，是由于谷歌对java 程序进行限制，缺少Agent。

解决办法：
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
URLConnection con = url.openConnection();
con.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows XP; DigExt)");
InputStream in = con.getInputStream();

分享到：

学习apache commons-io类库中的文件清除器 | jsoup抓图

2011-03-02 11:52
浏览 905
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

google模拟抓取工具: 这使得用户可以检查网页是否正确地呈现了内容，是否有任何阻止Google爬虫抓取的元素，如robots.txt文件的限制、元标签的设置不正确或是JavaScript问题。使用这个工具，你可以： 1. 检查robots.txt：确保你的robots...

google搜索结果抓取工具-找GOOGLE资源好东西: 首先，我们要明白“google搜索结果抓取工具”是指一类可以自动化抓取Google搜索引擎返回的网页链接、标题、描述等信息的软件或脚本。这些工具可以帮助用户快速收集特定关键词的大量搜索结果，以便进一步分析、整理和...

网页爬虫，网页抓取，js加载后网页抓取，超简单。: 对于JavaScript加载后的网页抓取，一种常见的解决方案是使用Headless浏览器，比如Google的Chrome提供了Headless模式，它可以在没有界面的情况下运行，执行JavaScript并返回渲染后的页面内容。另一种方法是使用像...

网页邮箱地址抓取工具: 网页邮箱地址抓取工具，通常被称为Email Scraper，是一种专门设计用于从互联网上批量收集电子邮件地址的软件。这种工具在市场营销、数据挖掘和研究等领域有广泛的应用，因为它们能够高效地定位潜在客户的联系信息。 ...

C# 调用IE 核心抓取google 数据: 本教程将详细讲解如何利用C#调用Internet Explorer（IE）的核心功能来抓取Google的数据。首先，我们要知道C#本身并不直接支持浏览器交互，但可以通过COM互操作性（Component Object Model Interop）来调用Windows ...

android 的网页抓取: 在Android开发中，有时我们需要从网页中获取数据，比如新闻内容、图片等，这就涉及到网页抓取技术。本文将深入探讨如何使用Jsoup库来抓取网页内容，并结合Volley库进行图片的下载。首先，Jsoup是一款强大的Java库...

c#做的按特别关键字抓取google信息的软件: 标题中的“c#做的按特别关键字抓取google信息的软件”揭示了这是一个使用C#编程语言开发的应用程序，其主要功能是针对特定关键词从Google搜索引擎中抓取信息。这个程序可能是一个网络爬虫，用于自动化地搜索网页并...

java抓取网页内容源代码: ### Java抓取网页内容源代码解析与扩展在IT领域，网页抓取（或称网络爬虫）是一项关键技能，广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码，旨在帮助...

基于python语言的google网页抓取经纬度: 基于phython语言，通过google网页抓取城市经纬度

搜搜关键词多层抓取: 5. **网页分析**：抓取的网页需要进行内容分析，以确定哪些关键词被频繁使用，哪些可能与目标关键词有语义关联。这有助于优化网页内容，使其更符合搜索引擎的偏好。 6. **关键词策略**：多层抓取产生的数据可以指导...

基于PHP的Google网页搜索抓取(php有后台免费版)源码.zip: 【标题】"基于PHP的Google网页搜索抓取(php有后台免费版)源码.zip" 涉及的核心知识点是使用PHP编程语言实现对Google搜索引擎的网页抓取。在Web开发领域，网页抓取（也称为网络抓取或数据抓取）是一种技术，允许...

蜘蛛程序，google抓取，简单: Google和百度是两大知名的搜索引擎，它们使用各自的爬虫技术来抓取和更新网页数据。这些爬虫不仅抓取HTML文本，还可能包含URL（统一资源定位符），用于跟踪网页间的链接关系；新闻内容，用于提供实时信息；多媒体，...

获取网页并抓取网页信息成图片: 1. Puppeteer（JavaScript）：Google Chrome的Node.js库Puppeteer可控制Chromium或Chrome，执行自动化任务，包括全屏网页截图。通过编写简单的JavaScript代码，我们可以指定URL，调整输出设置，甚至处理动态内容。 ...

谷歌地图搜索结果抓取: 要实现“抓取谷歌地图搜索到的第一条记录的内容”，我们需要使用网络爬虫技术。网络爬虫是通过模拟用户行为，发送HTTP请求到目标网站（在这种情况下是谷歌地图的搜索接口），然后解析返回的HTML或JSON数据，提取所需...

用jsoup抓取网页数据: **Jsoup：网页数据抓取与JSON转换** Jsoup是一个非常强大的Java库，它使得解析HTML和抓取网页数据变得简单易行。本教程将深入探讨如何使用Jsoup有效地从网页中提取信息，并最终将其转化为JSON格式，为数据分析或...

自制Google词典抓取工具: 通过抓取Google词典的数据，用户可以获取到比传统txt格式文本更详尽、全面的词汇解释和例句，帮助提升英语水平。该工具的核心功能包括： 1. **网络数据抓取**：使用网络爬虫技术，模拟用户查询行为，向Google词典...

谷歌获取网页dom的插件: 在IT领域，尤其是在Web开发和数据抓取方面，"谷歌获取网页DOM的插件"是一种非常实用的工具。DOM（Document Object Model）是HTML和XML文档的结构化表示，它将网页内容作为树形结构处理，使得我们可以方便地通过...

谷歌浏览器网页元素分析工具+Chrome_SPY+元素捕获+PRA: 这样的工具对于开发者或者网络安全研究人员来说非常有用，可以帮助他们理解网页的工作原理并找出潜在问题。 4. **元素捕获**：这是一个术语，通常指在开发过程中，通过开发者工具捕获和分析网页上的特定元素，如...

易语言谷歌内核网页填表有库有例子: 易语言是一种专为中国人设计的编程语言，它的...通过学习和实践提供的库和示例，开发者可以掌握如何在易语言环境下与谷歌内核浏览器进行高效且安全的交互，这对于自动化测试、网页数据抓取等场景有着广泛的应用价值。

scrapy结合selenium解析动态页面的实现: 1. 问题虽然scrapy能够完美且快速的抓取静态页面，但是在现实中，目前绝大多数网站的页面都是动态页面，动态页面中的部分内容是浏览器运行页面中的JavaScript脚本动态生成的，爬取相对困难；比如你信心满满的写好...

Global site tag (gtag.js) - Google Analytics