`

6行代码抓取网页

    博客分类:
  • java
阅读更多

前言:

网上有很多的抓取网页的代码,大部分是用的都是java api ,HttpClient,HttpURLConnection,io等等

新手看了是不是很晕呀?难道java抓个网页就这么费劲吗?

今天咱们利用apache commons io + 输出流重定向 的方式6行解决网页抓取问题(当然其实可以是5行 呵呵)

 

准备:

    下载apache commons-io  传送门   然后将这个jar加入到你的项目中

 

 

//天气预报网址
String url="http://www.weather.com.cn/weather/101030100.shtml";
//是用apache commons io 直接把页面抓成String
String htmlContent=IOUtils.toString(new URL(url));
//重定向输出流 到文件
PrintStream ps=new PrintStream(new File("D:/cxyapi.html"));
System.setOut(ps);
System.out.println(htmlContent); //这里的打印不在控制台,而是直接进入文件
ps.close();

 

声明:

1.原创文章,转载请标明并加本文连接。

2.文章反映个人愚见,如有异议欢迎讨论指正

3.更多的内容请看我的  个人博客(测试版)

 

 

2
8
分享到:
评论
8 楼 sgp420 2013-04-15  
snkcxy 写道
sgp420 写道
用这个测试了下  
控制台java.net.UnknownHostException: www.weather.com.cn
我应该如何写?


1.是确保是联网呢么?
2.你用浏览器直接访问www.weather.com.cn 看看能不能访问到 ping一下也行
3.这个和你网络环境有关吧 你们的dns 或者说 你们局域网屏蔽限制ip什么的



浏览器里面访问是OK的,在cmd里面 PING 不通这个,
公司设定的,用的是代理服务器上的;
7 楼 snkcxy 2013-04-15  
sgp420 写道
用这个测试了下  
控制台java.net.UnknownHostException: www.weather.com.cn
我应该如何写?


1.是确保是联网呢么?
2.你用浏览器直接访问www.weather.com.cn 看看能不能访问到 ping一下也行
3.这个和你网络环境有关吧 你们的dns 或者说 你们局域网屏蔽限制ip什么的
6 楼 sgp420 2013-04-15  
用这个测试了下  
控制台java.net.UnknownHostException: www.weather.com.cn
我应该如何写?
5 楼 snkcxy 2013-04-15  
20130115 写道
连个编码都不关注的简单需求还搞这么多行代码。。。
FileUtils.copyURLToFile(new URL("http://www.weather.com.cn/weather/101030100.shtml"), new File("D:/cxyapi.html"));


您写的这个方法 我在 http://snkcxy.iteye.com/blog/1845862 我的这篇博客其实也介绍过
4 楼 snkcxy 2013-04-15  
20130115 写道
连个编码都不关注的简单需求还搞这么多行代码。。。
FileUtils.copyURLToFile(new URL("http://www.weather.com.cn/weather/101030100.shtml"), new File("D:/cxyapi.html"));


好吧 其实您这个更简单
我写这个文章最初想介绍的其实是 标准输出流的重定向 so 你懂的
3 楼 20130115 2013-04-15  
连个编码都不关注的简单需求还搞这么多行代码。。。
FileUtils.copyURLToFile(new URL("http://www.weather.com.cn/weather/101030100.shtml"), new File("D:/cxyapi.html"));
2 楼 snkcxy 2013-04-15  
扩展一下
本文抓取的是天气预报,使用htmlparser作一下html解析,也可以达到抓取天气预报的效果。
当然 我不是说这是唯一或者是最好的方式,只是抓取天气预报的一种。
1 楼 snkcxy 2013-04-15  
纠正一下 这里有个小错误HttpClient 不是源生java api  也是apache commons下的
如果你需要做登陆后的抓取 那就要用到这个类了。

相关推荐

    获取网页源代码

    获取网页源代码是网络爬虫、数据分析、网页抓取等任务的基础步骤。本工具专注于提供一个简单的方式,让用户通过输入URL地址就能便捷地获取到目标网页的源代码。 首先,我们需要理解URL(统一资源定位符)的作用。...

    C#抓取网页股票年报数据程序源代码

    通过HttpRequest对象,程序可以模拟用户的行为,例如发送GET或POST请求来获取网页内容;HttpResponse则用于接收服务器返回的数据。在此程序中,开发者可能利用这两个类来构建一个HTTP客户端,与目标网站进行交互,...

    网页代码获取工具

    网页代码获取工具是一种用于提取和分析网页源代码的软件,对于网页开发者、SEO优化师以及网络数据抓取人员来说,这种工具极其重要。它能够帮助用户快速查看和理解网页背后的HTML、CSS、JavaScript等代码结构,从而...

    20行python代码抓取网页中所有图片.py

    20行python代码抓取网页中所有图片.py

    java抓取网页内容源代码

    给定的Java代码实现了一个基本的网页抓取功能,它通过发送HTTP请求至指定URL,获取网页内容,并将其保存到本地文件中。具体步骤包括: 1. **初始化URL对象**:首先,创建一个`URL`对象,用于表示要抓取的网页地址。...

    VC获取网页源代码,用来修改其源代码

    在IT行业中,获取网页源代码是一项基础而重要的技能,尤其对于开发者来说,它可能是为了分析网页结构、抓取数据或是进行自动化测试等目的。在这个场景中,"VC"可能指的是Visual C++,一种广泛使用的C++集成开发环境...

    Python抓取网页代码

    Python抓取网页代码 抓取了国家环境网站上的一组AQI数据

    VC++ 获取网页源代码.rar

    6. **使用libcurl在VC++中获取网页源代码**:首先,需要将libcurl库添加到VC++项目中,然后调用libcurl的函数,如`curl_easy_init`、`curl_easy_setopt`(设置请求选项,如URL和数据处理回调函数)和`curl_easy_...

    python爬虫抓取网页数据大作业项目代码.zip

    python爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码....

    获取网页密码-VC6代码

    在IT行业中,网络数据安全是至关重要的议题,而“获取网页密码-VC6代码”这个主题涉及到了网络编程和密码处理技术。在这个场景下,我们通常指的是使用Visual C++ 6.0(简称VC6)编译器进行的程序开发,以实现抓取或...

    VC++ 获取网页源代码

    在IT领域,尤其是在软件开发中,获取网页源代码是一项常见的任务。VC++是Microsoft公司推出的一种集成开发环境,主要用于编写Windows平台的应用程序。利用VC++,我们可以构建C++程序来实现从互联网上抓取网页的源...

    PB代码获取网页源代码

    在Web开发中,获取网页源代码是常见需求,这有助于分析网页结构、抓取数据或者进行自动化测试。 在PowerBuilder中,我们可以使用内置的网络功能或第三方库来实现这个目标。以下是一种可能的方法: 1. **内置的HTTP...

    网页代码抓取

    指定你要抓取网页的url。就可以抓取的网页的代码了。

    获取网页纯文本,源代码

    在IT行业中,获取网页的纯文本信息是一项基本任务,尤其对于网络爬虫、数据分析和信息提取等应用场景。本文将深入探讨如何使用C#语言来实现这个功能,以及相关的技术细节和注意事项。 首先,我们需要理解“网页纯...

    一个自动获取网址html代码的网页

    标题中的“一个自动获取网址html代码的网页”指的是一个在线工具或者服务,它允许用户输入一个网站URL,然后该工具会自动抓取并显示该网页的HTML源代码。这个功能对于网页开发者、SEO优化人员或者网络分析者来说非常...

    利用IDHTTP多次获取网页代码

    本篇文章将深入探讨如何利用`IDHTTP`来多次获取网页代码,并针对可能出现的问题提供解决方案。 首先,`IDHTTP`是Indy库中的一个组件,它提供了对HTTP协议的支持,允许开发者发送各种HTTP请求(如GET、POST等)并...

    抓取网页数据的代码

    1. **发起HTTP请求**:向目标网站发送请求获取网页内容。 2. **解析HTML文档**:使用DOM解析器或其他HTML解析库来解析返回的HTML文档。 3. **提取所需数据**:根据需求定位并提取关键信息。 4. **存储数据**:将提取...

    抓取网页源代码

    网页源代码抓取是网络编程中的一个重要概念,它涉及到如何通过程序从互联网上获取HTML、CSS、JavaScript等网页内容。在本案例中,我们将聚焦于使用C++编程语言,特别是结合Visual Studio 2012环境,利用socket编程来...

    获取网页源代码vb

    下面将详细解释如何在VB6中获取网页源代码,并探讨相关知识点。 首先,我们需要了解HTTP协议,它是互联网上应用最为广泛的一种网络协议,用于从Web服务器传输超文本到本地浏览器。当我们在浏览器中输入网址并按下...

    获取网页源代码。支持从txt中获取URL以及导出txt文件

    获取网页源代码的过程则涉及到网络请求。在Python中,可以使用`requests`库来实现这一功能。发送GET请求到URL,然后调用`.text`属性即可获取到响应的HTML源代码。例如: ```python import requests url = ...

Global site tag (gtag.js) - Google Analytics