简单HTTP抓取网页内容 - 只想靠两手，向理想挥手 - ITeye博客

`

onlyOneToOne

浏览: 204882 次
性别:
来自: 黑龙江

最近访客更多访客>>

sunearlier

wenjiefeng

huangxinyu_it

chm00d339

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

等待时候： info.addStringPermissions( role ...
Apache Shiro 整合Spring 进行权限验证以及在Freemarker中使用shiro标签
hvang1988： shoringchow 写道刚才的图没有弄好，如下索引中虽然有 ...
Solr 4.10.2整合IKAnalyzer 2012FF_hf1 智能分析与细粒度分析配置useSmart
shoringchow：刚才的图没有弄好，如下索引中虽然有”九阳豆浆机DJ13B-D6 ...
Solr 4.10.2整合IKAnalyzer 2012FF_hf1 智能分析与细粒度分析配置useSmart
shoringchow：楼主你好，我也使用IK分词，但是目前遇到一个无解的问题，如下： ...
Solr 4.10.2整合IKAnalyzer 2012FF_hf1 智能分析与细粒度分析配置useSmart
ll_wang11：
Spring AOP与log4j做简单的异常日志处理

简单HTTP抓取网页内容

博客分类：

JTOEE

阅读更多

package com.test;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class TestHttp {

	public static void main(String[] args) throws Exception {

		String urlString = "http://www.baidu.com";

		HttpURLConnection urlConnection = null;
		URL url = new URL(urlString);
		urlConnection = (HttpURLConnection) url.openConnection();
		urlConnection.setRequestMethod("GET");
		urlConnection.setDoOutput(true);
		urlConnection.setDoInput(true);
		urlConnection.setUseCaches(false);
		InputStream in = urlConnection.getInputStream();
		BufferedReader bufferedReader = new BufferedReader(
				new InputStreamReader(in));
		StringBuffer temp = new StringBuffer();
		String line = bufferedReader.readLine();
		while (line != null) {
			temp.append(line);
			line = bufferedReader.readLine();
		}
		bufferedReader.close();
		String ecod = urlConnection.getContentEncoding();
		if (ecod == null)
			ecod = "UTF-8";
		String result = new String(temp.toString().getBytes(), ecod);
		System.out.println(result);
	}
}

分享到：

linux日记（一） | 大规模网站架构

2011-05-13 09:21
浏览 853
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java简单抓取网页内容: 本文将深入探讨如何使用Java实现简单的网页内容抓取，适合初学者入门学习。首先，我们需要理解网页抓取的基本原理。网页本质上是由HTML（超文本标记语言）构成的，而HTTP（超文本传输协议）则是网页内容传输的基础...

抓取网站内容，获取网站内容，读取网站所有内容，抓取网页内容: 1. **抓取网站内容**：这是网络爬虫的基本功能，通过HTTP或HTTPS协议向服务器发送请求，获取返回的HTML或其他格式的网页内容。Python中常用的库有`requests`，它可以方便地发送GET或POST请求。 2. **获取网站内容**...

Java抓取网页内容三种方式: 使用 URL 连接是最简单的抓取网页内容的方式。它使用 java.net.URL 类来打开一个 URL 连接，然后使用 InputStream 读取网页内容。下面是使用 URL 连接的示例代码： ```java import java.io.*; import java.net.*; ...

抓取网站内容: 网站内容抓取，也称为网页抓取或网络爬虫，是一种自动提取网页数据的技术。它在互联网上广泛应用于搜索引擎优化、数据分析、市场研究、新闻监控等领域。本篇将深入探讨这个主题，帮助你理解如何抓取网站内容以及相关...

java web网站常用抓取其他网站内容: Java Web网站抓取其他网站内容是一项常见的技术需求，主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。首先，我们需要了解的是网页抓取的基本...

C#简单网页抓取demo: 在本文中，我们将深入探讨如何使用C#进行简单的网页抓取。C#是一种广泛用于开发Windows应用程序、Web应用以及游戏的编程语言，而.NET框架为其提供了丰富的类库，包括用于网络请求和HTML解析的工具。在"C#简单网页...

易语言简单网页抓包工具: 【易语言简单网页抓包工具】是一款基于易语言开发的网络数据包捕获软件，它主要功能是帮助用户监控和分析网络通信中的数据传输过程。易语言是一种中国本土的编程语言，以其简单易学的特性受到许多初学者的欢迎。这款...

winform实现百度网页内容抓取: 总的来说，通过结合C#的HttpWebRequest类和Winform的用户界面功能，我们可以构建一个简单但实用的百度网页内容抓取工具。这不仅有助于学习HTTP通信和网页抓取，还可以作为进一步开发更复杂网络爬虫的基础。

网页爬虫，网页抓取，js加载后网页抓取，超简单。: 在标题和描述中提到的"超简单网页爬虫"，主要针对的是对网页抓取技术的初级学习者，特别是那些想要理解和实践如何抓取动态加载页面的用户。在现代网页设计中，很多数据不再一次性在HTML中呈现，而是通过JavaScript...

python简单爬虫抓取新闻板块网页内容实例: 本实例主要探讨如何使用Python编写一个简单的爬虫，针对中国稀土网的新闻中心国内新闻板块，抓取首页的新闻标题、发布时间、来源和正文。下面将详细阐述实现这个任务所需的关键知识点。 1. **Python基础**：Python...

基于JAVA技术的网页内容智能抓取: 【基于JAVA技术的网页内容智能抓取】是一个利用...总结来说，基于JAVA技术的网页内容智能抓取系统旨在实现自动化、高效的网页内容抓取，但目前仍存在若干限制和不足，需要进一步优化和扩展，以提高其功能性和适应性。

怎么样抓取网页内容以及指定内容（C#版本）: 本篇文章将深入探讨如何使用C#编程语言来实现网页内容的抓取，特别是如何定位并提取指定内容。首先，我们需要理解网页抓取的基本原理。网页是由HTML、CSS、JavaScript等构成的，其中HTML提供了页面的结构。C#中，...

java网页抓取数据: 在网页抓取过程中，经常需要处理JavaScript渲染的内容，因为很多网站使用AJAX技术动态加载数据。这时，HtmlUnit这样的无头浏览器库就派上用场了，它可以执行JavaScript并呈现动态内容： ```java HtmlUnitClient ...

小偷程序（模拟请求，抓取网页内容）: 很多朋友多问过我如何抓取网页的内容，其实并不难，但是对于网页的分析却不是很简单，以前我接触正则表达式比较少，就自己去分析页面，结果是要么抓到的数据不准，要么就根本抓不到。现在写了两个类给朋友们用，...

e语言-简单网页抓包工具: 【标题】"e语言-简单网页抓包工具"揭示了一个基于易语言开发的网络数据截取应用程序。易语言，全称“简易编程语言”，是一种面向初学者的编程环境，其语法简洁明了，使得开发者能够快速构建软件。在这个特定的项目中...

C#抓取网页内容.pdf: 在C#中，抓取网页内容是通过网络编程接口实现的，主要涉及到`WebRequest`、`WebResponse`和`StreamReader`这三个类，它们属于`System.Net`和`System.IO`命名空间。下面将详细讲解这些类的功能及其在抓取网页内容中的...

蜘蛛抓取网页数据: 在网页抓取中，我们通常会发送HTTP请求到目标网站，然后接收HTTP响应，其中包含了我们感兴趣的网页内容。在C#中，可以使用HttpClient类来处理HTTP请求和响应。HttpClient允许我们设置各种请求头，如User-Agent，以...

静态网页内容抓取深度搜索: 在IT领域，静态网页内容抓取和深度搜索是两种重要的技术，它们在数据挖掘、信息检索和网络分析中发挥着关键作用。静态网页是指不依赖服务器端脚本动态生成，而是预先生成HTML代码并存储在服务器上的网页。这种类型的...

html网页内容抓取: 接下来，我们来看一个简单的使用HttpClient抓取网页内容的示例代码： ```java CloseableHttpClient httpclient = HttpClients.createDefault(); HttpGet httpGet = new HttpGet("http://example.com"); ...

Http,Jsoup-网页数据抓取: 在IT行业中，网络数据抓取是一项重要的技能，它允许开发者获取并分析网页上的信息，以进行各种用途，如数据分析、网站监控或者构建自己的应用程序。在这个主题中，我们将深入探讨两个关键概念：Http协议和Jsoup库，...

Global site tag (gtag.js) - Google Analytics