`

简单HTTP抓取网页内容

阅读更多
package com.test;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class TestHttp {

	public static void main(String[] args) throws Exception {

		String urlString = "http://www.baidu.com";

		HttpURLConnection urlConnection = null;
		URL url = new URL(urlString);
		urlConnection = (HttpURLConnection) url.openConnection();
		urlConnection.setRequestMethod("GET");
		urlConnection.setDoOutput(true);
		urlConnection.setDoInput(true);
		urlConnection.setUseCaches(false);
		InputStream in = urlConnection.getInputStream();
		BufferedReader bufferedReader = new BufferedReader(
				new InputStreamReader(in));
		StringBuffer temp = new StringBuffer();
		String line = bufferedReader.readLine();
		while (line != null) {
			temp.append(line);
			line = bufferedReader.readLine();
		}
		bufferedReader.close();
		String ecod = urlConnection.getContentEncoding();
		if (ecod == null)
			ecod = "UTF-8";
		String result = new String(temp.toString().getBytes(), ecod);
		System.out.println(result);
	}
}

分享到:
评论

相关推荐

    java简单抓取网页内容

    本文将深入探讨如何使用Java实现简单的网页内容抓取,适合初学者入门学习。 首先,我们需要理解网页抓取的基本原理。网页本质上是由HTML(超文本标记语言)构成的,而HTTP(超文本传输协议)则是网页内容传输的基础...

    抓取网站内容,获取网站内容,读取网站所有内容,抓取网页内容

    1. **抓取网站内容**:这是网络爬虫的基本功能,通过HTTP或HTTPS协议向服务器发送请求,获取返回的HTML或其他格式的网页内容。Python中常用的库有`requests`,它可以方便地发送GET或POST请求。 2. **获取网站内容**...

    Java抓取网页内容三种方式

    使用 URL 连接是最简单的抓取网页内容的方式。它使用 java.net.URL 类来打开一个 URL 连接,然后使用 InputStream 读取网页内容。下面是使用 URL 连接的示例代码: ```java import java.io.*; import java.net.*; ...

    抓取网站内容

    网站内容抓取,也称为网页抓取或网络爬虫,是一种自动提取网页数据的技术。它在互联网上广泛应用于搜索引擎优化、数据分析、市场研究、新闻监控等领域。本篇将深入探讨这个主题,帮助你理解如何抓取网站内容以及相关...

    java web网站常用抓取其他网站内容

    Java Web网站抓取其他网站内容是一项常见的技术需求,主要用于数据挖掘、信息聚合或者自动化测试等场景。本篇文章将深入探讨如何使用Java在Web环境中抓取其他网站的数据。 首先,我们需要了解的是网页抓取的基本...

    C#简单网页抓取demo

    在本文中,我们将深入探讨如何使用C#进行简单的网页抓取。C#是一种广泛用于开发Windows应用程序、Web应用以及游戏的编程语言,而.NET框架为其提供了丰富的类库,包括用于网络请求和HTML解析的工具。在"C#简单网页...

    易语言简单网页抓包工具

    【易语言简单网页抓包工具】是一款基于易语言开发的网络数据包捕获软件,它主要功能是帮助用户监控和分析网络通信中的数据传输过程。易语言是一种中国本土的编程语言,以其简单易学的特性受到许多初学者的欢迎。这款...

    winform实现百度网页内容抓取

    总的来说,通过结合C#的HttpWebRequest类和Winform的用户界面功能,我们可以构建一个简单但实用的百度网页内容抓取工具。这不仅有助于学习HTTP通信和网页抓取,还可以作为进一步开发更复杂网络爬虫的基础。

    小偷程序(模拟请求,抓取网页内容)

    很多朋友多问过我如何抓取网页的内容,其实并不难,但是对于网页的分析却不是很简单,以前我接触正则表达式比较少,就自己去分析页面,结果是要么抓到的数据不准,要么就根本抓不到。 现在写了两个类给朋友们用,...

    python简单爬虫抓取新闻板块网页内容实例

    本实例主要探讨如何使用Python编写一个简单的爬虫,针对中国稀土网的新闻中心国内新闻板块,抓取首页的新闻标题、发布时间、来源和正文。下面将详细阐述实现这个任务所需的关键知识点。 1. **Python基础**:Python...

    基于JAVA技术的网页内容智能抓取

    【基于JAVA技术的网页内容智能抓取】是一个利用...总结来说,基于JAVA技术的网页内容智能抓取系统旨在实现自动化、高效的网页内容抓取,但目前仍存在若干限制和不足,需要进一步优化和扩展,以提高其功能性和适应性。

    怎么样抓取网页内容以及指定内容(C#版本)

    本篇文章将深入探讨如何使用C#编程语言来实现网页内容的抓取,特别是如何定位并提取指定内容。 首先,我们需要理解网页抓取的基本原理。网页是由HTML、CSS、JavaScript等构成的,其中HTML提供了页面的结构。C#中,...

    java网页抓取数据

    在网页抓取过程中,经常需要处理JavaScript渲染的内容,因为很多网站使用AJAX技术动态加载数据。这时,HtmlUnit这样的无头浏览器库就派上用场了,它可以执行JavaScript并呈现动态内容: ```java HtmlUnitClient ...

    网页爬虫工具抓取网页pclawer

    它允许用户高效地抓取和处理互联网上的网页内容,这对于数据分析、网站维护、市场研究等多种用途都非常有价值。在这个主题下,我们将深入探讨网页爬虫的基本概念、工作原理以及`pclawer`工具的特点和使用方法。 ...

    e语言-简单网页抓包工具

    【标题】"e语言-简单网页抓包工具"揭示了一个基于易语言开发的网络数据截取应用程序。易语言,全称“简易编程语言”,是一种面向初学者的编程环境,其语法简洁明了,使得开发者能够快速构建软件。在这个特定的项目中...

    VC++实现的网页内容抓取下载程序源代码

    本项目是关于使用VC++实现的网页内容抓取下载程序,它展示了如何利用MFC(Microsoft Foundation Classes)框架和`urldownloadtofile`函数来获取网页数据。这不仅对于学习C++编程有帮助,而且对于理解网络爬虫的基本...

    网页爬虫,网页抓取,js加载后网页抓取,超简单。

    在标题和描述中提到的"超简单网页爬虫",主要针对的是对网页抓取技术的初级学习者,特别是那些想要理解和实践如何抓取动态加载页面的用户。 在现代网页设计中,很多数据不再一次性在HTML中呈现,而是通过JavaScript...

    C#抓取网页内容.pdf

    在C#中,抓取网页内容是通过网络编程接口实现的,主要涉及到`WebRequest`、`WebResponse`和`StreamReader`这三个类,它们属于`System.Net`和`System.IO`命名空间。下面将详细讲解这些类的功能及其在抓取网页内容中的...

    蜘蛛抓取网页数据

    在网页抓取中,我们通常会发送HTTP请求到目标网站,然后接收HTTP响应,其中包含了我们感兴趣的网页内容。 在C#中,可以使用HttpClient类来处理HTTP请求和响应。HttpClient允许我们设置各种请求头,如User-Agent,以...

    静态网页内容抓取深度搜索

    在IT领域,静态网页内容抓取和深度搜索是两种重要的技术,它们在数据挖掘、信息检索和网络分析中发挥着关键作用。静态网页是指不依赖服务器端脚本动态生成,而是预先生成HTML代码并存储在服务器上的网页。这种类型的...

Global site tag (gtag.js) - Google Analytics