通过url地址抓取html代码 - - ITeye博客

`

不能跑就走

浏览: 71973 次
性别:
来自: 北京

最近访客更多访客>>

dongensi

4351901

1163735915

Jackiezmb

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

通过url地址抓取html代码

博客分类：

corejava

HTML C C++C#Java

阅读更多

public class URLStream {
	public static void main(String[] args) throws IOException {
		InputStream inputStream = null;
		BufferedReader reader = null;
		String str = null;
		try {
			URL url = new URL("http://www.baidu.com");
			
			inputStream = url.openStream();
			 reader = new BufferedReader(new InputStreamReader(inputStream,"gbk"));
			while(null != (str = reader.readLine())) {
				System.out.println(str);
			}
			reader.close();
		} catch (MalformedURLException ex) {
		     System.err.println("Not a URL Java understands.");
		} finally {
			if (reader != null)
				reader.close();
		}
	}
}

其他：
     1.刚开始写的时候没有用while(null != (str = reader.readLine()))而是用
     for( int c = inputStream.read(); c != -1; c = inputStream.read()){
                System.out.write(c);
     }
     发现乱码，想想当然会乱码的，毕竟一个中文占两个字符。

分享到：

url中相对路径和绝对路径 | 重写equals()和hashCode()方法

2011-01-05 19:22
浏览 1326
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

通过URL地址获取网页生成jpg图片: 本教程将详细介绍如何通过URL地址获取网页并生成jpg图片，同时解决32位和64位运行环境下的兼容性问题。我们将主要使用Java语言来实现这一功能，因为它具有丰富的库和跨平台的特性。首先，我们需要一个能够处理网络...

url域名抓取: 4. API接口：某些网站提供公开的API，允许合法地获取其内部链接，可以通过调用这些接口进行URL抓取。三、无限采集策略 1. 广度优先搜索：从一个起始页面开始，先抓取所有直接链接的页面，再抓取这些页面的链接，...

抓取网页源代码: 网页源代码抓取是网络编程中的一个重要概念，它涉及到如何通过程序从互联网上获取HTML、CSS、JavaScript等网页内容。在本案例中，我们将聚焦于使用C++编程语言，特别是结合Visual Studio 2012环境，利用socket编程来...

Python实现抓取HTML网页并以PDF文件形式保存的方法: 【Python实现抓取HTML网页并以PDF文件形式保存的方法】在Python编程中，有时我们需要将网页内容抓取下来并保存为PDF格式，以便于离线阅读或者方便打印。本篇将详细介绍如何使用Python来实现这一功能，主要涉及的库...

java新闻抓取程序代码: 本Java新闻抓取程序代码通过 URL 和 URLConnection 实现了网页内容的获取，利用正则表达式解析 HTML，同时处理了图片的下载和替换。此外，还引入了日志记录机制来增强程序的可维护性和调试性。这种技术方案可以广泛...

html网页内容抓取: 通过解析HTML代码，我们可以获取到网页上的文字、图片、链接等各种元素。在进行HTML网页内容抓取时，通常有两种主要的方法： 1. **使用浏览器扩展或插件**：例如，可以使用如Chrome的“Web Scraper”插件，它允许...

Java抓取URL/Email实例源码: 同时，有些URL可能隐藏在JavaScript代码中，需要更深入的解析。`jsoup`库是一个非常实用的Java库，它能解析HTML并提供强大的CSS选择器，使得URL提取更加简单高效。 Email的抓取则需要识别常见的电子邮件格式，如`...

java抓取网页内容源代码: 1. **初始化URL对象**：首先，创建一个`URL`对象，用于表示要抓取的网页地址。 2. **打开连接**：调用`openConnection()`方法建立与目标网页的连接。 3. **读取网页内容**：使用`BufferedReader`逐行读取网页的响应...

抓取页面URL: 递归抓取是爬虫实现URL抓取的关键策略。当爬虫获取到一个网页后，它会解析HTML代码，找到`<a>`标签（链接标签），这些标签通常包含指向其他页面的URL。爬虫会把这些URL存储起来，并在下一轮抓取时使用它们作为新的...

网页Html抓取爬虫测试工具: 抓取HTML数据通常是为了获取网页上的有用信息，如文章内容、产品价格、评论等。通过解析HTML源代码，我们可以定位到目标数据所在的标签、属性或者CSS选择器，然后使用正则表达式进行匹配和提取。正则表达式是一种...

c++多线程抓取网页代码: 在C++编程中，多线程技术是一...总之，C++多线程抓取网页代码涉及了C++11的多线程特性、HTTP客户端库（如libcurl）、HTML解析库（如pugixml）以及良好的编程实践。通过这些技术，我们可以构建高效的网络数据抓取程序。

页面抓取的全部代码，可以跑的: 然后，你可以用以下代码抓取一个网页： ```java import org.jsoup.Jsoup; import java.io.IOException; public class WebScraper { public static void main(String[] args) { try { String url = ...

java网络编程抓取指定网页信息--UrlHtml(java源码): public class UrlHtml { @SuppressWarnings("deprecation") public static void main(String[] s) throws IOException{ try { URL url = new URL("http://www.kum.net.cn"); DataInputStream in = new ...

图片定时抓取代码: - HTML解析：要抓取网页上的图片，首先需要解析HTML源代码，找到`<img>`标签，从中获取图片的URL。这通常需要了解HTML的基本结构和属性，如`src`表示图片链接。 3. **编程语言**： - 通常，这类任务会使用如...

蜘蛛程序，最基本的网页抓取和html解析实力: HTML解析则是将抓取到的HTML代码转化为结构化的数据，便于处理和分析。C#中，可以使用HtmlAgilityPack库来解析HTML。这个库提供了强大的DOM操作接口，允许我们方便地查找、修改和提取HTML元素。例如，通过XPath或CSS...

JSP抓取网页的代码: "JSP抓取网页的代码"通常指的是使用JSP来实现网络爬虫功能，即从互联网上自动抓取网页内容。下面我们将深入探讨这个主题。 1. **JSP基础** - JSP是由Sun Microsystems（现已被Oracle收购）开发的，它的核心是Java ...

url获取的java源代码: 本示例的"GetURL.java"文件提供了一个简单的Java程序，用于抓取网页上的URL地址，为构建网络爬虫提供了基本框架。下面将详细解释相关知识点。 1. **URL（Uniform Resource Locator）**： URL是统一资源定位符，是...

分享下页面关键字抓取components.arrow.com站点代码: 页面关键字抓取，通常指在互联网上通过编程技术抓取特定网页中含有关键字的内容。这项技术广泛应用于SEO分析、网络爬虫、数据挖掘等领域。...通过上述代码和技术知识，用户可以针对***站点进行关键字抓取操作。

iphone 网页资源抓取代码: 描述中提到的核心代码可能涉及到创建一个`URL`对象，代表你要抓取的网页地址，然后使用`session`的`dataTask(with:)`方法发送GET请求。这3行代码可能如下： ```swift let url = URL(string: "http://example.com")!...

通过htmlunit获取执行js代码后的html文档: `goTo`方法接受一个URL字符串，而`loadHtml`则接受HTML字符串。 ```java HtmlPage page = webClient.getPage("http://example.com"); ``` 4. **执行JavaScript**：在页面加载后，你可以使用`executeJavaScript`...

Global site tag (gtag.js) - Google Analytics