`
不能跑就走
  • 浏览: 71761 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

通过url地址抓取html代码

阅读更多
public class URLStream {
	public static void main(String[] args) throws IOException {
		InputStream inputStream = null;
		BufferedReader reader = null;
		String str = null;
		try {
			URL url = new URL("http://www.baidu.com");
			
			inputStream = url.openStream();
			 reader = new BufferedReader(new InputStreamReader(inputStream,"gbk"));
			while(null != (str = reader.readLine())) {
				System.out.println(str);
			}
			reader.close();
		} catch (MalformedURLException ex) {
		     System.err.println("Not a URL Java understands.");
		} finally {
			if (reader != null)
				reader.close();
		}
	}
}


其他:
     1.刚开始写的时候没有用while(null != (str = reader.readLine()))而是用
     for( int c = inputStream.read(); c != -1; c = inputStream.read()){
                System.out.write(c);
     }
     发现乱码,想想当然会乱码的,毕竟一个中文占两个字符。
分享到:
评论

相关推荐

    通过URL地址获取网页生成jpg图片

    本教程将详细介绍如何通过URL地址获取网页并生成jpg图片,同时解决32位和64位运行环境下的兼容性问题。我们将主要使用Java语言来实现这一功能,因为它具有丰富的库和跨平台的特性。 首先,我们需要一个能够处理网络...

    url域名抓取

    4. API接口:某些网站提供公开的API,允许合法地获取其内部链接,可以通过调用这些接口进行URL抓取。 三、无限采集策略 1. 广度优先搜索:从一个起始页面开始,先抓取所有直接链接的页面,再抓取这些页面的链接,...

    抓取网页源代码

    网页源代码抓取是网络编程中的一个重要概念,它涉及到如何通过程序从互联网上获取HTML、CSS、JavaScript等网页内容。在本案例中,我们将聚焦于使用C++编程语言,特别是结合Visual Studio 2012环境,利用socket编程来...

    Python实现抓取HTML网页并以PDF文件形式保存的方法

    【Python实现抓取HTML网页并以PDF文件形式保存的方法】 在Python编程中,有时我们需要将网页内容抓取下来并保存为PDF格式,以便于离线阅读或者方便打印。本篇将详细介绍如何使用Python来实现这一功能,主要涉及的库...

    java新闻抓取程序代码

    本Java新闻抓取程序代码通过 URL 和 URLConnection 实现了网页内容的获取,利用正则表达式解析 HTML,同时处理了图片的下载和替换。此外,还引入了日志记录机制来增强程序的可维护性和调试性。这种技术方案可以广泛...

    html网页内容抓取

    通过解析HTML代码,我们可以获取到网页上的文字、图片、链接等各种元素。 在进行HTML网页内容抓取时,通常有两种主要的方法: 1. **使用浏览器扩展或插件**:例如,可以使用如Chrome的“Web Scraper”插件,它允许...

    Java抓取URL/Email实例源码

    同时,有些URL可能隐藏在JavaScript代码中,需要更深入的解析。`jsoup`库是一个非常实用的Java库,它能解析HTML并提供强大的CSS选择器,使得URL提取更加简单高效。 Email的抓取则需要识别常见的电子邮件格式,如`...

    java抓取网页内容源代码

    1. **初始化URL对象**:首先,创建一个`URL`对象,用于表示要抓取的网页地址。 2. **打开连接**:调用`openConnection()`方法建立与目标网页的连接。 3. **读取网页内容**:使用`BufferedReader`逐行读取网页的响应...

    抓取页面URL

    递归抓取是爬虫实现URL抓取的关键策略。当爬虫获取到一个网页后,它会解析HTML代码,找到`<a>`标签(链接标签),这些标签通常包含指向其他页面的URL。爬虫会把这些URL存储起来,并在下一轮抓取时使用它们作为新的...

    网页Html抓取爬虫测试工具

    抓取HTML数据通常是为了获取网页上的有用信息,如文章内容、产品价格、评论等。通过解析HTML源代码,我们可以定位到目标数据所在的标签、属性或者CSS选择器,然后使用正则表达式进行匹配和提取。 正则表达式是一种...

    c++多线程抓取网页代码

    在C++编程中,多线程技术是一...总之,C++多线程抓取网页代码涉及了C++11的多线程特性、HTTP客户端库(如libcurl)、HTML解析库(如pugixml)以及良好的编程实践。通过这些技术,我们可以构建高效的网络数据抓取程序。

    页面抓取的全部代码,可以跑的

    然后,你可以用以下代码抓取一个网页: ```java import org.jsoup.Jsoup; import java.io.IOException; public class WebScraper { public static void main(String[] args) { try { String url = ...

    java网络编程抓取指定网页信息--UrlHtml(java源码)

    public class UrlHtml { @SuppressWarnings("deprecation") public static void main(String[] s) throws IOException{ try { URL url = new URL("http://www.kum.net.cn"); DataInputStream in = new ...

    图片定时抓取代码

    - HTML解析:要抓取网页上的图片,首先需要解析HTML源代码,找到`<img>`标签,从中获取图片的URL。这通常需要了解HTML的基本结构和属性,如`src`表示图片链接。 3. **编程语言**: - 通常,这类任务会使用如...

    蜘蛛程序,最基本的网页抓取和html解析实力

    HTML解析则是将抓取到的HTML代码转化为结构化的数据,便于处理和分析。C#中,可以使用HtmlAgilityPack库来解析HTML。这个库提供了强大的DOM操作接口,允许我们方便地查找、修改和提取HTML元素。例如,通过XPath或CSS...

    JSP抓取网页的代码

    "JSP抓取网页的代码"通常指的是使用JSP来实现网络爬虫功能,即从互联网上自动抓取网页内容。下面我们将深入探讨这个主题。 1. **JSP基础** - JSP是由Sun Microsystems(现已被Oracle收购)开发的,它的核心是Java ...

    url获取的java源代码

    本示例的"GetURL.java"文件提供了一个简单的Java程序,用于抓取网页上的URL地址,为构建网络爬虫提供了基本框架。下面将详细解释相关知识点。 1. **URL(Uniform Resource Locator)**: URL是统一资源定位符,是...

    分享下页面关键字抓取components.arrow.com站点代码

    页面关键字抓取,通常指在互联网上通过编程技术抓取特定网页中含有关键字的内容。这项技术广泛应用于SEO分析、网络爬虫、数据挖掘等领域。...通过上述代码和技术知识,用户可以针对***站点进行关键字抓取操作。

    iphone 网页资源抓取代码

    描述中提到的核心代码可能涉及到创建一个`URL`对象,代表你要抓取的网页地址,然后使用`session`的`dataTask(with:)`方法发送GET请求。这3行代码可能如下: ```swift let url = URL(string: "http://example.com")!...

    通过htmlunit获取执行js代码后的html文档

    `goTo`方法接受一个URL字符串,而`loadHtml`则接受HTML字符串。 ```java HtmlPage page = webClient.getPage("http://example.com"); ``` 4. **执行JavaScript**:在页面加载后,你可以使用`executeJavaScript`...

Global site tag (gtag.js) - Google Analytics