public class URLStream {
public static void main(String[] args) throws IOException {
InputStream inputStream = null;
BufferedReader reader = null;
String str = null;
try {
URL url = new URL("http://www.baidu.com");
inputStream = url.openStream();
reader = new BufferedReader(new InputStreamReader(inputStream,"gbk"));
while(null != (str = reader.readLine())) {
System.out.println(str);
}
reader.close();
} catch (MalformedURLException ex) {
System.err.println("Not a URL Java understands.");
} finally {
if (reader != null)
reader.close();
}
}
}
其他:
1.刚开始写的时候没有用while(null != (str = reader.readLine()))而是用
for( int c = inputStream.read(); c != -1; c = inputStream.read()){
System.out.write(c);
}
发现乱码,想想当然会乱码的,毕竟一个中文占两个字符。
分享到:
相关推荐
本教程将详细介绍如何通过URL地址获取网页并生成jpg图片,同时解决32位和64位运行环境下的兼容性问题。我们将主要使用Java语言来实现这一功能,因为它具有丰富的库和跨平台的特性。 首先,我们需要一个能够处理网络...
4. API接口:某些网站提供公开的API,允许合法地获取其内部链接,可以通过调用这些接口进行URL抓取。 三、无限采集策略 1. 广度优先搜索:从一个起始页面开始,先抓取所有直接链接的页面,再抓取这些页面的链接,...
网页源代码抓取是网络编程中的一个重要概念,它涉及到如何通过程序从互联网上获取HTML、CSS、JavaScript等网页内容。在本案例中,我们将聚焦于使用C++编程语言,特别是结合Visual Studio 2012环境,利用socket编程来...
【Python实现抓取HTML网页并以PDF文件形式保存的方法】 在Python编程中,有时我们需要将网页内容抓取下来并保存为PDF格式,以便于离线阅读或者方便打印。本篇将详细介绍如何使用Python来实现这一功能,主要涉及的库...
本Java新闻抓取程序代码通过 URL 和 URLConnection 实现了网页内容的获取,利用正则表达式解析 HTML,同时处理了图片的下载和替换。此外,还引入了日志记录机制来增强程序的可维护性和调试性。这种技术方案可以广泛...
通过解析HTML代码,我们可以获取到网页上的文字、图片、链接等各种元素。 在进行HTML网页内容抓取时,通常有两种主要的方法: 1. **使用浏览器扩展或插件**:例如,可以使用如Chrome的“Web Scraper”插件,它允许...
同时,有些URL可能隐藏在JavaScript代码中,需要更深入的解析。`jsoup`库是一个非常实用的Java库,它能解析HTML并提供强大的CSS选择器,使得URL提取更加简单高效。 Email的抓取则需要识别常见的电子邮件格式,如`...
1. **初始化URL对象**:首先,创建一个`URL`对象,用于表示要抓取的网页地址。 2. **打开连接**:调用`openConnection()`方法建立与目标网页的连接。 3. **读取网页内容**:使用`BufferedReader`逐行读取网页的响应...
递归抓取是爬虫实现URL抓取的关键策略。当爬虫获取到一个网页后,它会解析HTML代码,找到`<a>`标签(链接标签),这些标签通常包含指向其他页面的URL。爬虫会把这些URL存储起来,并在下一轮抓取时使用它们作为新的...
抓取HTML数据通常是为了获取网页上的有用信息,如文章内容、产品价格、评论等。通过解析HTML源代码,我们可以定位到目标数据所在的标签、属性或者CSS选择器,然后使用正则表达式进行匹配和提取。 正则表达式是一种...
在C++编程中,多线程技术是一...总之,C++多线程抓取网页代码涉及了C++11的多线程特性、HTTP客户端库(如libcurl)、HTML解析库(如pugixml)以及良好的编程实践。通过这些技术,我们可以构建高效的网络数据抓取程序。
然后,你可以用以下代码抓取一个网页: ```java import org.jsoup.Jsoup; import java.io.IOException; public class WebScraper { public static void main(String[] args) { try { String url = ...
public class UrlHtml { @SuppressWarnings("deprecation") public static void main(String[] s) throws IOException{ try { URL url = new URL("http://www.kum.net.cn"); DataInputStream in = new ...
- HTML解析:要抓取网页上的图片,首先需要解析HTML源代码,找到`<img>`标签,从中获取图片的URL。这通常需要了解HTML的基本结构和属性,如`src`表示图片链接。 3. **编程语言**: - 通常,这类任务会使用如...
HTML解析则是将抓取到的HTML代码转化为结构化的数据,便于处理和分析。C#中,可以使用HtmlAgilityPack库来解析HTML。这个库提供了强大的DOM操作接口,允许我们方便地查找、修改和提取HTML元素。例如,通过XPath或CSS...
"JSP抓取网页的代码"通常指的是使用JSP来实现网络爬虫功能,即从互联网上自动抓取网页内容。下面我们将深入探讨这个主题。 1. **JSP基础** - JSP是由Sun Microsystems(现已被Oracle收购)开发的,它的核心是Java ...
本示例的"GetURL.java"文件提供了一个简单的Java程序,用于抓取网页上的URL地址,为构建网络爬虫提供了基本框架。下面将详细解释相关知识点。 1. **URL(Uniform Resource Locator)**: URL是统一资源定位符,是...
页面关键字抓取,通常指在互联网上通过编程技术抓取特定网页中含有关键字的内容。这项技术广泛应用于SEO分析、网络爬虫、数据挖掘等领域。...通过上述代码和技术知识,用户可以针对***站点进行关键字抓取操作。
描述中提到的核心代码可能涉及到创建一个`URL`对象,代表你要抓取的网页地址,然后使用`session`的`dataTask(with:)`方法发送GET请求。这3行代码可能如下: ```swift let url = URL(string: "http://example.com")!...
`goTo`方法接受一个URL字符串,而`loadHtml`则接受HTML字符串。 ```java HtmlPage page = webClient.getPage("http://example.com"); ``` 4. **执行JavaScript**:在页面加载后,你可以使用`executeJavaScript`...