该程序仅对单个URL所对应的page网页信息进行抓取(pageSpider.java)。程序流程图如下:
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.ProtocolException;
import java.net.URL;
public class pageSpider implements Runnable {
HttpURLConnection httpUrlConnection;
InputStream inputStream;
BufferedReader bufferedReader;
String url;
public pageSpider() {
try {url="http://www.baidu.com"; } catch (Exception e) {e.printStackTrace();}
try {
httpUrlConnection = (HttpURLConnection) new URL(url).openConnection(); //创建连接
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println("---------start-----------");
Thread thread = new Thread(this);
thread.start();
try {thread.join();} catch (InterruptedException e) {e.printStackTrace();}
System.out.println("----------end------------");
}
public void run() {
// TODO Auto-generated method stub
try {
httpUrlConnection.setRequestMethod("GET");
} catch (ProtocolException e) {
e.printStackTrace();
}
try {
httpUrlConnection.setUseCaches(true); //使用缓存
httpUrlConnection.connect(); //建立连接
} catch (IOException e) {
e.printStackTrace();
}
try {
inputStream = httpUrlConnection.getInputStream(); //读取输入流
bufferedReader = new BufferedReader(new InputStreamReader(inputStream, "gb2312"));
String string;
while ((string = bufferedReader.readLine()) != null) {
System.out.println(string); //打印输出
}
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
bufferedReader.close();
inputStream.close();
httpUrlConnection.disconnect();
} catch (IOException e) {
e.printStackTrace();
}
}
}
public static void main(String[] args) {
new pageSpider();
}
}
相关推荐
网页爬虫程序是一种自动化工具,用于从互联网上搜集和整理数据。在信息技术领域,它扮演着重要的角色,尤其是在大数据分析、市场研究、搜索引擎优化(SEO)以及内容监控等方面。网页爬虫通过模拟人类浏览器的行为,...
Python网页爬虫程序框架 常用的Python网页爬虫程序框架包括: Scrapy:Scrapy是一个强大的开源网络爬虫框架,提供了完整的爬虫流程管理,包括异步IO操作、多线程管理、反爬虫策略等功能。它支持XPath和CSS选择器...
网络爬虫在访问网页的过程中可能会遇到各种异常,如网络中断、目标网页不存在等,合理地处理这些异常可以避免程序因为频繁的异常而中断运行,提高爬虫程序的健壮性。 总体来看,基于Linux平台的Python多线程爬虫...
《Visual C++ 实现的网络/网页爬虫程序详解》 在互联网的海量信息中,爬虫技术扮演着至关重要的角色。它能够自动化地抓取网页数据,为数据分析、搜索引擎优化以及各种研究提供便利。本篇文章将深入探讨一个基于...
python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 ...
网页爬虫,也被称为网络蜘蛛或自动索引器,是一种用于自动遍历互联网并抓取网页内容的程序。在这个特定的“网页爬虫算法的一个下程序”中,开发者已经实现了一个能够抓取大约100多个网页的功能。这表明这是一个初级...
网络爬虫程序是一种自动化浏览互联网并抓取网页信息的程序,它是数据分析、搜索引擎优化和大量信息获取的重要工具。网络爬虫通过模拟人类浏览器的行为,遵循HTTP/HTTPS协议,逐个请求网页,解析其中的数据,然后按照...
网页爬虫,也被称为网络蜘蛛或网络机器人,是一种自动遍历和抓取网页的程序。它们遵循超链接结构,从一个网页跳转到另一个网页,收集网页上的信息。爬虫的主要任务包括获取HTML源代码、解析页面内容、提取有用信息,...
在Android平台上开发网页爬虫小程序是一项技术挑战,它涉及到网络通信、HTML解析、数据提取等多个环节。本项目名为"MyApplicationforstock",很可能是用于抓取股票市场或金融信息的,因为通常这类应用会需要从网页...
本示例项目“基于Java语言的BT网页内容爬虫程序”提供了如何使用Java进行网页抓取的具体实践,这对于数据分析、网站监控或者信息检索等场景都非常有价值。下面将详细介绍这个项目的相关知识点。 首先,我们需要理解...
网页爬虫,又称为网络蜘蛛或网络机器人,是一种自动化程序,用于在互联网上遍历网页并抓取所需信息。在IT领域,网页爬虫是数据分析、搜索引擎优化、市场研究等众多应用的重要工具。Pclawer3就是这样一个专为爬取固定...
Java爬虫是一种使用Java编程语言编写的应用程序,它能够自动地在网络上抓取信息,从一个或多个网页开始,按照特定的规则遍历互联网上的页面。这个"简单的Java爬虫程序"提供了从指定URL开始,按照广度优先策略抓取...
Python网络爬虫程序是利用Python编程语言来自动化地抓取互联网上的信息的一种技术。它涉及到了许多编程概念和工具,包括HTTP/HTTPS协议、网页解析、数据存储等。本篇文章将深入探讨Python网络爬虫的基本原理,以及...
基于Qt的网页爬虫程序文档详细+资料齐全.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!...
【简易爬虫程序源码】是一种基础的网络爬虫实现,它主要利用.NET框架中的`WebRequest`和`HttpWebResponse`类来与服务器进行交互,获取网页的HTML源代码。在这个过程中,开发者通常会编写代码来模拟用户浏览网页的...
在本话题中,我们将探讨如何利用ASP.NET技术实现一个网页爬虫,这是一个自动化程序,用于抓取互联网上的信息。 首先,我们需要了解网页爬虫的基本工作原理。网页爬虫通过模拟浏览器发送HTTP请求(GET或POST)到目标...
Java网络爬虫程序是一种利用Java编程语言开发的自动化工具,用于从互联网上抓取大量信息。这个特定的项目提供了一个完整的实现,具有较强的实用性,可以作为开发者构建自定义爬虫的参考。 首先,我们来看看标签:...