`

网页爬虫程序pageSpider

阅读更多
2009-05-05 19:44

该程序仅对单个URL所对应的page网页信息进行抓取(pageSpider.java)。程序流程图如下:

 

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.ProtocolException;
import java.net.URL;


public class pageSpider implements Runnable {

HttpURLConnection httpUrlConnection;
InputStream inputStream;
BufferedReader bufferedReader;
String url;

public pageSpider() {

    try {url="http://www.baidu.com"; } catch (Exception e) {e.printStackTrace();}

    try {
     httpUrlConnection = (HttpURLConnection) new URL(url).openConnection(); //创建连接
    } catch (MalformedURLException e) {
     e.printStackTrace();
    } catch (IOException e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
    }

    System.out.println("---------start-----------");

    Thread thread = new Thread(this);
    thread.start();
    try {thread.join();} catch (InterruptedException e) {e.printStackTrace();}

    System.out.println("----------end------------");
}

public void run() {
    // TODO Auto-generated method stub
    try {
     httpUrlConnection.setRequestMethod("GET");
    } catch (ProtocolException e) {
     e.printStackTrace();
    }

    try {
     httpUrlConnection.setUseCaches(true); //使用缓存
     httpUrlConnection.connect();           //建立连接
    } catch (IOException e) {
     e.printStackTrace();
    }

    try {
     inputStream = httpUrlConnection.getInputStream(); //读取输入流
     bufferedReader = new BufferedReader(new InputStreamReader(inputStream, "gb2312"));
     String string;
     while ((string = bufferedReader.readLine()) != null) {
        System.out.println(string); //打印输出
     }
    } catch (IOException e) {
     e.printStackTrace();
    } finally {
     try {
      bufferedReader.close();
      inputStream.close();
      httpUrlConnection.disconnect();
     } catch (IOException e) {
      e.printStackTrace();
     }

    }

}

public static void main(String[] args) {
    new pageSpider();
}

}

 

分享到:
评论

相关推荐

    网页爬虫程序

    网页爬虫程序是一种自动化工具,用于从互联网上搜集和整理数据。在信息技术领域,它扮演着重要的角色,尤其是在大数据分析、市场研究、搜索引擎优化(SEO)以及内容监控等方面。网页爬虫通过模拟人类浏览器的行为,...

    Python网页爬虫程序框架

    Python网页爬虫程序框架 常用的Python网页爬虫程序框架包括: Scrapy:Scrapy是一个强大的开源网络爬虫框架,提供了完整的爬虫流程管理,包括异步IO操作、多线程管理、反爬虫策略等功能。它支持XPath和CSS选择器...

    基于Linux的python多线程爬虫程序设计.pdf

    网络爬虫在访问网页的过程中可能会遇到各种异常,如网络中断、目标网页不存在等,合理地处理这些异常可以避免程序因为频繁的异常而中断运行,提高爬虫程序的健壮性。 总体来看,基于Linux平台的Python多线程爬虫...

    python 爬虫程序链家

    python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 ...

    网页爬虫算法的一个下程序

    网页爬虫,也被称为网络蜘蛛或自动索引器,是一种用于自动遍历互联网并抓取网页内容的程序。在这个特定的“网页爬虫算法的一个下程序”中,开发者已经实现了一个能够抓取大约100多个网页的功能。这表明这是一个初级...

    网络爬虫程序-网络爬虫程序

    网络爬虫程序是一种自动化浏览互联网并抓取网页信息的程序,它是数据分析、搜索引擎优化和大量信息获取的重要工具。网络爬虫通过模拟人类浏览器的行为,遵循HTTP/HTTPS协议,逐个请求网页,解析其中的数据,然后按照...

    网页爬虫工具抓取网页pclawer

    网页爬虫,也被称为网络蜘蛛或网络机器人,是一种自动遍历和抓取网页的程序。它们遵循超链接结构,从一个网页跳转到另一个网页,收集网页上的信息。爬虫的主要任务包括获取HTML源代码、解析页面内容、提取有用信息,...

    VisualC++实现的网络/网页爬虫程序源代码

    《Visual C++ 实现的网络/网页爬虫程序详解》 在互联网的海量信息中,爬虫技术扮演着至关重要的角色。它能够自动化地抓取网页数据,为数据分析、搜索引擎优化以及各种研究提供便利。本篇文章将深入探讨一个基于...

    Android 网页爬虫小程序

    在Android平台上开发网页爬虫小程序是一项技术挑战,它涉及到网络通信、HTML解析、数据提取等多个环节。本项目名为"MyApplicationforstock",很可能是用于抓取股票市场或金融信息的,因为通常这类应用会需要从网页...

    基于java语言的bt网页内容爬虫程序例子

    本示例项目“基于Java语言的BT网页内容爬虫程序”提供了如何使用Java进行网页抓取的具体实践,这对于数据分析、网站监控或者信息检索等场景都非常有价值。下面将详细介绍这个项目的相关知识点。 首先,我们需要理解...

    pclawer3最新网页爬虫工具

    网页爬虫,又称为网络蜘蛛或网络机器人,是一种自动化程序,用于在互联网上遍历网页并抓取所需信息。在IT领域,网页爬虫是数据分析、搜索引擎优化、市场研究等众多应用的重要工具。Pclawer3就是这样一个专为爬取固定...

    简单的java爬虫程序

    Java爬虫是一种使用Java编程语言编写的应用程序,它能够自动地在网络上抓取信息,从一个或多个网页开始,按照特定的规则遍历互联网上的页面。这个"简单的Java爬虫程序"提供了从指定URL开始,按照广度优先策略抓取...

    python网络爬虫程序

    Python网络爬虫程序是利用Python编程语言来自动化地抓取互联网上的信息的一种技术。它涉及到了许多编程概念和工具,包括HTTP/HTTPS协议、网页解析、数据存储等。本篇文章将深入探讨Python网络爬虫的基本原理,以及...

    网页爬虫工具能够抓取网页信息的软件

    1. PClawer.exe:这是PClawer程序的执行文件,用户双击运行这个文件就可以启动网页爬虫工具。 2. logo.gif:可能是PClawer的图标或者品牌标识,通常用于程序的界面展示,以增加用户的识别度。 3. 下载使用说明.txt:...

    简易爬虫程序源码

    【简易爬虫程序源码】是一种基础的网络爬虫实现,它主要利用.NET框架中的`WebRequest`和`HttpWebResponse`类来与服务器进行交互,获取网页的HTML源代码。在这个过程中,开发者通常会编写代码来模拟用户浏览网页的...

    asp.net 抓取网页 网页爬虫

    在本话题中,我们将探讨如何利用ASP.NET技术实现一个网页爬虫,这是一个自动化程序,用于抓取互联网上的信息。 首先,我们需要了解网页爬虫的基本工作原理。网页爬虫通过模拟浏览器发送HTTP请求(GET或POST)到目标...

    Java网络爬虫程序

    Java网络爬虫程序是一种利用Java编程语言开发的自动化工具,用于从互联网上抓取大量信息。这个特定的项目提供了一个完整的实现,具有较强的实用性,可以作为开发者构建自定义爬虫的参考。 首先,我们来看看标签:...

Global site tag (gtag.js) - Google Analytics