『Java』一个简单的蜘蛛（Java Spider） - Border's Log - ITeye博客

`

border

浏览: 209579 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

youyou_yo

yuanye348623610

parmalet

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

cjc19762338：这也太简单了吧！网络蜘蛛？还真的不了解其实现。用一般的 ...
『Java』一个简单的蜘蛛（Java Spider）
gabriel80：你保存的xml文件的字符不对。
通过rome读取feed，发现中文出现部分乱码。。
fanlei77：正好用到，谢谢哈
『Java 』zip文件下载
xsjleilei：好文章！呵呵
『Java』常见面试题Struts方面
damoqingquan：但是需要解析的文本是固定生成的，若对某个字符进行转义，可能会将 ...
dom4j解析特殊字符出错

『Java』一个简单的蜘蛛（Java Spider）

博客分类：

Java

Java .net Blog HTML

阅读更多

一个简单的java蜘蛛，通过流的到网站的信息，没有对Html进行分析，等有时间了再完善。

package cn.border.spider;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class HttpUserAgentTest {

    /**
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {

        URL url = new URL("http://www.borderj.cn");
        HttpURLConnection httpConnection = (HttpURLConnection) url
                .openConnection();

        //设置User-Agent
        httpConnection.setRequestProperty("User-Agent",
                "BorderSpider ( Http://www.borderj.cn)");

        //获得输入流
        InputStream input = httpConnection.getInputStream();
        InputStreamReader inReader = new InputStreamReader(input, "utf-8");//获得链接该类的流
        BufferedReader reader = new BufferedReader(inReader);

        int retVal = 0;
        char[] cString = new char[1000];
        int len = 1000;
        String getString = "";

        while ((retVal = reader.read(cString, 0, len)) != -1) {
            getString += String.valueOf(cString, 0, retVal);
        }
        System.out.println(getString);
    }
}

--
Blog:    www.borderj.cn
MSN:   borderj@live.com

  Border

分享到：

The world's best browse safari3 | 『Linux 』su 与sudo

2007-08-31 19:15
浏览 1558
评论(1)
查看更多

评论

1 楼 cjc19762338 2010-08-10

这也太简单了吧！

网络蜘蛛？还真的不了解其实现。

用一般的httpconnect，urlconnection等等，都会被目标网站拦截

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Java的强力爬虫Spiderman设计源码: 本项目是基于Java的强力爬虫Spiderman设计源码，包含...该系统是一个强力Java爬虫，具备列表分页、详细页分页、ajax支持、微内核高扩展性和灵活的配置选项。系统界面设计简洁、易于扩展，适合用于各种需要爬虫的场景。

Java网络爬虫(蜘蛛)源码.zip: 这段Java网络爬虫源码资源是一个功能完善且易于扩展的爬虫框架。它采用了模块化设计，使得用户可以轻松地根据自己的需求进行定制和扩展。源码中包含了网络请求模块、HTML解析模块、数据存储模块以及任务调度模块等多...

Spider_java.zip_Java spider_java 爬虫_spider_搜索引擎爬虫_网络爬虫: 【标题】"Spider_java.zip" 是一个包含Java实现的网络爬虫项目的压缩包，主要针对搜索引擎数据抓取。这个项目的核心在于使用Java编程语言来构建一个能够自动化浏览网页、解析HTML内容并收集所需信息的程序。网络爬虫...

Spider_java.rar_Java spider_spider jar: 通过分析和运行这个Java蜘蛛纸牌项目，开发者不仅可以学习到游戏开发的基本流程，还能深入了解Java GUI编程、数据结构和算法的应用，以及软件打包和发布的过程。这个项目对于Java初学者和进阶者来说，都是一个很好的...

spider_java.rar_Java spider: 下面是一个简单的Java爬虫代码框架： ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; ...

Java.Source.Spider: 在本主题“Java.Source.Spider”中，我们主要关注的是一个使用Java编写的蜘蛛纸牌游戏的源代码。蜘蛛纸牌是一种流行的经典单人桌面游戏，通过编程实现这种游戏，我们可以深入了解Java编程基础、面向对象设计、算法...

Java-蜘蛛纸牌源代码: 【Java-蜘蛛纸牌源代码】是一个用Java编程语言实现的蜘蛛纸牌游戏的源代码。这个项目包含了一些核心的类和资源文件，使得开发者能够理解游戏的逻辑并可以直接将其集成到自己的Java项目中。首先，`Spider.java`是...

网页爬虫蜘蛛 spider: 在本文中，我们将深入探讨一个简单的Java实现的网页爬虫系统。爬虫的基本工作流程通常包括以下几个步骤： 1. **初始化**：从一个或多个初始URL开始，这些URL可以手动指定或者来自预定义的种子列表。 2. **URL队列...

蜘蛛Spider: 【蜘蛛Spider】是一个基于Java开发的高效爬虫程序，它专为数据抓取而设计，能够帮助用户自动化地从互联网上搜集指定类型的信息。在使用过程中，用户需要明确指定要抓取的内容标签，以便蜘蛛Spider能精准定位并提取所...

java爬虫蜘蛛程序: 1. **初始化**: 创建一个Spider类，它应该包含一个或多个方法来处理URL的添加、清除已访问的URL列表以及启动爬虫的逻辑。例如，可以有一个`begin()`方法用于启动爬虫的线程。 2. **URL处理**: 当爬虫发现一个新的...

java8源码-Spiderman2:蜘蛛侠2: 简单的说，这是一个网页爬虫工具，专门对网页内容进行抓取和解析性能架构简洁易用分布式插件 UI 要求： Java8或以上快速开始 dist目录下面有 - bootstrap.bat - bootstrap.sh windows机器请执行bat, mac/linux...

网络蜘蛛spider: 【网络蜘蛛（Spider）】是互联网上的一个关键角色，它在网络爬虫技术中扮演着重要角色，主要用于自动化地抓取互联网上的信息。网络蜘蛛的工作原理是通过模拟用户浏览行为，从一个或多个起始网址开始，按照网页上的...

用java写的crawler（spider）网络爬虫源代码: - **Runnable接口实现**：`WebCrawler`类实现了`Runnable`接口，这意味着可以创建一个独立的线程来执行网络爬虫的操作，这有助于提高程序的响应速度和效率。 - **线程控制**：通过启动和停止线程来控制爬虫的运行...

java实现的蜘蛛纸牌，很适合学习的: 【Java实现的蜘蛛纸牌游戏】是一个非常适合初学者和进阶者学习的项目，它结合了编程基础与游戏逻辑，提供了丰富的实践机会。这个程序基于Java Swing库构建，Swing是Java提供的一种轻量级GUI（图形用户界面）工具包，...

网络蜘蛛spider crawl: - **URL队列**：网络蜘蛛通常会使用一个URL队列来存储待抓取的网页链接。新发现的URL被添加到队列尾部，而当前处理的URL则从队列头部取出。 - **URL去重**：为了避免重复抓取同一个URL，我们需要对URL进行哈希处理...

基于Java的网络蜘蛛系统的设计与实现.pdf: 本文旨在讨论如何使用Java来设计和实现一个网络蜘蛛系统，以便更好地抓取网络资源。网络蜘蛛技术是一种重要的技术，能够帮助我们更好地索引和搜索网络资源。但是，设计一个强大的网络蜘蛛系统却不是一件容易的事情。...

Java Swing 实现蜘蛛纸牌代码: 蜘蛛纸牌（Spider Solitaire）是一种流行的单人纸牌游戏，在这个项目中，我们将会看到如何利用Java Swing来实现一个蜘蛛纸牌游戏的基本功能。蜘蛛纸牌游戏的规则通常包括使用两副牌，将牌面朝上摆成若干列，玩家的...

java蜘蛛源码: 这份Java蜘蛛源码提供了一个基本的网络爬虫框架，涵盖了爬虫开发的基本要素，如URL管理、多线程支持、日志记录等功能。通过对这些代码的学习和理解，可以帮助开发者构建自己的网络爬虫程序，用于自动化地抓取网络上...

Java网络爬虫蜘蛛源码: 【Java网络爬虫蜘蛛源码】是一个基于JAVA语言编写的简单网络爬虫程序，它能够帮助开发者抓取并处理互联网上的特定网站数据，尤其是新闻内容。这个程序的主要目的是供学习和教育用途，让初学者或者有经验的程序员了解...

Global site tag (gtag.js) - Google Analytics