`
border
  • 浏览: 205832 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

『Java』一个简单的蜘蛛(Java Spider)

    博客分类:
  • Java
阅读更多

一个简单的java蜘蛛, 通过流的到网站的信息,没有对Html进行分析,等有时间了再完善。

package cn.border.spider;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class HttpUserAgentTest {

    /**
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {

        URL url = new URL("http://www.borderj.cn");
        HttpURLConnection httpConnection = (HttpURLConnection) url
                .openConnection();

        //设置User-Agent
        httpConnection.setRequestProperty("User-Agent",
                "BorderSpider ( Http://www.borderj.cn)");

        //获得输入流
        InputStream input = httpConnection.getInputStream();
        InputStreamReader inReader = new InputStreamReader(input, "utf-8");//获得链接该类的流
        BufferedReader reader = new BufferedReader(inReader);

        int retVal = 0;
        char[] cString = new char[1000];
        int len = 1000;
        String getString = "";

        while ((retVal = reader.read(cString, 0, len)) != -1) {
            getString += String.valueOf(cString, 0, retVal);
        }
        System.out.println(getString);
    }
}


--
Blog:    www.borderj.cn
MSN:   borderj@live.com

  Border
分享到:
评论
1 楼 cjc19762338 2010-08-10  
这也太简单了吧!

网络蜘蛛?还真的不了解其实现。

用一般的httpconnect,urlconnection等等,都会被目标网站拦截

相关推荐

    基于Java的强力爬虫Spiderman设计源码

    本项目是基于Java的强力爬虫Spiderman设计源码,包含...该系统是一个强力Java爬虫,具备列表分页、详细页分页、ajax支持、微内核高扩展性和灵活的配置选项。系统界面设计简洁、易于扩展,适合用于各种需要爬虫的场景。

    Spider_java.zip_Java spider_java 爬虫_spider_搜索引擎 爬虫_网络爬虫

    【标题】"Spider_java.zip" 是一个包含Java实现的网络爬虫项目的压缩包,主要针对搜索引擎数据抓取。这个项目的核心在于使用Java编程语言来构建一个能够自动化浏览网页、解析HTML内容并收集所需信息的程序。网络爬虫...

    Spider_java.rar_Java spider_spider jar

    通过分析和运行这个Java蜘蛛纸牌项目,开发者不仅可以学习到游戏开发的基本流程,还能深入了解Java GUI编程、数据结构和算法的应用,以及软件打包和发布的过程。这个项目对于Java初学者和进阶者来说,都是一个很好的...

    spider_java.rar_Java spider

    下面是一个简单的Java爬虫代码框架: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; ...

    Java.Source.Spider

    在本主题“Java.Source.Spider”中,我们主要关注的是一个使用Java编写的蜘蛛纸牌游戏的源代码。蜘蛛纸牌是一种流行的经典单人桌面游戏,通过编程实现这种游戏,我们可以深入了解Java编程基础、面向对象设计、算法...

    Java-蜘蛛纸牌源代码

    【Java-蜘蛛纸牌源代码】是一个用Java编程语言实现的蜘蛛纸牌游戏的源代码。这个项目包含了一些核心的类和资源文件,使得开发者能够理解游戏的逻辑并可以直接将其集成到自己的Java项目中。 首先,`Spider.java`是...

    蜘蛛Spider

    【蜘蛛Spider】是一个基于Java开发的高效爬虫程序,它专为数据抓取而设计,能够帮助用户自动化地从互联网上搜集指定类型的信息。在使用过程中,用户需要明确指定要抓取的内容标签,以便蜘蛛Spider能精准定位并提取所...

    网络蜘蛛spider

    【网络蜘蛛(Spider)】是互联网上的一个关键角色,它在网络爬虫技术中扮演着重要角色,主要用于自动化地抓取互联网上的信息。网络蜘蛛的工作原理是通过模拟用户浏览行为,从一个或多个起始网址开始,按照网页上的...

    java实现的蜘蛛纸牌,很适合学习的

    【Java实现的蜘蛛纸牌游戏】是一个非常适合初学者和进阶者学习的项目,它结合了编程基础与游戏逻辑,提供了丰富的实践机会。这个程序基于Java Swing库构建,Swing是Java提供的一种轻量级GUI(图形用户界面)工具包,...

    基于Java和Shell语言的Spiderman2二代蜘蛛侠性能优化与架构升级设计源码

    该项目是一款基于Java和Shell语言的二代蜘蛛侠性能优化与架构升级设计源码,包含172个文件,其中Java源文件95个,JAR包文件49个,XML配置文件14个,PNG图片文件5个,Git忽略文件2个,LICENSE文件1个,Markdown文件1...

    网络蜘蛛spider crawl

    - **URL队列**:网络蜘蛛通常会使用一个URL队列来存储待抓取的网页链接。新发现的URL被添加到队列尾部,而当前处理的URL则从队列头部取出。 - **URL去重**:为了避免重复抓取同一个URL,我们需要对URL进行哈希处理...

    基于Java的网络蜘蛛系统的设计与实现.pdf

    本文旨在讨论如何使用Java来设计和实现一个网络蜘蛛系统,以便更好地抓取网络资源。网络蜘蛛技术是一种重要的技术,能够帮助我们更好地索引和搜索网络资源。但是,设计一个强大的网络蜘蛛系统却不是一件容易的事情。...

    java蜘蛛源码

    这份Java蜘蛛源码提供了一个基本的网络爬虫框架,涵盖了爬虫开发的基本要素,如URL管理、多线程支持、日志记录等功能。通过对这些代码的学习和理解,可以帮助开发者构建自己的网络爬虫程序,用于自动化地抓取网络上...

    Java网络爬虫蜘蛛源码

    【Java网络爬虫蜘蛛源码】是一个基于JAVA语言编写的简单网络爬虫程序,它能够帮助开发者抓取并处理互联网上的特定网站数据,尤其是新闻内容。这个程序的主要目的是供学习和教育用途,让初学者或者有经验的程序员了解...

    一个简单的java 爬虫

    网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,...

    java网络爬虫实例

    网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页 网络蜘蛛 ,从 网站某一个页面(通常是首页)开始,读取网页...

    JAVA 蜘蛛纸牌 (代码)

    **JAVA 蜘蛛纸牌游戏详解** 蜘蛛纸牌是一种广受欢迎的单人桌面游戏,源自微软Windows系统自带的经典游戏。...无论你是初学者还是经验丰富的开发者,尝试编写JAVA蜘蛛纸牌游戏都是一个富有挑战性和趣味性的学习过程。

Global site tag (gtag.js) - Google Analytics