一个简单的java蜘蛛, 通过流的到网站的信息,没有对Html进行分析,等有时间了再完善。
package cn.border.spider; import java.io.BufferedReader;import java.io.InputStream; import java.io.InputStreamReader;import java.net.HttpURLConnection; import java.net.URL;public class HttpUserAgentTest { /** * @param args * @throws Exception */ public static void main(String[] args) throws Exception { URL url = new URL("http://www.borderj.cn"); HttpURLConnection httpConnection = (HttpURLConnection) url .openConnection(); //设置User-Agent httpConnection.setRequestProperty("User-Agent", "BorderSpider ( Http://www.borderj.cn)"); //获得输入流 InputStream input = httpConnection.getInputStream(); InputStreamReader inReader = new InputStreamReader(input, "utf-8");//获得链接该类的流 BufferedReader reader = new BufferedReader(inReader); int retVal = 0; char[] cString = new char[1000]; int len = 1000; String getString = ""; while ((retVal = reader.read(cString, 0, len)) != -1) { getString += String.valueOf(cString, 0, retVal); } System.out.println(getString); }} --
Blog:
www.borderj.cnMSN:
borderj@live.com Border
分享到:
相关推荐
本项目是基于Java的强力爬虫Spiderman设计源码,包含...该系统是一个强力Java爬虫,具备列表分页、详细页分页、ajax支持、微内核高扩展性和灵活的配置选项。系统界面设计简洁、易于扩展,适合用于各种需要爬虫的场景。
【标题】"Spider_java.zip" 是一个包含Java实现的网络爬虫项目的压缩包,主要针对搜索引擎数据抓取。这个项目的核心在于使用Java编程语言来构建一个能够自动化浏览网页、解析HTML内容并收集所需信息的程序。网络爬虫...
通过分析和运行这个Java蜘蛛纸牌项目,开发者不仅可以学习到游戏开发的基本流程,还能深入了解Java GUI编程、数据结构和算法的应用,以及软件打包和发布的过程。这个项目对于Java初学者和进阶者来说,都是一个很好的...
下面是一个简单的Java爬虫代码框架: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; ...
这段Java网络爬虫源码资源是一个功能完善且易于扩展的爬虫框架。它采用了模块化设计,使得用户可以轻松地根据自己的需求进行定制和扩展。源码中包含了网络请求模块、HTML解析模块、数据存储模块以及任务调度模块等多...
在本主题“Java.Source.Spider”中,我们主要关注的是一个使用Java编写的蜘蛛纸牌游戏的源代码。蜘蛛纸牌是一种流行的经典单人桌面游戏,通过编程实现这种游戏,我们可以深入了解Java编程基础、面向对象设计、算法...
【Java-蜘蛛纸牌源代码】是一个用Java编程语言实现的蜘蛛纸牌游戏的源代码。这个项目包含了一些核心的类和资源文件,使得开发者能够理解游戏的逻辑并可以直接将其集成到自己的Java项目中。 首先,`Spider.java`是...
【蜘蛛Spider】是一个基于Java开发的高效爬虫程序,它专为数据抓取而设计,能够帮助用户自动化地从互联网上搜集指定类型的信息。在使用过程中,用户需要明确指定要抓取的内容标签,以便蜘蛛Spider能精准定位并提取所...
【JAVA写的蜘蛛纸牌源程序】是一个基于Java编程语言实现的经典电脑游戏——蜘蛛纸牌的完整源代码。在深入解析这个源程序之前,我们先来了解一下蜘蛛纸牌的基本规则和Java编程的基础知识。 蜘蛛纸牌是一款单人益智...
【网络蜘蛛(Spider)】是互联网上的一个关键角色,它在网络爬虫技术中扮演着重要角色,主要用于自动化地抓取互联网上的信息。网络蜘蛛的工作原理是通过模拟用户浏览行为,从一个或多个起始网址开始,按照网页上的...
【Java实现的蜘蛛纸牌游戏】是一个非常适合初学者和进阶者学习的项目,它结合了编程基础与游戏逻辑,提供了丰富的实践机会。这个程序基于Java Swing库构建,Swing是Java提供的一种轻量级GUI(图形用户界面)工具包,...
该项目是一款基于Java和Shell语言的二代蜘蛛侠性能优化与架构升级设计源码,包含172个文件,其中Java源文件95个,JAR包文件49个,XML配置文件14个,PNG图片文件5个,Git忽略文件2个,LICENSE文件1个,Markdown文件1...
- **URL队列**:网络蜘蛛通常会使用一个URL队列来存储待抓取的网页链接。新发现的URL被添加到队列尾部,而当前处理的URL则从队列头部取出。 - **URL去重**:为了避免重复抓取同一个URL,我们需要对URL进行哈希处理...
本文旨在讨论如何使用Java来设计和实现一个网络蜘蛛系统,以便更好地抓取网络资源。网络蜘蛛技术是一种重要的技术,能够帮助我们更好地索引和搜索网络资源。但是,设计一个强大的网络蜘蛛系统却不是一件容易的事情。...
这份Java蜘蛛源码提供了一个基本的网络爬虫框架,涵盖了爬虫开发的基本要素,如URL管理、多线程支持、日志记录等功能。通过对这些代码的学习和理解,可以帮助开发者构建自己的网络爬虫程序,用于自动化地抓取网络上...
【Java网络爬虫蜘蛛源码】是一个基于JAVA语言编写的简单网络爬虫程序,它能够帮助开发者抓取并处理互联网上的特定网站数据,尤其是新闻内容。这个程序的主要目的是供学习和教育用途,让初学者或者有经验的程序员了解...
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,...