`

一个简单的JAVA网页爬虫

阅读更多
public class Access implements Runnable{
    
    HttpURLConnection huc; 
    InputStream is;
    BufferedReader reader;
    String url;
    
    public Access(){
        try {
            url="http://www.yahoo.com.cn";
        } catch (Exception e) {
            e.printStackTrace();
        }
        try {
            huc=(HttpURLConnection)new URL(url).openConnection();
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        
        new Thread(this).start();
    }

    public void run() {
        try {
            huc.setRequestMethod("GET");
        } catch (ProtocolException e) {
            e.printStackTrace();
        }
        try {
            huc.setUseCaches(true);
            huc.connect();
            
        } catch (IOException e) {
            e.printStackTrace();
        }
        try {
            is=huc.getInputStream();
            reader=new BufferedReader(new InputStreamReader(is,huc.getContentType().equals("text-html; charset=gb2312")?"gb2312":"UTF-8"));
            StringBuffer temp=new StringBuffer();
            String str;
            while((str=reader.readLine())!=null){
                temp.append(str+"\n");
            }
            System.out.println(new String(temp));
        } catch (IOException e) {
            e.printStackTrace();
        }finally{
            try {
                reader.close();
                is.close();
                huc.disconnect();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
    
    
}


该爬虫设计的关键:
1.control,交互界面,对爬虫的控制
2.analysis HTML,对HTML进行分析,从中提取心得hot link.
3.多线程.并发抓取页面
分享到:
评论

相关推荐

    java网页爬虫demo

    一个简单的Java爬虫通常包括以下几个部分: 1. **网络请求模块**:这部分负责发送HTTP/HTTPS请求,获取网页内容。在Java中,可以使用`HttpURLConnection`、`HttpClient`或者第三方库如`OkHttp`来实现。在这个示例中...

    java网页爬虫源码

    java网页爬虫 java网页爬虫 java网页爬虫 java网页爬虫

    java网络爬虫,用java做的一个简单的网络爬虫项目

    在这个简单的Java爬虫项目中,我们将探讨以下几个核心知识点: 1. **HTTP协议**:网络爬虫的基础是通过HTTP或HTTPS协议与服务器进行交互。理解HTTP请求(GET、POST等)和响应的结构至关重要。在Java中,可以使用`...

    Java爬虫网页上的所有链接网址.zip_java 网页爬虫_java网页爬虫_爬取所有链接_网页爬虫链接

    Java网页爬虫是一种用于自动化地抓取互联网上信息的程序,尤其在大数据分析、搜索引擎索引和内容监控等领域有着广泛的应用。在这个特定的压缩包文件中,包含了一个名为"Robot"的Java类,用于实现抓取网页上所有链接...

    java 开发的网页爬虫

    Java开发的网页爬虫是一种利用编程技术自动化抓取互联网上信息的工具,主要应用于数据分析、搜索引擎索引、市场研究等领域。在Java中实现网页爬虫,通常涉及到以下几个关键知识点: 1. **网络请求库**:Java中常用...

    JAVA网页爬虫(全)

    在这个“JAVA网页爬虫(全)”的资料包中,我们主要关注的是使用Java语言编写的网页爬虫程序。这个程序涵盖了两种基本的HTTP请求方法:POST和GET,它们是网络通信的基础。 首先,让我们深入了解GET和POST请求的区别...

    一个简单的java爬虫产品

     后来google了一下,找到了一个简单爬虫的程序代码(http://www.blogjava.net/Jack2007/archive/2008/03/24/188138.html),随即试验了一下,发现确实能得到网页的内容,在这里还是要谢谢代码的提供者——Jack.Wang...

    一个简单的java 爬虫

    网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页...

    Java爬虫实例完整源码

    Java爬虫是一个强大的工具,用于自动化地从互联网上获取数据,尤其在大数据分析、网站监控和内容抓取等领域中有着广泛的应用。在这个Java爬虫实例中,我们将深入探讨其核心概念和技术,帮助你理解如何使用Java来编写...

    简单的java爬虫程序

    Java爬虫是一种使用Java编程语言编写的应用程序,它能够自动地在网络上抓取信息,从一个或多个网页开始,按照特定的规则遍历互联网上的页面。这个"简单的Java爬虫程序"提供了从指定URL开始,按照广度优先策略抓取...

    java实现的网页爬虫1.5版本聚焦爬虫抽取网页

    本项目是一个基于Java的网页爬虫1.5版本,主要关注聚焦爬虫的设计和实现,旨在高效地抽取特定主题的网页内容。 聚焦爬虫与通用爬虫不同,它的目标不是无差别地抓取整个互联网,而是针对某一特定领域或主题,如科技...

    JAVA源码Java网页爬虫JSpider

    JAVA源码Java网页爬虫JSpider

    简易Java网络爬虫

    【简易Java网络爬虫】是一种基于Java编程语言实现的简单网络数据抓取工具,主要用于从趣配音的web页面上获取信息。在这个项目中,我们将会探讨如何构建一个基础的网络爬虫,涉及到的关键技术包括HTTP请求、HTML解析...

    java爬虫教程及工具应用

    本文详细介绍了Java爬虫的基本概念、关键技术以及常用框架,并通过一个简单的示例演示了如何使用Java实现一个网页爬虫。在实际应用中,还需要考虑反爬策略、数据存储等问题。希望本文能为读者提供一定的参考价值。

    java资源Java网页爬虫JSpider

    java资源Java网页爬虫 JSpider提取方式是百度网盘分享地址

    Java爬虫爬取网页数据

    以下是一个简单的Jsoup爬虫示例,用于获取网页标题: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class SimpleWebCrawler { public static void main(String[] args) throws ...

    java实现一个简单爬虫程序

    java实现一个简单的网络爬虫程序,可以抓取网页,并输出网页源代码

    Java网页爬虫 JSpider

    Java网页爬虫JSpider是一款基于Java开发的网络爬虫框架,专为数据抓取和信息处理而设计。它集成了多种功能,如HTML解析、URL管理、请求调度、多线程处理等,使得开发者能够更高效地构建自己的网络爬虫项目。在了解...

    java网络爬虫实现简单Demo

    以下是一个简单的Java网络爬虫的步骤: 1. **导入必要的库**:首先,确保在项目中引入了`Jsoup`库,可以通过Maven或Gradle添加依赖。 2. **发送HTTP请求**:使用`HttpURLConnection`或`HttpClient`发送GET请求到...

    java网络爬虫抓取网页数据

    以下是一个简单示例,展示如何将数据插入MySQL: ```java Class.forName("com.mysql.jdbc.Driver"); Connection conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/mydb", "username", "password")...

Global site tag (gtag.js) - Google Analytics