多线程爬虫Miner [转]

jsczxy2

浏览: 1284867 次
性别:
来自: 常州

最近访客更多访客>>

error0702

sagadan

gaofeng393

yaonai2003

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java
爬虫

java 爬虫

多线程爬虫Miner

本文转自原作者博客:http://injavawetrust.iteye.com/blog/2293799
需要配置项：
1、URL包含关键字。
2、存储方式:DB-数据库存储;FILE-文件存储。
3、爬取页面最大深度。
4、下载页面线程数。
5、分析页面线程数。
6、存储线程数。

-------------------------------------------

程序中用到的表:

Sql代码  
CREATE TABLE `miner` (  
  `id` varchar(32) NOT NULL,  
  `batchNo` varchar(8) DEFAULT NULL,  
  `filePath` varchar(255) DEFAULT NULL,  
  `fileName` varchar(255) DEFAULT NULL,  
  `getDate` datetime DEFAULT NULL,  
  PRIMARY KEY (`id`)  
) ENGINE=InnoDB DEFAULT CHARSET=utf8;  

-------------------------------------------

程序中用到的maven依赖

Xml代码  
<dependency>  
    <groupId>org.jsoup</groupId>  
    <artifactId>jsoup</artifactId>  
    <version>1.8.3</version>  
</dependency>  
<dependency>  
    <groupId>mysql</groupId>  
    <artifactId>mysql-connector-java</artifactId>  
    <version>5.1.15</version>  
    <scope>provided</scope>  
</dependency>  
<dependency>  
    <groupId>commons-logging</groupId>  
    <artifactId>commons-logging</artifactId>  
    <version>1.2</version>  
</dependency>  

测试类：

Java代码  
package com.iteye.injavawetrust.miner;  
  
import java.util.ArrayList;  
import java.util.List;  
/** 
 * 测试类 
 * @author InJavaWeTrust 
 * 
 */  
public class MinerTest {  
    public static void main(String[] args) {  
        MinerConfig config = new MinerConfig();  
        // 1、URL包含关键字。  
        List<String> keys = new ArrayList<String>();  
        keys.add("163");  
        config.setKeys(keys);  
        // 2、存储方式:DB-数据库存储;FILE-文件存储。  
        config.setStoreType(StoreType.DB);  
        // 3、爬取页面最大深度。  
        config.setMaxDepth(2);  
        // 4、下载页面线程数。  
        config.setMinerHtmlThreadNum(5);  
        // 5、分析页面线程数。  
        config.setMiseringThreadNum(3);  
        // 6、存储线程数。  
        config.setMinserStoreThreadNum(3);  
        // 7、设置爬取起始页面URL。  
        MinerUrl minerUrl = new MinerUrl();  
        minerUrl.setUrl("http://www.163.com");  
        minerUrl.setDepth(1);  
        Miner miner = new Miner(minerUrl, config);  
        miner.start();  
    }  
  
}  

爬虫 MINER 程序列表：

Html.java 存储页面信息类
 Miner.java 爬虫启动类
 MinerBean.java 数据库表 miner bean
MinerConfig.java 爬取配置类
 MinerConstanits.java 常量类
 MinerDB.java 数据库工具类
 MinerHtmlThread.java 爬取页面线程
 MinerMonitorThread.java 监控线程
 MinerQueue.java 访问队列
 MinerStoreThread.java 存储线程
 MinerThreadPool.java 线程池
 MinerUrl.java 解析页面后存储URL类
 MinerUtil.java 爬虫工具类
 MiseringThread.java 解析页面线程
 StoreType.java 存储方式

分享到：

正则判断中文和日文 | linux同步硬件时钟

2016-08-01 13:49
浏览 856
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

多线程爬虫Miner [转]

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

多线程爬虫Miner [转]

评论

发表评论

相关推荐

[转]Spring Cloud微服务的那点事

[转]ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台

生成无重复的hashid短地址(短随机字符串)

2017年Struts漏洞修复:版本从2.3.15.1升级到2.3.32

JAVA关键字替换

关于java web前后端分离

基于NODEJS的前后端项目分离实践

paypal IPN返回

根据class搜索jar包

基于DWR的点对点聊天实现 server---client

Java分布式中文分词组件word分词v1.2发布

java开源论坛jeebbsV4发布

开源大数据解决方案

根据用户IP查询所属国家(数据库版)-geoip

查询用户IP所在地服务接口（淘宝）

java内存溢出优化

Tomcat6线程池(Executor Thread pool)的配置

Netty学习系列导航-开源Java高性能NIO框架推荐

破解验证码相关:用imagemagick和tesseract-ocr破解简单验证码

Java版微信开发平台 JeeWx 2.0 发布

最近访客更多访客>>