本月博客排行
-
第1名
wy_19921005 -
第2名
mft8899 -
第3名
java-007 - Anmin
年度博客排行
-
第1名
龙儿筝 -
第2名
宏天软件 -
第3名
benladeng5225 - wy_19921005
- vipbooks
- 青否云后端云
- kaizi1992
- e_e
- tanling8334
- sam123456gz
- arpenker
- zysnba
- fantaxy025025
- xiangjie88
- wallimn
- lemonhandsome
- jh108020
- ganxueyun
- Xeden
- xyuma
- zhanjia
- wangchen.ily
- johnsmith9th
- zxq_2017
- forestqqqq
- jbosscn
- daizj
- ajinn
- xpenxpen
- 喧嚣求静
- kingwell.leng
- lchb139128
- kristy_yy
- jveqi
- javashop
- lzyfn123
- sunj
- yeluowuhen
- lerf
- silverend
- chenqisdfx
- xiaoxinye
- flashsing123
- bosschen
- lyndon.lin
- zhangjijun
- sunnylocus
- lyj86
- paulwong
- sgqt
最新文章列表
学习Java网络爬虫
今天学习了一下Java的网络爬虫技术,发现网络爬虫技术首先分为以下几个步骤:
1、打开网页链接
2、把网页代码用一个BufferedReader存放
以下是我做的一个代码实例:
在学习网络爬虫的过程中首先要导入两个包:htmllexer.jar,htmlparser.jar
public static void main(String[] args) { try { ...
网络爬虫(网络蜘蛛)之网页抓取
转载地址:http://www.cnblogs.com/chenying99/articles/3213533.html
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以 ...
模拟浏览器的神器 - HtmlUnit
随着Web的发展,RIA越来越多,JavaScript和Complex AJAX Libraries给网络爬虫带来了极大的挑战,解析页面的时候需要模拟浏览器执行JavaScript才能获得需要的文本内容。
好在有一个Java开源项目HtmlUnit,它能模拟Firefox、IE、Chrome等浏览器,不但可以用来测试Web应用,还可以用来解析包含JS的页面以提取信息。
下面看看H ...
运行nutch提示:0 records selected for fetching, exiting
运行Nutch的时候提示Generator: 0 records selected for fetching, exiting ...然后程序退出,怎么回事呢?
原因多种多样,归根结底就是CrawlDB中的URL经过爬虫抓取调度器(默认是org.apache.nutch.crawl.DefaultFetchSchedule)判断,断定都不应该去抓,所以,Stop The World。
...
Apache Nutch v1.8发布,Java实现的网络爬虫
Apache Nutch v1.8已经发布了,建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本,Apache Tika也升级到了 ...
配置Nutch模拟浏览器以绕过反爬虫限制
当我们配置Nutch抓取 http://yangshangchuan.iteye.com 的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ...... 这是最简单的反爬虫策略(该策略简单地读取HTTP请求头User-Agent的值来判断是人(浏览器)还是机器爬虫),我们只需要简单地配置Nutch来模拟浏览器(simulate web browser)就可以绕过这种限制。
在nutch ...
运行nutch报错:unzipBestEffort returned null
报错信息:fetch of http://szs.mof.gov.cn/zhengwuxinxi/zhengcefabu/201402/t20140224_1046354.html failed with: java.io.IOException: unzipBestEffort returned null
完整的报错信息为:
2014-03-12 16:48:38,031 ER ...
网络爬虫读取js生成的页面
还有js逻辑的页面,对网络爬虫的信息抓取工作造成了很大障碍。DOM树,只有执行了js的逻辑才可以完整的呈现。而有的时候,有要对js修改后的 dom树进行解析。在搜寻了大量资料后,发现了一个开源的项目cobra。cobra支持JavaScript引擎,其内置的JavaScript引擎是 mozilla下的 rhino,利用rhino的API,实现了对嵌入在html的JavaScript的解释执行。测 ...
大数据系列12:Hadoop2 – 全新的Hadoop
wget http://mirrors.hust.edu.cn/apache/hadoop/common/stable2/hadoop-2.2.0.tar.gz
tar -xzvf hadoop-2.2.0.tar.gz
cd hadoop-2.2.0
vi etc/hadoop/hadoop-env.sh
修改:
export JAVA_HOME=/home/ysc/jdk1.7. ...
大数据系列6:HBase – 基于Hadoop的分布式数据库
wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz
tar -xzvf zookeeper-3.4.5.tar.gz
cd zookeeper-3.4.5
cp conf/zoo_sample.cfg conf/zoo.cfg
vi conf/zoo.cfg 修改:da ...
大数据系列1:在win7上安装配置Hadoop伪分布式集群
1、 安装虚拟机和操作系统
VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载VMware 下载VirtualBox
ubuntu-13.04-server-amd64.iso 下载ubuntu
2、 设置root用户密码
sudo passwd root
3、 上传文件
利用
大数据系列11:Gora – 大数据持久化
borm – 大数据的对象持久化
wget http://archive.apache.org/dist/gora/0.3/apache-gora-0.3-src.zip
unzip apache-gora-0.3-src.zip
cd apache-gora-0.3
mvn clean package
1、创建项目
mvn archetype:create -DgroupI ...
大数据系列5:Pig – 大数据分析平台
wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz
tar -xzvf pig-0.11.1.tar.gz
sudo vi /etc/profile
增加:
export PIG_HOME=/home/ysc/pig-0.11.1
exportPATH=$PATH:$PIG_HOME/bin
so ...