本月博客排行
-
第1名
wy_19921005 -
第2名
java-007 -
第3名
mft8899 - Anmin
年度博客排行
-
第1名
龙儿筝 -
第2名
宏天软件 -
第3名
benladeng5225 - wy_19921005
- vipbooks
- 青否云后端云
- kaizi1992
- e_e
- tanling8334
- sam123456gz
- arpenker
- zysnba
- fantaxy025025
- xiangjie88
- wallimn
- lemonhandsome
- jh108020
- ganxueyun
- Xeden
- zhanjia
- xyuma
- wangchen.ily
- johnsmith9th
- zxq_2017
- forestqqqq
- jbosscn
- daizj
- ajinn
- xpenxpen
- silverend
- 喧嚣求静
- kingwell.leng
- lchb139128
- kristy_yy
- jveqi
- java-007
- lzyfn123
- javashop
- sunj
- yeluowuhen
- lerf
- chenqisdfx
- xiaoxinye
- flashsing123
- bosschen
- zhangjijun
- sunnylocus
- lyndon.lin
- lyj86
- paulwong
最新文章列表
java
boolean isWindows = System.getProperty("os.name")
.toLowerCase().startsWith("windows");
System.out.println(System.getProperty("os.name"));
java.lang.IllegalArgumentException: Wrong FS错误解决
在nutch爬取数据存放在hdfs时候报错:
Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.130.54:19000/user/hmail/output/part-00000, expected: file:///
把hadoop集群的配置文件cor ...
Nutch 应用笔记和solr配合
最近要搞个数据挖掘的项目,用了开源nutch作为爬虫;一些坑记录下来;免得后续忘记。
1. 配置 regex-urlfilter.txt,配置一定要规范,行尾切记不要有特殊字符和空格。
否则nutch不给你工作,会显示0抓取记录。
2.每次抓取可以新建数据保存目录,否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。
3.和solr配合,请把conf的schema.xml 和 so ...