本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- ranbuijj
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- lzyfn123
- forestqqqq
- zhanjia
- johnsmith9th
- nychen2000
- ajinn
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
java
boolean isWindows = System.getProperty("os.name")
.toLowerCase().startsWith("windows");
System.out.println(System.getProperty("os.name"));
java.lang.IllegalArgumentException: Wrong FS错误解决
在nutch爬取数据存放在hdfs时候报错:
Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.130.54:19000/user/hmail/output/part-00000, expected: file:///
把hadoop集群的配置文件cor ...
Nutch 应用笔记和solr配合
最近要搞个数据挖掘的项目,用了开源nutch作为爬虫;一些坑记录下来;免得后续忘记。
1. 配置 regex-urlfilter.txt,配置一定要规范,行尾切记不要有特殊字符和空格。
否则nutch不给你工作,会显示0抓取记录。
2.每次抓取可以新建数据保存目录,否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。
3.和solr配合,请把conf的schema.xml 和 so ...