本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
java
boolean isWindows = System.getProperty("os.name")
.toLowerCase().startsWith("windows");
System.out.println(System.getProperty("os.name"));
java.lang.IllegalArgumentException: Wrong FS错误解决
在nutch爬取数据存放在hdfs时候报错:
Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.130.54:19000/user/hmail/output/part-00000, expected: file:///
把hadoop集群的配置文件cor ...
Nutch 应用笔记和solr配合
最近要搞个数据挖掘的项目,用了开源nutch作为爬虫;一些坑记录下来;免得后续忘记。
1. 配置 regex-urlfilter.txt,配置一定要规范,行尾切记不要有特殊字符和空格。
否则nutch不给你工作,会显示0抓取记录。
2.每次抓取可以新建数据保存目录,否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。
3.和solr配合,请把conf的schema.xml 和 so ...