0

5

回答

30742 浏览

Java_爬虫,如何抓取Js动态生成数据的页面?[已解决]5

很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。HttpClient是不行的,看网上说HtmlUnit,说 可以获取后台js加载完后的完整页面,但是我按照文章上说的 写了 ,都不好使。 String ...

2014年7月25日 17:44
0

1

回答

970 浏览

nutch爬取不到指定页面的内容[已解决]5

运行nutch,在regex-urlfilter.txt中配置如下: +^http://www.6903.com/$ +^http://www.6903.com/zixun/$ +^http://www.6903.com/zixun/news.aspx\?t=2$,然后运行如下命令bin/crawl urls crawled -depth 2 -threads 3 - topN 30,为什么不爬取n ...

2014年5月23日 09:29
0

0

回答

423 浏览

hadoop1.2 +nutch1.7的一个问题[已解决]0

hadoop正常启动 当执行分布式任务nutch时,一会就提示这个错如下图 另外,由于没有条件,我是三台linux全是部署在虚拟机上的

2013年8月03日 18:26
0

0

回答

253 浏览

nutch1.6怎样抓取网页的摘要[已解决]5

如题,我用nutch做爬虫,solr做搜索,但是nutch爬取网页之后提交索引给solr,怎样显示摘要信息呀?

2013年5月13日 09:23
0

1

回答

1239 浏览

关于Nutch抓取网页的问题[已解决]5

前些时候用Nutch来抓取网页,发现是指定初始连接去抓取网页,但是对于抓取的内容是不能够控制的,假如我想指定一些关键字,然后抓取与这个关键字相关的网页,其他的都忽略掉,请问这个该怎么实现呢?我测试采用的是Nutch、Hadoop、Hbase这三个框架。谢谢!

2012年11月30日 08:27
0

1

回答

817 浏览

nutch1.4+solr3.4的疑问,求教![已解决]5

nutch1.4+solr3.4 bin/nutch crawl urls -dir crawl -solr http://10.8.1.100/solr -depth 3 -topN 100 问题1: 抓取论坛的帖子内容,抓来的title,是统一格式的:文章标题_板块名_论坛名 现在想要搜索时,仅搜索“文章标题”这块,能在solrj查询的时候通过设置查询语句来解决吗? 我想到的办法是修改Sol ...

2012年8月21日 16:02

本周活跃投票用户

最新评论

Global site tag (gtag.js) - Google Analytics