票
回答
Java_爬虫,如何抓取Js动态生成数据的页面?[已解决]5
很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。HttpClient是不行的,看网上说HtmlUnit,说 可以获取后台js加载完后的完整页面,但是我按照文章上说的 写了 ,都不好使。 String ...
票
回答
nutch爬取不到指定页面的内容[已解决]5
运行nutch,在regex-urlfilter.txt中配置如下: +^http://www.6903.com/$ +^http://www.6903.com/zixun/$ +^http://www.6903.com/zixun/news.aspx\?t=2$,然后运行如下命令bin/crawl urls crawled -depth 2 -threads 3 - topN 30,为什么不爬取n ...
票
回答
hadoop1.2 +nutch1.7的一个问题[已解决]0
hadoop正常启动 当执行分布式任务nutch时,一会就提示这个错如下图 另外,由于没有条件,我是三台linux全是部署在虚拟机上的
票
回答
票
回答
关于Nutch抓取网页的问题[已解决]5
前些时候用Nutch来抓取网页,发现是指定初始连接去抓取网页,但是对于抓取的内容是不能够控制的,假如我想指定一些关键字,然后抓取与这个关键字相关的网页,其他的都忽略掉,请问这个该怎么实现呢?我测试采用的是Nutch、Hadoop、Hbase这三个框架。谢谢!
票
回答
nutch1.4+solr3.4的疑问,求教![已解决]5
nutch1.4+solr3.4 bin/nutch crawl urls -dir crawl -solr http://10.8.1.100/solr -depth 3 -topN 100 问题1: 抓取论坛的帖子内容,抓来的title,是统一格式的:文章标题_板块名_论坛名 现在想要搜索时,仅搜索“文章标题”这块,能在solrj查询的时候通过设置查询语句来解决吗? 我想到的办法是修改Sol ...
oznyang 评论了 关于oznyang发布的i18nTool工具的使用
huayang912 评论了 easyui datagrid 弹出窗口空白的解决方法
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空,同样的代码在mysql下就可以返回结果集
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空,同样的代码在mysql下就可以返回结果集
26762685 评论了 SOS!session串号现象
elbert 评论了 Java怎么实现打印机监控
sandy8508 评论了 Java String.format性能如何
feng_tai_jun 评论了 JSP里加return就会无法编译说Unreachable code
xiaojunjava 评论了 JAVA 连接打印机 打印作业属性设置无效果问题
xiaominzi 评论了 java.security.InvalidAlgorithmParameterException: Prime size must be multiple