问答首页→
0
票
1
回答
1238 浏览
关于Nutch抓取网页的问题[已解决]5
前些时候用Nutch来抓取网页,发现是指定初始连接去抓取网页,但是对于抓取的内容是不能够控制的,假如我想指定一些关键字,然后抓取与这个关键字相关的网页,其他的都忽略掉,请问这个该怎么实现呢?我测试采用的是Nutch、Hadoop、Hbase这三个框架。谢谢!
2012年11月30日 08:27
0
票
2
回答
1593 浏览
HttpUrlConnection抓取第三方网页,需要输入验证码后,再提交查询,但提交查询没通过.[已解决]15
我是通过下面方法取得对方网页的内容的,然后将html源码传给本项目的JSP页面。public static String getContentByUrl( String urlString, HttpServletRequest req ) throws IoException{ URL url = new URL(urlString); HttpUrlConnection conn = (Http ...
2012年8月02日 10:06
oznyang 评论了 关于oznyang发布的i18nTool工具的使用
huayang912 评论了 easyui datagrid 弹出窗口空白的解决方法
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空,同样的代码在mysql下就可以返回结果集
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空,同样的代码在mysql下就可以返回结果集
26762685 评论了 SOS!session串号现象
elbert 评论了 Java怎么实现打印机监控
sandy8508 评论了 Java String.format性能如何
feng_tai_jun 评论了 JSP里加return就会无法编译说Unreachable code
xiaojunjava 评论了 JAVA 连接打印机 打印作业属性设置无效果问题
xiaominzi 评论了 java.security.InvalidAlgorithmParameterException: Prime size must be multiple