0

1

回答

1237 浏览

关于Nutch抓取网页的问题[已解决]5

前些时候用Nutch来抓取网页,发现是指定初始连接去抓取网页,但是对于抓取的内容是不能够控制的,假如我想指定一些关键字,然后抓取与这个关键字相关的网页,其他的都忽略掉,请问这个该怎么实现呢?我测试采用的是Nutch、Hadoop、Hbase这三个框架。谢谢!

2012年11月30日 08:27
0

2

回答

1589 浏览

HttpUrlConnection抓取第三方网页,需要输入验证码后,再提交查询,但提交查询没通过.[已解决]15

我是通过下面方法取得对方网页的内容的,然后将html源码传给本项目的JSP页面。public static String getContentByUrl( String urlString, HttpServletRequest req ) throws IoException{ URL url = new URL(urlString); HttpUrlConnection conn = (Http ...

2012年8月02日 10:06

本周活跃投票用户

最新评论

Global site tag (gtag.js) - Google Analytics