锁定老帖子 主题:定向爬虫 瓦力
精华帖 (3) :: 良好帖 (3) :: 新手帖 (1) :: 隐藏帖 (4)
|
|
---|---|
作者 | 正文 |
发表时间:2009-05-11
geek87 写道 呵呵,目前还没开放,
XJAD反编译一下不就有了。。。 |
|
返回顶楼 | |
发表时间:2009-05-11
呵呵,,有才
|
|
返回顶楼 | |
发表时间:2009-05-11
我们现在不考虑反编译问题,我想,大家能利用这个东西,做点产品什么的就好。。
|
|
返回顶楼 | |
发表时间:2009-05-11
源码给我发个吧,我最近也在做这个东西,交流交流
|
|
返回顶楼 | |
发表时间:2009-05-11
源码是没有,不过可以贴一个相关的代码 /** * 读取一个网页全部内容 */ public String getOneHtml(String htmlurl, String encoding) throws IOException { // 检查网址的有效性 if (htmlurl == null || htmlurl.trim().length() <= 0) { return null; } boolean bool = StringFactory.chk("^http://", htmlurl.trim() .toLowerCase()); if (!bool) { return null; } URL url; String temp; StringBuffer sb = new StringBuffer(); BufferedReader in = null; InputStream is = null; url = new URL(htmlurl); HttpURLConnection http = (HttpURLConnection) url.openConnection(); // http请求 try { // 提取字符编码 String contentType = http.getContentType(); String myencoding = null; if (contentType != null) { int index = contentType.indexOf("charset="); if (index != -1) { myencoding = contentType.substring(index + 8).trim(); } } // 如果在HTTP链接中找到字符集信息,则优先使用 if (myencoding != null && myencoding.trim().length() > 0) { encoding = myencoding; } // System.out.println("编码:" + encoding); if (encoding == null || encoding.trim().length() <= 0) { encoding = "gb2312"; } is = http.getInputStream(); // http流 in = new BufferedReader(new InputStreamReader(is, encoding));// 读取网页全部内容 while ((temp = in.readLine()) != null) { sb.append(temp); } } catch (MalformedURLException me) { logger.error("输入的URL格式有问题! url:" + htmlurl); me.getMessage(); throw me; } catch (IOException e) { e.printStackTrace(); throw e; } finally { try { in.close(); is.close(); } catch (Exception e) { } if(http!=null){ http.disconnect(); } } // System.out.println("页面内容:\n"+sb.toString()); return sb.toString(); }
|
|
返回顶楼 | |
发表时间:2009-05-11
哈哈,我也在做类似的东西。Direct Spider,很好。
|
|
返回顶楼 | |
发表时间:2009-05-11
最后修改:2009-05-11
geek87 写道 我们现在不考虑反编译问题,我想,大家能利用这个东西,做点产品什么的就好。。
这个东东不就是用JDK里面的API 不开源谁帮你做产品哦,谁知道你是不是用JDK里面的socket类抓几个固定模板的网页然后hardcode解析一下来糊弄大家哩,那个都没技术含量滴,看你引用的包就两个,十有八九是这样的,这样的东东还想做产品啊 回帖看到了你贴的代码,哎,HttpsURLConnection~~~,其实可以使用apache的http client的,还带java版的浏览器的 |
|
返回顶楼 | |
发表时间:2009-05-11
呵呵,纯属娱乐。。不要当真
|
|
返回顶楼 | |
发表时间:2009-05-11
做东西方便自己,方便别人
|
|
返回顶楼 | |
发表时间:2009-05-11
小弟才学疏浅,请大家赐教。。
|
|
返回顶楼 | |