论坛首页 Java企业应用论坛

定向爬虫 瓦力

浏览 34960 次
精华帖 (3) :: 良好帖 (3) :: 新手帖 (1) :: 隐藏帖 (4)
作者 正文
   发表时间:2009-05-11  
geek87 写道
呵呵,目前还没开放,


XJAD反编译一下不就有了。。。
0 请登录后投票
   发表时间:2009-05-11  
呵呵,,有才
0 请登录后投票
   发表时间:2009-05-11  
我们现在不考虑反编译问题,我想,大家能利用这个东西,做点产品什么的就好。。
0 请登录后投票
   发表时间:2009-05-11  
源码给我发个吧,我最近也在做这个东西,交流交流
0 请登录后投票
   发表时间:2009-05-11  

源码是没有,不过可以贴一个相关的代码

/**
	 * 读取一个网页全部内容
	 */
	public String getOneHtml(String htmlurl, String encoding)
			throws IOException {
		// 检查网址的有效性
		if (htmlurl == null || htmlurl.trim().length() <= 0) {
			return null;
		}
		boolean bool = StringFactory.chk("^http://", htmlurl.trim()
				.toLowerCase());
		if (!bool) {
			return null;
		}
		URL url;
		String temp;
		StringBuffer sb = new StringBuffer();
		BufferedReader in = null;
		InputStream is = null;
		url = new URL(htmlurl);
		HttpURLConnection http = (HttpURLConnection) url.openConnection(); // http请求
		try {
			
			// 提取字符编码
			String contentType = http.getContentType();
			String myencoding = null;
			if (contentType != null) {
				int index = contentType.indexOf("charset=");
				if (index != -1) {
					myencoding = contentType.substring(index + 8).trim();
				}
			}
			// 如果在HTTP链接中找到字符集信息,则优先使用
			if (myencoding != null && myencoding.trim().length() > 0) {
				encoding = myencoding;
			}
			// System.out.println("编码:" + encoding);
			if (encoding == null || encoding.trim().length() <= 0) {
				encoding = "gb2312";
			}
			is = http.getInputStream(); // http流
			in = new BufferedReader(new InputStreamReader(is, encoding));// 读取网页全部内容
			while ((temp = in.readLine()) != null) {
				sb.append(temp);
			}
		} catch (MalformedURLException me) {
			logger.error("输入的URL格式有问题! url:" + htmlurl);
			me.getMessage();
			throw me;
		} catch (IOException e) {
			e.printStackTrace();
			throw e;
		} finally {
			try {
				in.close();
				is.close();
			} catch (Exception e) {
			}
			if(http!=null){
				http.disconnect();
			}
		}
		// System.out.println("页面内容:\n"+sb.toString());
		return sb.toString();
	}

 

 

0 请登录后投票
   发表时间:2009-05-11  
哈哈,我也在做类似的东西。Direct Spider,很好。
0 请登录后投票
   发表时间:2009-05-11   最后修改:2009-05-11
geek87 写道
我们现在不考虑反编译问题,我想,大家能利用这个东西,做点产品什么的就好。。

这个东东不就是用JDK里面的API

不开源谁帮你做产品哦,谁知道你是不是用JDK里面的socket类抓几个固定模板的网页然后hardcode解析一下来糊弄大家哩,那个都没技术含量滴,看你引用的包就两个,十有八九是这样的,这样的东东还想做产品啊

回帖看到了你贴的代码,哎,HttpsURLConnection~~~,其实可以使用apache的http client的,还带java版的浏览器的
0 请登录后投票
   发表时间:2009-05-11  
呵呵,纯属娱乐。。不要当真
0 请登录后投票
   发表时间:2009-05-11  
做东西方便自己,方便别人
0 请登录后投票
   发表时间:2009-05-11  
小弟才学疏浅,请大家赐教。。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics