Java 抓取网页数据

endual

浏览: 3593454 次
性别:
来自: 杭州

最近访客更多访客>>

amwfngt

wrgjwrrjurhj

sindyqiu

kristy_yy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java
搜索引擎
java 爬虫
爬虫

Java 抓取网页数据

Java 工作

题注：很多时候用到抓取网页数据的功能，以前工作中曾经用到过，今天总结了一下

目的：抓取网页数据多是读一些地址连续的URL，获得页面信息，进而对页面DOM进行分析，处理得到粗糙的数据，然后进行加工，得到我们想要的内容。

首先选择一个地址，比如http://www.51leba.com

代码部分如下：

Java代码  
try{  
            URL url = new URL("http://www.51leba.com");  
            URLConnection conn = url.openConnection();  
               
            BufferedReader is = new BufferedReader(new InputStreamReader(conn.getInputStream()));  
            StringBuffer buffer = new StringBuffer();  
            String str;  
            while((str = is.readLine()) != null){  
                buffer.append(str);  
                buffer.append("\n");  
                  
            }  
            str = buffer.toString().replaceAll("<script(.|\n)+?</script>", "").replaceAll("<(.|\n)+?>", "").replaceAll("&nbsp;", " ");  
            String[] s = str.split("\n");  
            buffer = new StringBuffer();  
            for(int i=0;i<s.length;i++){  
                if(s[i].trim().equals("") ){  
                    continue;  
                }else{  
                    buffer.append(s[i]);  
                    buffer.append("\n");  
                }  
            }  
            System.out.println(buffer.toString());  
              
            is.close();  
              
        }catch (Exception e) {  
            e.printStackTrace();  
        }  

得到的结果是：

Java代码  
欢迎光临51乐吧！  
    欢迎光临51乐吧！  
        回家倒计时  
     拼音转汉字  

分享到：

爬虫抓取需要登陆才能被访问的页面 | ACM 1002

2012-02-08 10:03
浏览 2565
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java 抓取网页数据

Java 抓取网页数据

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java 抓取网页数据

Java 抓取网页数据

评论

发表评论

相关推荐

snmp

snmp

服务器监控软件

多数据源

mybatis多数据源

springboot ueditor

java支持多数据源

java日志

spring 多数据源

idea

手机大屏

quarz配置

mysql同步

nginx配置多个服务

h5 加壳

jeui 前端框架

jeui 维护

jeui 维护

jeui 维护

jeui 维护

最近访客更多访客>>