使用Jsoup爬取互联网信息

yangfuchao418

浏览: 169241 次
性别:
来自: 上海

最近访客更多访客>>

memorymyann

xnz8611

u012363178

ymgjava

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索与爬虫

互联网 PHP

public static void parserURLsByPost(){
       try {
           Document doc = Jsoup.connect("http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=0000&district=0000&funtype=0000&industrytype=00&issuedate=9&providesalary=99&keyword=java&keywordtype=2&curr_page=1&lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=01&lonlat=0%2C0&radius=-1&ord_field=0&list_type=0&fromType=14").data("query", "Java")
           .userAgent("Mozilla")
           .cookie("auth", "token")
           .timeout(30000)
           .post();
           Elements link = doc.select("a");
           for (Element element : link) {
               Elements s=element.getElementsByAttributeValue("class", "jobname");
               for (Element element2 : s) {
                  String relHref= element2.attr("href");
                   System.out.println(element2.text());
                   System.out.println(relHref);
            }
              /* Element relSrc = element.attr("class", "jobname"); // == "/"
               if(relSrc.hasClass("jobname")){
               System.out.println(element.text());
               }
              // String linkHref = element.attr("href");
*/               //System.out.println(linkHref);
           }
           //String title = doc.title(); // == "/"
          // String absHref = link.attr("abs:href"); // "http://jsoup.org/"
           //System.out.println(title);
          
       } catch (IOException e) {
           // TODO Auto-generated catch block
           e.printStackTrace();
       }
   }

1
顶

0
踩

分享到：

送给那些喜欢谈情说爱的人，句句具有杀伤力 | 使用Jsoup 过滤HTML

2010-09-14 15:42
浏览 2995
评论(4)
分类:互联网
查看更多

4 楼 yangfuchao418 2010-12-07

xixi1031 写道

您好，我想问下，如果抓取页面里面有很多链接，如何把这些链接一一提取出来呢~？

for (Element element2 : s) {   
     String relHref= element2.attr("href");   
     System.out.println(element2.text());   
     System.out.println(relHref);
 }

按照您这种方法是直接全部打印出来，没法一一提取保存呀~

汗，既然可以打印了还没办法保存么？

3 楼 xixi1031 2010-12-07

您好，我想问下，如果抓取页面里面有很多链接，如何把这些链接一一提取出来呢~？

for (Element element2 : s) {   
     String relHref= element2.attr("href");   
     System.out.println(element2.text());   
     System.out.println(relHref);
 }

按照您这种方法是直接全部打印出来，没法一一提取保存呀~

2 楼 yangfuchao418 2010-11-27

lee20101029 写道

请问一下你的那个jsoup JAR包版本是？？
我是0.92版的，没有你写的那个方法：
Document doc = Jsoup.connect()

呢的怎么这么老？用最新的啊1.3.2

1 楼 lee20101029 2010-11-27

请问一下你的那个jsoup JAR包版本是？？
我是0.92版的，没有你写的那个方法：
Document doc = Jsoup.connect()

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论