`
yangfuchao418
  • 浏览: 165973 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

使用Jsoup爬取互联网信息

阅读更多
public static void parserURLsByPost(){
       try {
           Document doc = Jsoup.connect("http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=0000&district=0000&funtype=0000&industrytype=00&issuedate=9&providesalary=99&keyword=java&keywordtype=2&curr_page=1&lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=01&lonlat=0%2C0&radius=-1&ord_field=0&list_type=0&fromType=14").data("query", "Java")
           .userAgent("Mozilla")
           .cookie("auth", "token")
           .timeout(30000)
           .post();
           Elements link = doc.select("a");
           for (Element element : link) {
               Elements s=element.getElementsByAttributeValue("class", "jobname");
               for (Element element2 : s) {
                  String relHref= element2.attr("href");
                   System.out.println(element2.text());
                   System.out.println(relHref);
            }
              /* Element relSrc = element.attr("class", "jobname"); // == "/"
               if(relSrc.hasClass("jobname")){
               System.out.println(element.text());
               }
              // String linkHref = element.attr("href");
*/               //System.out.println(linkHref);
           }
           //String title = doc.title(); // == "/"
          // String absHref = link.attr("abs:href"); // "http://jsoup.org/"
           //System.out.println(title);
          
       } catch (IOException e) {
           // TODO Auto-generated catch block
           e.printStackTrace();
       }
   } 
1
0
分享到:
评论
4 楼 yangfuchao418 2010-12-07  
xixi1031 写道
您好,我想问下,如果抓取页面里面有很多链接,如何把这些链接一一提取出来呢~?
for (Element element2 : s) {   
     String relHref= element2.attr("href");   
     System.out.println(element2.text());   
     System.out.println(relHref);
 }

按照您这种方法是直接全部打印出来,没法一一提取保存呀~

汗,既然可以打印了还没办法保存么?
3 楼 xixi1031 2010-12-07  
您好,我想问下,如果抓取页面里面有很多链接,如何把这些链接一一提取出来呢~?
for (Element element2 : s) {   
     String relHref= element2.attr("href");   
     System.out.println(element2.text());   
     System.out.println(relHref);
 }

按照您这种方法是直接全部打印出来,没法一一提取保存呀~
2 楼 yangfuchao418 2010-11-27  
lee20101029 写道
请问一下你的那个jsoup JAR包版本是??
我是0.92版的,没有你写的那个方法:
Document doc = Jsoup.connect()

呢的怎么这么老?用最新的啊1.3.2
1 楼 lee20101029 2010-11-27  
请问一下你的那个jsoup JAR包版本是??
我是0.92版的,没有你写的那个方法:
Document doc = Jsoup.connect()

相关推荐

    Jsoup爬取中国天气的简单实例

    在这个"Jsoup爬取中国天气的简单实例"中,我们将深入探讨如何利用Jsoup进行网页抓取,特别是针对中国天气网站。这个实例非常适合对网络爬虫感兴趣的初学者,因为它提供了直观且易于理解的代码示例。 首先,让我们...

    jsoup爬取某宝购物车数据返回json串,放入eclipse即可运行

    "jsoup爬取某宝购物车数据返回json串,放入eclipse即可运行" 这个标题揭示了本次项目的核心技术是使用jsoup这个Java库来抓取淘宝网站上的购物车数据,并将获取到的数据转换为JSON格式。JSON(JavaScript Object ...

    java爬虫 jsoup爬取 斗图啦

    Java爬虫技术是一种用于自动化网页数据抓取的工具,它可以帮助开发者从互联网上获取大量有用的信息,例如图片、文本、HTML代码等。在这个项目中,我们使用了Jsoup库来实现对“斗图啦”网站的图片爬取与下载。 Jsoup...

    Java爬虫Jsoup+httpclient获取动态生成的数据

    Java爬虫是指使用Java语言编写的一类程序,这些程序能够按照既定的规则自动从互联网上抓取信息。常见的Java爬虫库包括Jsoup、HttpClient、HtmlUnit等,它们各具特色,能够处理不同类型的网页内容。 ### Jsoup库解析...

    Java利用HtmlUtil和jsoup爬取知网中国专利数据的爬虫程序.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    Jsoup 网络爬虫(动态ip代理,突破ip访问次数限制) 爬取全国各省市区数据

    在“Jsoup网络爬虫(动态ip代理,突破ip访问次数限制)爬取全国各省市区数据”这个项目中,我们将会深入探讨如何使用Jsoup进行网络爬虫开发,并且解决在爬虫过程中遇到的IP访问限制问题。 首先,我们需要理解Jsoup...

    针对 httpclient4.* 绕验证码获取公司信息 包括 jsoup网页信息的爬虫及htmlUnit对动态网站信息的抓取

    本主题主要关注如何使用`httpclient4.*`库来绕过验证码获取公司信息,以及结合`jsoup`解析静态网页信息和`htmlUnit`处理动态网站的抓取。以下是对这些知识点的详细说明: 1. **httpclient4.***: Apache HttpClient...

    企查查信息爬取代码.7z

    信息爬取,也称为网络爬虫或网页抓取,是指通过自动化程序抓取互联网上的公开数据。在本案例中,我们使用Java编写爬虫,目的是获取企查查网站上的企业信息,如企业名称、法人、注册资本、经营状态等。 **主要功能:...

    代码和jar包.rar

    【描述】提到的"Jsoup爬取网页内容"是指利用Jsoup库进行网络爬虫开发的过程。网络爬虫是自动抓取互联网信息的一种程序,Jsoup因其强大的HTML解析能力而成为Java开发者进行爬虫开发的首选库。它可以方便地连接到网站...

    Java实现网路爬虫爬取新闻信息

    在IT行业中,网络爬虫是一种自动化程序,用于从互联网上抓取大量数据,通常用于数据分析、市场研究或信息收集。本项目"Java实现网路爬虫爬取新闻信息"是利用Java编程语言来构建一个能够从指定网站抓取新闻内容的爬虫...

    使用Java爬虫Jsoup写的爬取各大小说网站内容。支持多网站小说来源,程序猿划水利器。.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    基于http的Java爬虫爬取百度新闻

    在IT行业中,网络爬虫是一种常见的技术,用于自动地遍历和抓取互联网上的信息。在本项目中,“基于http的Java爬虫爬取百度新闻”是一个实例,它利用Java编程语言,通过HTTP协议来抓取百度新闻网站上的数据。这个项目...

    基于Springboot+Jsoup实现网上免费公开图片资源爬取

    **基于Springboot+Jsoup实现网上免费公开图片资源爬取** 在互联网上,存在大量免费的公开图片资源,这些资源可以用于各种用途,如网站设计、个人项目或学术研究。为了方便获取这些资源,我们可以利用编程技术来创建...

    capture-demo:数据抓取 jsoup capture, json javabean 转换

    2. **数据抓取**:数据抓取是互联网数据挖掘的重要部分,用于从网页中提取结构化信息。通过Jsoup,我们可以编写程序自动访问网站,解析HTML,进而提取我们需要的数据。 3. **JSON**:JSON(JavaScript Object ...

    Java爬取网页信息,并导出到Excel

    在本文中,我们将深入探讨如何使用Java编程语言来爬取网页信息,并将其导出到Excel文件。这是一个实用的技能,特别是在数据分析、市场研究或者自动化报告生成等场景中。首先,我们需要了解Java爬虫的基本概念,然后...

    jsoup网页爬虫小案例

    2. **建立连接**:使用Jsoup的`connect()`方法,指定要爬取的URL,然后调用`get()`或`post()`方法发送请求。 3. **解析HTML**:获取到网页内容后,用`parse()`方法解析HTML,得到`Document`对象。 4. **选择元素**...

    java爬取携程酒店评价信息

    在Java编程领域,爬虫是一种常见的技术,用于自动地从互联网上抓取信息。本项目专注于使用Java编写爬虫来获取携程酒店的用户评价信息,这涉及到网络请求、HTML解析和数据存储等多个环节。首先,我们需要理解爬虫的...

    Java网络爬虫爬取大学研究生信息

    网络爬虫是一种自动化获取网页信息的程序,它通过模拟浏览器行为,遍历互联网上的网页,提取所需数据。在Java中实现网络爬虫,我们可以利用面向接口编程的概念和原理,这有助于提高代码的可读性、可维护性和可扩展性...

    很简易的java爬虫 可以爬取携程的航班数据.rar

    【描述】:“很简易的java爬虫 可以爬取携程的航班数据,并使用jsoup进行解析”说明了爬虫的实现技术和处理数据的方式。Java是一种广泛用于开发各种应用的编程语言,而jsoup则是一个强大的库,专门用于解析HTML文档...

Global site tag (gtag.js) - Google Analytics