public static void parserURLsByPost(){
try {
Document doc = Jsoup.connect("http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=0000&district=0000&funtype=0000&industrytype=00&issuedate=9&providesalary=99&keyword=java&keywordtype=2&curr_page=1&lang=c&stype=1&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=01&lonlat=0%2C0&radius=-1&ord_field=0&list_type=0&fromType=14").data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(30000)
.post();
Elements link = doc.select("a");
for (Element element : link) {
Elements s=element.getElementsByAttributeValue("class", "jobname");
for (Element element2 : s) {
String relHref= element2.attr("href");
System.out.println(element2.text());
System.out.println(relHref);
}
/* Element relSrc = element.attr("class", "jobname"); // == "/"
if(relSrc.hasClass("jobname")){
System.out.println(element.text());
}
// String linkHref = element.attr("href");
*/ //System.out.println(linkHref);
}
//String title = doc.title(); // == "/"
// String absHref = link.attr("abs:href"); // "http://jsoup.org/"
//System.out.println(title);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
分享到:
相关推荐
在这个"Jsoup爬取中国天气的简单实例"中,我们将深入探讨如何利用Jsoup进行网页抓取,特别是针对中国天气网站。这个实例非常适合对网络爬虫感兴趣的初学者,因为它提供了直观且易于理解的代码示例。 首先,让我们...
"jsoup爬取某宝购物车数据返回json串,放入eclipse即可运行" 这个标题揭示了本次项目的核心技术是使用jsoup这个Java库来抓取淘宝网站上的购物车数据,并将获取到的数据转换为JSON格式。JSON(JavaScript Object ...
Java爬虫技术是一种用于自动化网页数据抓取的工具,它可以帮助开发者从互联网上获取大量有用的信息,例如图片、文本、HTML代码等。在这个项目中,我们使用了Jsoup库来实现对“斗图啦”网站的图片爬取与下载。 Jsoup...
Java爬虫是指使用Java语言编写的一类程序,这些程序能够按照既定的规则自动从互联网上抓取信息。常见的Java爬虫库包括Jsoup、HttpClient、HtmlUnit等,它们各具特色,能够处理不同类型的网页内容。 ### Jsoup库解析...
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...
在“Jsoup网络爬虫(动态ip代理,突破ip访问次数限制)爬取全国各省市区数据”这个项目中,我们将会深入探讨如何使用Jsoup进行网络爬虫开发,并且解决在爬虫过程中遇到的IP访问限制问题。 首先,我们需要理解Jsoup...
本主题主要关注如何使用`httpclient4.*`库来绕过验证码获取公司信息,以及结合`jsoup`解析静态网页信息和`htmlUnit`处理动态网站的抓取。以下是对这些知识点的详细说明: 1. **httpclient4.***: Apache HttpClient...
信息爬取,也称为网络爬虫或网页抓取,是指通过自动化程序抓取互联网上的公开数据。在本案例中,我们使用Java编写爬虫,目的是获取企查查网站上的企业信息,如企业名称、法人、注册资本、经营状态等。 **主要功能:...
【描述】提到的"Jsoup爬取网页内容"是指利用Jsoup库进行网络爬虫开发的过程。网络爬虫是自动抓取互联网信息的一种程序,Jsoup因其强大的HTML解析能力而成为Java开发者进行爬虫开发的首选库。它可以方便地连接到网站...
在IT行业中,网络爬虫是一种自动化程序,用于从互联网上抓取大量数据,通常用于数据分析、市场研究或信息收集。本项目"Java实现网路爬虫爬取新闻信息"是利用Java编程语言来构建一个能够从指定网站抓取新闻内容的爬虫...
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...
在IT行业中,网络爬虫是一种常见的技术,用于自动地遍历和抓取互联网上的信息。在本项目中,“基于http的Java爬虫爬取百度新闻”是一个实例,它利用Java编程语言,通过HTTP协议来抓取百度新闻网站上的数据。这个项目...
**基于Springboot+Jsoup实现网上免费公开图片资源爬取** 在互联网上,存在大量免费的公开图片资源,这些资源可以用于各种用途,如网站设计、个人项目或学术研究。为了方便获取这些资源,我们可以利用编程技术来创建...
2. **数据抓取**:数据抓取是互联网数据挖掘的重要部分,用于从网页中提取结构化信息。通过Jsoup,我们可以编写程序自动访问网站,解析HTML,进而提取我们需要的数据。 3. **JSON**:JSON(JavaScript Object ...
在本文中,我们将深入探讨如何使用Java编程语言来爬取网页信息,并将其导出到Excel文件。这是一个实用的技能,特别是在数据分析、市场研究或者自动化报告生成等场景中。首先,我们需要了解Java爬虫的基本概念,然后...
2. **建立连接**:使用Jsoup的`connect()`方法,指定要爬取的URL,然后调用`get()`或`post()`方法发送请求。 3. **解析HTML**:获取到网页内容后,用`parse()`方法解析HTML,得到`Document`对象。 4. **选择元素**...
在Java编程领域,爬虫是一种常见的技术,用于自动地从互联网上抓取信息。本项目专注于使用Java编写爬虫来获取携程酒店的用户评价信息,这涉及到网络请求、HTML解析和数据存储等多个环节。首先,我们需要理解爬虫的...
网络爬虫是一种自动化获取网页信息的程序,它通过模拟浏览器行为,遍历互联网上的网页,提取所需数据。在Java中实现网络爬虫,我们可以利用面向接口编程的概念和原理,这有助于提高代码的可读性、可维护性和可扩展性...
【描述】:“很简易的java爬虫 可以爬取携程的航班数据,并使用jsoup进行解析”说明了爬虫的实现技术和处理数据的方式。Java是一种广泛用于开发各种应用的编程语言,而jsoup则是一个强大的库,专门用于解析HTML文档...