使用jsoup或者httpclient解析https协议通用方法 - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1255403 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

使用jsoup或者httpclient解析https协议通用方法

博客分类：

Java

阅读更多

需求：

基于jsoup或者httpclient爬取https数据的时候涉及到权限认证

实现：

直接在HttpsURLConnection的时候加入check操作

public static void checkQuietly() {
		try {
			HttpsURLConnection
					.setDefaultHostnameVerifier(new HostnameVerifier() {
						public boolean verify(String hostname,
								SSLSession session) {
							return true;
						}
					});
			SSLContext context = SSLContext.getInstance("TLS");
			context.init(null, new X509TrustManager[] { new X509TrustManager() {
				public void checkClientTrusted(X509Certificate[] chain,
						String authType) throws CertificateException {
				}

				public void checkServerTrusted(X509Certificate[] chain,
						String authType) throws CertificateException {
				}

				public X509Certificate[] getAcceptedIssuers() {
					return new X509Certificate[0];
				}
			} }, new SecureRandom());
			HttpsURLConnection.setDefaultSSLSocketFactory(context
					.getSocketFactory());
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

PS：

涉及到证书或者自己业务单独剥离实现，原理类似

调用的时候：

checkQuietly() ;
Connection conn = Jsoup.connect(url).userAgent(MOZILLA_AGENT)
		.timeout(TIME_OUT);

0
顶

0
踩

分享到：

linux之jdk安装 | Maven之编码警告解决

2018-04-04 18:19
浏览 905
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java 爬虫工具Jsoup详解: 当我们要从一个网页中提取特定的信息时，可以使用Jsoup的connect()方法连接到目标URL，然后通过解析返回的HTML内容获取所需数据。例如，要获取网页中的所有图片链接，可以使用Jsoup的select()方法配合CSS选择器"img...

通用论坛正文提取程序: 然而，由于标签中提到了"爬取"，我们可以推断这个程序可能使用了Java或者相关语言来实现网络爬虫技术。网络爬虫是互联网上的一种自动化程序，它遍历网页，抓取信息，并将这些信息存储到数据库中，便于进一步分析或...

自己动手写网络爬虫: 在Java中，可以使用Jsoup、HttpClient等库来帮助发送HTTP请求，并解析返回的HTML内容。在抓取网页的过程中，我们可能会遇到各种HTTP状态码，它们表示服务器对请求的响应结果。例如，状态码200表示请求成功，而404...

java爬取各大平台价格: 在这个项目中，我们使用了几个关键的Java库来实现对多个电商平台的价格爬取，包括HtmlUnit、Jsoup和HttpClient。下面将详细解释这些工具以及如何利用它们进行网络爬虫开发。 1. **HtmlUnit**： HtmlUnit是一个无头...

Webmagic0.5.2源码及jar包: 通常使用Jsoup或其他DOM解析库实现。 4. **Scheduler**: 调度器，管理待爬取的URL队列，决定下一个要爬取的页面。 5. **Pipeline**: 管道，处理解析后的数据，如存储到数据库、文件或进行进一步处理。在0.5.2版本...

java实现网络爬虫: 这个标签可能指的是Apache Commons库，其中包括多种工具类集合，如IO库（用于处理输入/输出），Net库（支持网络协议），Lang库（提供通用语言功能）。这些库可以简化代码，提高效率，比如Apache Commons IO的`...

风车通用Web采集程序在线版_dotnet整站程序.rar: 在.NET环境中，此类程序通常使用C#或VB.NET等编程语言编写，利用HTTP协议与目标网站交互，结合HTML解析技术（如HtmlAgilityPack或Jsoup）来提取所需信息。首先，我们来深入了解Web采集程序的工作原理。Web采集的...

自主研发的一个java版本的分布式的通用爬虫: 在爬虫项目中，Java提供了丰富的库和框架，如Jsoup用于解析HTML，Apache HttpClient用于处理HTTP请求，这些都为开发高效稳定的爬虫提供了便利。该爬虫系统采用了自动切换代理的功能，这对于大规模的网络爬取至关...

基于Java的网页爬虫 JSpider.zip: 这些库可能包括Apache HttpClient用于HTTP请求，Jsoup用于HTML解析，或者Guava用于通用工具类。 3. **doc**：文档目录，可能包含了JSpider的API文档或者使用指南，对于理解和使用JSpider框架至关重要。 4. **src**...

实现网络爬虫所需jar包: 总结来说，实现一个Java Web网络爬虫，通常会用到如Servlet API、HttpClient、Jsoup、Json库、XPath解析库、通用工具库以及日志框架等jar包。这些库共同构成了网络爬虫的基本架构，帮助开发者高效、稳定地完成数据...

webmagic的所有jar包: 在WebMagic中，你可以选择使用Jsoup作为HTML解析器。 7. **xom.jar** 和 **nekohtml.jar**：这两个库主要用于XML和HTML的解析。XOM提供了一个简单、一致且类型安全的API来处理XML，而NekoHTML则是用于HTML解析的库...

WebMagic依赖包: 在WebMagic中，Jsoup是解析网页结构，提取所需数据的关键组件。 9. **commons-lang-2.6.jar**：这是Apache Commons Lang的较早版本，同样提供了一些语言层面的扩展。虽然这个版本较旧，但在某些特定场景下可能仍然...

java 网页信息采集源码: - **lib**：依赖库，包含了项目运行所依赖的第三方jar包，如Jsoup、HttpClient等。通过研究这些源码，你可以深入理解网络爬虫的实现细节，学习如何组织代码结构，处理HTTP请求，解析HTML，以及如何优雅地处理网络...

java源码：Java网页爬虫 JSpider.zip: 1. **网络请求库的使用**：如使用`HttpURLConnection`、`HttpClient`或者第三方库如`OkHttp`来发送GET和POST请求获取网页内容。 2. **HTML解析**：使用如Jsoup等库解析HTML，提取所需的数据。 3. **线程与并发控制**...

基于java写的爬虫项目全套技术资料.zip: 这通常涉及HTML/XML文档的解析技术，如使用Jsoup、HTMLUnit或JDOM等库，解析页面中的特定标签、属性和文本内容。 4. 数据存储：将爬取的数据进行存储，可能涉及到多种存储方式，包括但不限于文件存储（如CSV、JSON...

Java编写的HTML浏览器.rar: 2. **HTML解析**：项目可能使用了内置的Java HTML解析器，或者第三方库如Jsoup，来解析和渲染网页内容。 3. **网络编程**：Java的HttpURLConnection或者Apache HttpClient库可能被用来发送HTTP请求获取网页数据。 4....

java实现的网页爬虫1.5版本聚焦爬虫抽取网页html: 为此，可能需要使用如Selenium这样的浏览器自动化工具，或者使用如Jsoup的异步执行功能。同时，为了提高爬取效率和数据质量，可以引入分布式爬虫技术，利用多台机器协同工作。综上所述，"Java实现的网页爬虫1.5...

Java网络爬虫(蜘蛛)源码-zhizhu.rar: 它提供的丰富的库和框架，如Apache HttpClient、Jsoup、HtmlUnit等，极大地简化了网络爬虫的开发过程。网络爬虫的实现原理通常包括以下几个步骤：首先是种子URL的初始化，这些URL是爬虫开始工作的起点；其次是URL...

Java获取网页数据步骤方法详解: 例如，我们可以使用Jsoup库来解析HTML文档。第五步：获取需要的数据对自己创建的对象赋值在获取需要的数据时，我们需要将提取的数据赋值给自己创建的对象。例如，我们可以使用Bid对象来存储提取的数据。第六步...

Global site tag (gtag.js) - Google Analytics