本月博客排行
-
第1名
龙儿筝 -
第2名
zysnba -
第3名
johnsmith9th - wy_19921005
- sgqt
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- wy_19921005
- benladeng5225
- fantaxy025025
- javashop
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- ranbuijj
- arpenker
- tanling8334
- kaizi1992
- sichunli_030
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ganxueyun
- xyuma
- wangchen.ily
- jh108020
- zxq_2017
- jbosscn
- lemonhandsome
- luxurioust
- Xeden
- lzyfn123
- forestqqqq
- zhanjia
- nychen2000
- ajinn
- wjianwei666
- johnsmith9th
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
【跟我学Python】第三章.使用Python解析网页
【跟我学Python】第三章.场景三-- 使用Python解析抓取网页
使用Python访问网页主要有三种方式: urllib, urllib2, httplib
urllib比较简单,功能相对也比较弱,httplib简单强大,但好像不支持session
...
关于httpClient的个别字符乱码
关于httpClient的个别字符乱码
近期在做抓取的工作,登录到别人的网站上获取页面的信息,解析之后封装成自己的东西。
遇到一个问题,httpclient的post方法实现的连接网页,后来解析时有一个字出现了乱码。先附上我的代码:
public String getCourse(String sessionId) throws ClientProtocolException,
IO ...
HttpClient4.x客户端身份验证(HTTPS安全连接)
原文地址:http://www.yshjava.cn/post/423.html
最近Apache HttpClient发布了最新的4.3版本,据说有很多的改进,加入了新的设计思想和理念,使API更加简洁有力,闲来无事,做个Demo尝尝鲜。
在以前的3.x版本中,HttpClient就已经支持HTTPS连接了,但是代码写的比较多,而且用起来感觉挺别扭的,同样的功能,到了4这里,明 ...
HttpClient4.x进行Get/Post请求并使用ResponseHandler处理响应
查看原文请移步http://www.yshjava.cn/post/420.html
HTTPClient4之后,基本重写了3的所有代码,使得API用起来更显简单有力,最简单的例子体现在get/post请求以及请求响应结果的处理上。3的时候,需要自己处理响应流,无论是网页编码识别还是代码处理等各方面,非常不便,4之后使用ResponseHandler可以非常方便和简洁地处理上述问题。如下代码演示 ...
基于jsoup的网页爬虫
前阵子做了个网页抓取工具,可扩展性较差,今天发现google 的一个开源网页抓取工具jsoup,写了个测试,与大家分享下
package com.gump.net.html.test;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.js ...
使用HtmlUnit抓取百度搜索结果
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。相关文件下载地址:http://sourceforge.net/projects/htmlunit/files/ (依赖的包略多)
我的需求是使用百度的 ...
使用 Apache HttpClient 工具模拟百度蜘蛛或浏览器抓取和解压gzip网页
package httpclient;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.zip.GZIPInputStream;
import org.apache.commons.httpclient.Ht ...
如何抓取需要验证码的网页?
最近专门研究了下网页抓取,主要是研究对各种情况的抓取方法。今天张瑜
介绍下需要验证码的网页抓取。
现在有些网页为了防止被抓取,它要求用户先填入验证码后,才能使用其服务。那我们的蜘蛛的工作就遇到了极大的障碍;因为它不能识别验证码!当然有同学说用OCR去识别,然后填入。这是个方向,但是总有些验证码是机器无法识别的。那我们怎么办?
办法其实还是 ...
网页抓取之新方法 (在java程序中使用jQuery)
你想要的任何信息,基本上在互联网上存在了,问题是如何把它们整理成你所需要的,比如在某个行业网站上抓取所有相关公司的的名字,联系电话,Email等,然后存到Excel里面做分析。网页信息抓取变得原来越有用了。
一般传统的网页,web服务器直接返回Html,这类网页很好抓,不管是用何种方式,只要得到html页面,然后做Dom解析就可以了。但对于需要Javascript生成的网 ...
HtmlPaser与StringEscapeUtils共舞抓取网页
用正则来匹配的确很强大,但如果是网页的话HtmlPaser更方便,由于抓下来的信息中文是unicode的,所以要用到apache的一个包,以下是代码:
import java.net.URL;
import org.apache.commons.lang3.StringEscapeUtils;
import org.htmlparser.NodeFilter;
import org.h ...