最新文章列表

【静态化平台】☞( 一)网页静态化服务

一、应用场景 当我们需要对网页做以下操作时,可以使用本平台O(∩_∩)O~ 1.抓取网页源代码,包括网页js动态渲染之后的内容,100%还原网页的所见即所 ...
iyulang 评论(0) 有17人浏览 2017-03-20 16:09

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

相关教程:   手把手教你写电商爬虫-第一课 找个软柿子捏捏   手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫   手把手教你写电商 ...
游牧民族 评论(0) 有1461人浏览 2016-05-21 15:46

浅析通用爬虫软件—— 集搜客与八爪鱼采集器

   最近想用爬虫软件来采集网页上的一些数据,根据百度的推荐以及相关关键词查询,找到了两款软件:“集搜客”和“八爪鱼”,两款软件都有可视化界面,对于编程思维比较薄弱的用户来说,这两款软件上手容易,操作简单易懂。今天就带大家来了解对比一下这两款通用的网络爬虫软件。 1.软件安装    八爪鱼:八爪鱼安装跟其他软件一下,从官网下载,直接点击setup.exe安装即可。    集搜客:集搜客网站上下载的软 ...
494385880 评论(0) 有1207人浏览 2016-03-25 15:14

[网络爬虫]使用node.js cheerio抓取网页数据

想要自动从网页抓一些数据或者想把一坨从什么博客上拉来的数据转成一种有结构的数据? 居然没有现成的API可以取数据?!!! !@#$@#$… 没关系 ...
MyEyeOfJava 评论(0) 有6645人浏览 2014-12-10 13:35

网页抓取工具

简介       Webdup能够把您想要浏览的信息(如网页和图片等)预先下载下来,保存在本地硬盘,使您可以从本地进行离线浏览,这样不仅可以大大减少上网时间,降低上网费用,还可以加快浏览速度;并且将来无须上网就可以很方便地查阅这些信息。不仅如此, Webdup更提供了备份历次下载记录和比较完善的管理功能,使您能够方便地分类保存和管理有价值的下载信息。原理       Webdup在下载项目时,从用 ...
qinlinhai 评论(0) 有1263人浏览 2013-12-30 23:06

【跟我学Python】第三章.使用Python解析网页

                                                               【跟我学Python】第三章.场景三-- 使用Python解析抓取网页   使用Python访问网页主要有三种方式: urllib, urllib2, httplib urllib比较简单,功能相对也比较弱,httplib简单强大,但好像不支持session ...
zjutwangqian 评论(0) 有2068人浏览 2013-12-06 15:44

【跟我学Python】第三章.Python的几个使用场景

                                     【跟我学Python】第三章.Python的几个使用场景   1.场景一:使用Python   2.场景二:使用Python    3.场景三:使用Python来解析抓取网页
zjutwangqian 评论(0) 有659人浏览 2013-12-06 15:32

关于httpClient的个别字符乱码

关于httpClient的个别字符乱码 近期在做抓取的工作,登录到别人的网站上获取页面的信息,解析之后封装成自己的东西。 遇到一个问题,httpclient的post方法实现的连接网页,后来解析时有一个字出现了乱码。先附上我的代码: public String getCourse(String sessionId) throws ClientProtocolException, IO ...
annybz 评论(0) 有1501人浏览 2013-11-15 11:40

HttpClient4.x客户端身份验证(HTTPS安全连接)

  原文地址:http://www.yshjava.cn/post/423.html   最近Apache HttpClient发布了最新的4.3版本,据说有很多的改进,加入了新的设计思想和理念,使API更加简洁有力,闲来无事,做个Demo尝尝鲜。 在以前的3.x版本中,HttpClient就已经支持HTTPS连接了,但是代码写的比较多,而且用起来感觉挺别扭的,同样的功能,到了4这里,明 ...
杨胜寒 评论(0) 有4604人浏览 2013-05-21 13:33

HttpClient4.x进行Get/Post请求并使用ResponseHandler处理响应

查看原文请移步http://www.yshjava.cn/post/420.html HTTPClient4之后,基本重写了3的所有代码,使得API用起来更显简单有力,最简单的例子体现在get/post请求以及请求响应结果的处理上。3的时候,需要自己处理响应流,无论是网页编码识别还是代码处理等各方面,非常不便,4之后使用ResponseHandler可以非常方便和简洁地处理上述问题。如下代码演示 ...
杨胜寒 评论(0) 有13690人浏览 2013-05-20 10:54

网络爬虫(网络蜘蛛)之网页抓取

查看原文请移步《http://www.yshjava.cn/post/415.html》   现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不是 ...
杨胜寒 评论(1) 有15805人浏览 2013-05-20 10:44

十Python之Http Web服务(网页抓取二)

    上一篇讲了网页抓取的基础,分析html,但是我们所得到的html内容必须是通过编程的方式获取到的。     简单地讲,HTTP web 服务是指以编程的方式 ...
zhdkn 评论(0) 有6351人浏览 2013-03-06 10:01

基于jsoup的网页爬虫

前阵子做了个网页抓取工具,可扩展性较差,今天发现google 的一个开源网页抓取工具jsoup,写了个测试,与大家分享下 package com.gump.net.html.test; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.js ...
ganliang13 评论(0) 有2546人浏览 2012-11-05 23:43

使用HtmlUnit抓取百度搜索结果

  htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。相关文件下载地址:http://sourceforge.net/projects/htmlunit/files/ (依赖的包略多)   我的需求是使用百度的 ...
wander754085 评论(0) 有6375人浏览 2012-08-21 20:21

使用 Apache HttpClient 工具模拟百度蜘蛛或浏览器抓取和解压gzip网页

  package httpclient;   import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.util.zip.GZIPInputStream;   import org.apache.commons.httpclient.Ht ...
ialy_2000 评论(0) 有4686人浏览 2012-05-09 16:06

如何抓取需要验证码的网页?

    最近专门研究了下网页抓取,主要是研究对各种情况的抓取方法。今天张瑜 介绍下需要验证码的网页抓取。         现在有些网页为了防止被抓取,它要求用户先填入验证码后,才能使用其服务。那我们的蜘蛛的工作就遇到了极大的障碍;因为它不能识别验证码!当然有同学说用OCR去识别,然后填入。这是个方向,但是总有些验证码是机器无法识别的。那我们怎么办?     办法其实还是 ...
Mybeautiful 评论(8) 有7144人浏览 2012-03-20 17:28

网页抓取之新方法 (在java程序中使用jQuery)

    你想要的任何信息,基本上在互联网上存在了,问题是如何把它们整理成你所需要的,比如在某个行业网站上抓取所有相关公司的的名字,联系电话,Email等,然后存到Excel里面做分析。网页信息抓取变得原来越有用了。       一般传统的网页,web服务器直接返回Html,这类网页很好抓,不管是用何种方式,只要得到html页面,然后做Dom解析就可以了。但对于需要Javascript生成的网 ...
Mybeautiful 评论(8) 有11682人浏览 2012-03-07 13:57

HtmlPaser与StringEscapeUtils共舞抓取网页

用正则来匹配的确很强大,但如果是网页的话HtmlPaser更方便,由于抓下来的信息中文是unicode的,所以要用到apache的一个包,以下是代码: import java.net.URL; import org.apache.commons.lang3.StringEscapeUtils; import org.htmlparser.NodeFilter; import org.h ...
chenpenghui 评论(0) 有1520人浏览 2011-12-13 14:48

python + lxml 抓取网页 ,不需用正则,用xpath

我的第一个python入门程序: python + lxml 抓取网页 ,不需用正则,用xpath # -*- coding:gb2312 -*- import urllib import hashlib import os class Spider: '''crawler html''' def get_html(self,url): sock ...
xsong512 评论(0) 有8085人浏览 2011-09-13 18:10

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics