最新文章列表

网络爬虫基本原理(二)

四、更新策略     互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种 ...
wawlian 评论(0) 有3620人浏览 2012-07-24 20:50

httpclient4 中文版帮助文档,最新官方版翻译版(一)

前言 超文本传输协议(HTTP)也许是当今互联网上使用的最重要的协议了。Web服务,有网络功能的设备和网络计算的发展,都持续扩展了HTTP协议的角色,超越了用户使用的Web浏览器范畴,同时,也增加了需要HTTP协议支持的应用程序的数量。 尽管java.net包提供了基本通过HTTP访问资源的功能,但它没有提供全面的灵活性和其它很多应用程序需要的功能。HttpClient就是寻求弥补这项空白的组件,通 ...
czykeith 评论(0) 有1377人浏览 2012-07-19 11:48

禁止搜索引擎爬虫抓取网站方法小结

本文主要通过查找网上资料,简单总结一下禁止搜索引擎爬虫抓取网站的方法。 一般情况,大家都是希望搜索引擎爬虫尽可能多的抓取自己的网站,但有时也需要告诉爬虫不要抓取,比如,不要抓取镜像页面等。 搜索引擎抓取自己的网站有它的好处,也存在许多常见问题: 1.网络堵塞丢包严重(上下行数据异常,排除DDOS攻击,服务器中毒。异常下载,数据更新) 2.服务器负载过高,CPU几乎跑满(针对相应的服务配置而定); ...
ssx5210 评论(0) 有3173人浏览 2012-06-27 15:16

jeecms 扩展插件 爬虫 2.0 整合包

jeecms 爬虫 2.0正式版 这次新增了评论采集,采集界面也重新布局,数据库表,整合代码都独立了出来,可以与官方的采集共存,完全不用修改JEECMS的源代码(XML配置文件还是要改的哈,不然咋个整合进去啊!),另外,还整理了几个文档,采集参数设置说明,整合说明等,见附件。如有什么问题请QQ交流: 164863067 jeecms 交流群:217868618,爬虫交流群:217690017 ...
javacoo 评论(2) 有3576人浏览 2012-05-16 09:47

用scrapy进行网页抓取

最近用scrapy来进行网页抓取,对于pythoner来说它用起来非常方便,详细文档在这里:http://doc.scrapy.org/en/0.14/index.html 要想利用scrapy来抓取网页信息,需要先新建一个工程,scrapy startproject myproject 工程建立好后,会有一个myproject/myproject的子目录,里面有item.py(由于你要抓取的东 ...
zhouxi2010 评论(0) 有9559人浏览 2012-04-04 19:55

网页抓取之新方法 (在java程序中使用jQuery)

    你想要的任何信息,基本上在互联网上存在了,问题是如何把它们整理成你所需要的,比如在某个行业网站上抓取所有相关公司的的名字,联系电话,Email等,然后存到Excel里面做分析。网页信息抓取变得原来越有用了。       一般传统的网页,web服务器直接返回Html,这类网页很好抓,不管是用何种方式,只要得到html页面,然后做Dom解析就可以了。但对于需要Javascript生成的网 ...
Mybeautiful 评论(8) 有11682人浏览 2012-03-07 13:57

jeecms 爬虫 1.3 正式版 (附带整合 jeecms2012工程源码)

jeecms 爬虫 1.3 正式版 (附带整合 jeecms2012工程源码) 这次把爬虫和定时任务框架提炼了出来,新增了分页内容采集参数设置,同时修改了2012分页BUG,添加了 专题选择,内容直接可进入选择的专题,根据是否有图片 判断内容类型:普通/图文.等。。。爬虫内部也做了不少修改。还有些细节的调整就不一一列举了,有兴趣的朋友,下来看看,让我们共同进步。如有什么问题请QQ交流: 164863 ...
javacoo 评论(1) 有2394人浏览 2012-03-05 09:24

用Watij爬取网页内容

      最近一项目需要从某高校教务处网站爬取各教学楼的教室安排数据,网址为:http://202.114.5.131/index.aspx 。       用firebug监视,点击页面上的“查询”按钮后,发现请求url是被加密过的,无法获取。后经人指点,可用Watij (Web Application Testing in Java) 来模拟网页控件操作,获取数据。       Watij ...
superonion 评论(1) 有3331人浏览 2012-03-03 12:51

(转载)scrapy三步曲scrapy的简介、安装与实例(python抓取的爬虫框架)

(原文地址:http://www.ddlive.org/?p=664) 实例,官方有个实例教程,算是比较简单了,然后后面有更详细的一项项解释,不过老实讲我还真是看不太懂,很多 ...
shijincheng0223 评论(0) 有3773人浏览 2012-02-21 22:36

[小代码]蜘蛛爬虫,抓取某网站所有图片文章中的图片~

为朋友的网站写了个小代码,把所有图片下载到本地,有点不道德了,哈哈。。。 package com.ai.picpicker; import java.io.IOException; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpException; ...
wangshu3000 评论(2) 有4488人浏览 2012-01-02 12:02

爬虫的概念

一.基本概念 URI:Universal Resource Identifier,通用资源定位符,对web上可用的资源,如HTML文档、图像、视频片段等进行定位。包括三部分:访问资源的命名机制;存放资源的主机名;资源自身的名称(路径)。 URL:Uniform Resource Locator,统一资源定位符。包括三部分:协议;主机IP(port);主机资源的具体地址。 网页抓取:把URL地址中指定 ...
y_x 评论(0) 有652人浏览 2011-12-22 21:12

百度文章爬虫(完整版)

一 代码 #coding:gb2312 import urllib2,urllib,re,os import sqlite3,cookielib,time '''     百度爬虫类     @author:FC_LAMP ''' class SpiderBaiDu:     #变量     sqlit = None     cur   = None     ...
snoopy7713 评论(0) 有1506人浏览 2011-12-21 09:38

智能web探究群组建立了

    最近群组已申请成功 ,地址是http://web.group.iteye.com/    希望有兴趣的朋友加入并一起讨论。     所谓web智能,即让你的web应用具有自主学习和计算的能力,并利用它产生的结 果以最好的方式服务用户。     简单来讲,就是让用户从你的软件服务得到自己最想要的信息。     传统应用中,对用户之前的各种动作置之不理,对所有用户的操作反馈不会有差 ...
AngelAndAngel 评论(0) 有1638人浏览 2011-11-24 12:10

简单的网络邮箱抓取工具(附源码)

网络爬虫,搜索引擎为了让自己的数据库足够的强大,没日没夜的在网络上寻找信息,以使自己的信息更全面。大家都知道互联网信息是无穷的,是爆炸式的增长,他们不可能手工索取信息,他们写一小程序不停的在网络上获取信息,于是网络爬虫便产生了。 下面我用java实现了一个简单的专门抓取邮箱的小工具,做得非常粗略,仅供大家参考, 这是效果图    啥也不说了直接上代码吧   import java.a ...
javaflex 评论(3) 有8838人浏览 2011-11-16 08:53

seo将会涉及的知识领域

SEO说起来并不复杂,它是一套发现、分析、解决问题的过程,又因为SEO面向搜索引擎来解决问题所以就增加了技术含量在其中。 SEO核心要解决的问题: 1、帮助搜索引擎爬虫遍历(访问)你的网站 2、面向搜索引擎的分词技术和索引技术做页面关键词处理 3、迎合网民搜索兴趣,提供精准、有效的匹配内容 为解决上述三个大问题,就是SEO的研究领域。 * 前端代码的优化 * 网站性能的优化 * 页面关键词的 ...
Ryee 评论(0) 有897人浏览 2011-11-01 15:51

抓取网上信息,抓取人人网院校

这是我自己写的一个对HttpClient的一个改进 代码写上 import java.io.IOException; import java.util.ArrayList; import java.util.List; import java.util.Map; import java.util.Set; import org.apache.http.HttpHost; import org.a ...
c2045875 评论(0) 有1410人浏览 2011-09-28 19:38

HttpClient、HTMLParser解决Google搜索结果的页面无法解析问题

    blog迁移至:http://www.micmiu.com       原先一个对google、百度的搜索页面简单解析处理的小程序,前几天突然发现对google的搜索结果处理不起作用了,百度的一切正常。经测试估计是google做了相应的限制,后来便想到了先用httpclient模拟客户端访问,获取搜索结果的页面,然后再用HTMLParser处理。       HttpClient 是 Ap ...
sjsky 评论(0) 有4573人浏览 2010-11-04 09:20

Hpricot笔记

Hpricot::Doc的search方法返回一个Hpricot::Elements对象(Hpricot::Elem对象的集合),方法的参数可以是XPath或者CSS选择器。 require 'open-uri' require 'hpricot' doc=Hpricot(open('http://www.tianya.cn/publicforum/content/free/1/1455739. ...
yuan 评论(1) 有2667人浏览 2009-12-28 03:34

PHP实现最简单爬虫原型

最简单的爬虫模型应该是这样的:给一个初始url,爬虫把内容扒下拉,找页面里的url,在以这些url为起点,开始爬。 下面是一个最简单的php实现的爬虫模型。 <?php /** * 爬虫程序 -- 原型 * * BookMoth 2009-02-21 */ /** * 从给定的url获取html内容 * * @param string $url * @ ...
屾顶洞人 评论(0) 有824人浏览 2009-02-21 10:00

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics