本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
zysnba - xiangjie88
- sgqt
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wallimn
- wy_19921005
- vipbooks
- benladeng5225
- 龙儿筝
- javashop
- ranbuijj
- fantaxy025025
- zw7534313
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- gaojingsong
- jh108020
- wiseboyloves
- xiangjie88
- ganxueyun
- xyuma
- wangchen.ily
- lemonhandsome
- jbosscn
- zxq_2017
- mengjichen
- luxurioust
- lzyfn123
- forestqqqq
- nychen2000
- wjianwei666
- Xeden
- zhanjia
- ajinn
- hanbaohong
- 喧嚣求静
- jickcai
- kingwell.leng
- mwhgJava
- silverend
- lich0079
- lchb139128
最新文章列表
httpclient4 中文版帮助文档,最新官方版翻译版(一)
前言
超文本传输协议(HTTP)也许是当今互联网上使用的最重要的协议了。Web服务,有网络功能的设备和网络计算的发展,都持续扩展了HTTP协议的角色,超越了用户使用的Web浏览器范畴,同时,也增加了需要HTTP协议支持的应用程序的数量。
尽管java.net包提供了基本通过HTTP访问资源的功能,但它没有提供全面的灵活性和其它很多应用程序需要的功能。HttpClient就是寻求弥补这项空白的组件,通 ...
禁止搜索引擎爬虫抓取网站方法小结
本文主要通过查找网上资料,简单总结一下禁止搜索引擎爬虫抓取网站的方法。
一般情况,大家都是希望搜索引擎爬虫尽可能多的抓取自己的网站,但有时也需要告诉爬虫不要抓取,比如,不要抓取镜像页面等。
搜索引擎抓取自己的网站有它的好处,也存在许多常见问题:
1.网络堵塞丢包严重(上下行数据异常,排除DDOS攻击,服务器中毒。异常下载,数据更新)
2.服务器负载过高,CPU几乎跑满(针对相应的服务配置而定);
...
jeecms 扩展插件 爬虫 2.0 整合包
jeecms 爬虫 2.0正式版
这次新增了评论采集,采集界面也重新布局,数据库表,整合代码都独立了出来,可以与官方的采集共存,完全不用修改JEECMS的源代码(XML配置文件还是要改的哈,不然咋个整合进去啊!),另外,还整理了几个文档,采集参数设置说明,整合说明等,见附件。如有什么问题请QQ交流: 164863067
jeecms 交流群:217868618,爬虫交流群:217690017
...
用scrapy进行网页抓取
最近用scrapy来进行网页抓取,对于pythoner来说它用起来非常方便,详细文档在这里:http://doc.scrapy.org/en/0.14/index.html
要想利用scrapy来抓取网页信息,需要先新建一个工程,scrapy startproject myproject
工程建立好后,会有一个myproject/myproject的子目录,里面有item.py(由于你要抓取的东 ...
网页抓取之新方法 (在java程序中使用jQuery)
你想要的任何信息,基本上在互联网上存在了,问题是如何把它们整理成你所需要的,比如在某个行业网站上抓取所有相关公司的的名字,联系电话,Email等,然后存到Excel里面做分析。网页信息抓取变得原来越有用了。
一般传统的网页,web服务器直接返回Html,这类网页很好抓,不管是用何种方式,只要得到html页面,然后做Dom解析就可以了。但对于需要Javascript生成的网 ...
jeecms 爬虫 1.3 正式版 (附带整合 jeecms2012工程源码)
jeecms 爬虫 1.3 正式版 (附带整合 jeecms2012工程源码)
这次把爬虫和定时任务框架提炼了出来,新增了分页内容采集参数设置,同时修改了2012分页BUG,添加了 专题选择,内容直接可进入选择的专题,根据是否有图片 判断内容类型:普通/图文.等。。。爬虫内部也做了不少修改。还有些细节的调整就不一一列举了,有兴趣的朋友,下来看看,让我们共同进步。如有什么问题请QQ交流: 164863 ...
用Watij爬取网页内容
最近一项目需要从某高校教务处网站爬取各教学楼的教室安排数据,网址为:http://202.114.5.131/index.aspx 。
用firebug监视,点击页面上的“查询”按钮后,发现请求url是被加密过的,无法获取。后经人指点,可用Watij (Web Application Testing in Java) 来模拟网页控件操作,获取数据。
Watij ...
[小代码]蜘蛛爬虫,抓取某网站所有图片文章中的图片~
为朋友的网站写了个小代码,把所有图片下载到本地,有点不道德了,哈哈。。。
package com.ai.picpicker;
import java.io.IOException;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
...
百度文章爬虫(完整版)
一 代码
#coding:gb2312
import urllib2,urllib,re,os
import sqlite3,cookielib,time
'''
百度爬虫类
@author:FC_LAMP
'''
class SpiderBaiDu:
#变量
sqlit = None
cur = None
...
智能web探究群组建立了
最近群组已申请成功 ,地址是http://web.group.iteye.com/ 希望有兴趣的朋友加入并一起讨论。
所谓web智能,即让你的web应用具有自主学习和计算的能力,并利用它产生的结
果以最好的方式服务用户。
简单来讲,就是让用户从你的软件服务得到自己最想要的信息。
传统应用中,对用户之前的各种动作置之不理,对所有用户的操作反馈不会有差
...
seo将会涉及的知识领域
SEO说起来并不复杂,它是一套发现、分析、解决问题的过程,又因为SEO面向搜索引擎来解决问题所以就增加了技术含量在其中。
SEO核心要解决的问题:
1、帮助搜索引擎爬虫遍历(访问)你的网站
2、面向搜索引擎的分词技术和索引技术做页面关键词处理
3、迎合网民搜索兴趣,提供精准、有效的匹配内容
为解决上述三个大问题,就是SEO的研究领域。
* 前端代码的优化
* 网站性能的优化
* 页面关键词的 ...
抓取网上信息,抓取人人网院校
这是我自己写的一个对HttpClient的一个改进
代码写上
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.Set;
import org.apache.http.HttpHost;
import org.a ...
HttpClient、HTMLParser解决Google搜索结果的页面无法解析问题
blog迁移至:http://www.micmiu.com
原先一个对google、百度的搜索页面简单解析处理的小程序,前几天突然发现对google的搜索结果处理不起作用了,百度的一切正常。经测试估计是google做了相应的限制,后来便想到了先用httpclient模拟客户端访问,获取搜索结果的页面,然后再用HTMLParser处理。
HttpClient 是 Ap ...
PHP实现最简单爬虫原型
最简单的爬虫模型应该是这样的:给一个初始url,爬虫把内容扒下拉,找页面里的url,在以这些url为起点,开始爬。
下面是一个最简单的php实现的爬虫模型。
<?php
/**
* 爬虫程序 -- 原型
*
* BookMoth 2009-02-21
*/
/**
* 从给定的url获取html内容
*
* @param string $url
* @ ...