最新文章列表

如何防止网站被爬虫爬取的几种办法

转载自:  http://laoxu.blog.51cto.com/4120547/1302013   今天想对一个问题进行分析和讨论,就是关于爬虫对网站页面爬取的问题,有些网站通过爬虫去采集其它的网站页面信息作为己用,大量的爬取行为会对web服务器有比较性能有影响,主要的表现就是会变得很慢。 对于如何防止网站被爬取,我想从以下几种方法去分析: 1.基于程序本身去防止爬取:作为爬虫程序,爬 ...
hongtoushizi 评论(0) 有633人浏览 2015-11-12 01:36

PHP模拟登录并获取数据

转载自: http://www.helloweba.com/view-blog-253.html cURL 是一个功能强大的PHP库,使用PHP的cURL库可以简单和有效地抓取网页并采集内容,设置cookie完成模拟登录网页,curl提供了丰富的函数,开发者可以从PHP手册中获取更多关于cURL信息。本文以模拟登录开源中国(oschina)为例,和大家分享cURL的使用。 PHP的curl ...
hongtoushizi 评论(0) 有879人浏览 2015-11-12 00:37

今日头条网站的模拟登陆及新闻的评论

近来今日头条特别的火,就拿来研究研究! 头条的新闻内容和新闻评论是开放的,无需登陆就可以获取的到! 但是新闻的评论是需要登陆后才能进行评论的,于是开始模拟头条的用户登陆: 1.模拟登陆的操作能够获取到cookie值,定位initCookie,但是该cookie值不能直接用来作为对新闻进行评论的请求参数。 2.需要找到一个新闻url,例如:http://toutiao.com/a45839 ...
kevinflynn 评论(0) 有1747人浏览 2015-07-25 11:20

nginx or apache前端禁收录,爬虫,抓取

一、Nginx 规则 直接在 server  中新增如下规则即可: ################################################# # 禁止蜘蛛抓取动态或指定页面规则 By 张戈博客 # # 原文地址:http://zhangge.net/5043.html # # 申 明:转载请尊重版权,保留出处,谢谢 ...
ronin47 评论(0) 有1937人浏览 2015-07-01 14:47

模拟登陆百度的Java实现

常常需要爬取百度统计出来的数据,难免要进行百度的模拟登陆!现将程序贴出来,供他人也供自己以后使用:     package org.baidu; import java.util.List; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache. ...
kevinflynn 评论(4) 有3724人浏览 2015-06-17 11:10

自己动手写开源爬虫框架 Slit

自己写的一个开源爬虫框架,取名为Slit。现在的爬虫框架确实有很多,例如Nutch,Heritrix,webMagic等等我为什么又要自己写一个呢?这几个爬虫框架确实都不错,网上也有很多关于它们的评价,但是我发现它们中有很多功能我用不到,有些地方扩展性有点限制,然后自己一想搞个适合自己的轻框架,于是准备这个练手的项目Slit。   下面我对Slit项目做一些基本的介绍,包括项目的架构,内部运 ...
qifeifei 评论(0) 有1081人浏览 2015-05-26 16:19

JAVA获取网页返回值

为了提高爬虫的抓取速度,就想到了减少无用功这方面,因此就想先获取网页返回值,已减少一些无用的网页(比如404,500什么的),故网上搜了下如何获取返回值,发现都比较繁琐,后来自己瞎摸索了一下,发现了一个自认为不错的方法,特此记录下来 URL urlPage = null; HttpURLConnection conn = null; try { urlPage = new UR ...
lin358 评论(0) 有832人浏览 2015-04-23 09:34

网络机器人的识别与攻防的经典案例(也即爬虫与反爬虫的经典案例)

本文我们介绍一个网络机器人的识别与攻防的经典案例(也即爬虫与反爬虫的经典案例)。使用到的代码见本人的superword项目: https://github.com/ysc/superword/blob/master/src/main/java/org/apdplat/superword/tools/ProxyIp.java    我们的目的是要使用机器人自动获取站点http://ip.qi ...
yangshangchuan 评论(1) 有12170人浏览 2015-04-12 00:23

网络爬虫的乱码处理

下边简单总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式 是一致的,故在此统一说明。     网络爬虫,有两种选择,一是选择nutch、hetriex,二是自写爬虫,两者在处理乱码时,原理是一致的,但前者处理乱码时,要看懂源码后进行修改才可以,所以要废劲一些;而后者更自由方便,可以在编码处理时进行处理。这也是很多人在用 ...
随意而生 评论(0) 有1488人浏览 2015-04-08 14:11

selenium驱动firefox抓取网页数据,在firefox内存优化和速度优化方面的努力

使用默认frofile,启动firefox  内存600M,几个小时之后彪到一个G。 禁用掉图片,缓存  启动内存200M左右,但是几个小时之后内存彪到600M左右.   目前查到的优化项,正在努力中&尝试中......, 各种尝试如果都不行,目前想到的终极解决方案:爬取一定量的页面之后关闭当前线程对应的firefox窗口,开启新窗口! profile.setPreferenc ...
老汉学编程 评论(0) 有3193人浏览 2015-03-04 20:00

Mac OS安装开源爬虫框架pyspider

一、pyspider介绍 pyspider是百度的大神binux用Python做的一个爬虫架构的开源化实现,主要的功能需求是: 抓取、更新调度多站点的特定的页面 需要对页面进行结构化信息提取 灵活可扩展,稳定可监控 二、pyspider安装1、安装pip(如果未安装)   sudo easy_install pip  2、安装pyspider     pip instal ...
chenhbc 评论(0) 有5083人浏览 2015-01-18 01:38

python 爬虫

import urllib2 import re response = urllib2.urlopen('http://www.baidu.com/')   text = 'JGood is<title>sdfa</title>  a handsome <title> boy, </title>he is cool, clever, and ...
zjjzmw1 评论(0) 有585人浏览 2015-01-08 12:48

全面精通搜索引擎培训课程方案

课程简介:   全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。 爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。 自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。 其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。 在实现搜索方面,包括实现布尔 ...
fangyong2006 评论(0) 有916人浏览 2014-12-29 16:20

[网络爬虫]使用node.js cheerio抓取网页数据

想要自动从网页抓一些数据或者想把一坨从什么博客上拉来的数据转成一种有结构的数据? 居然没有现成的API可以取数据?!!! !@#$@#$… 没关系 ...
MyEyeOfJava 评论(0) 有6636人浏览 2014-12-10 13:35

jsoup 网络爬虫 基础文档

jsoup 简介:http://871421448.iteye.com/blog/1545996 jsoup API 文档:http://jsoup.org/apidocs/ jsoup Jar包下载:http://jsoup.org/download 示例1:http://blog.csdn.net/withiter/article/details/15339579 示例2:http:// ...
高军威 评论(0) 有1058人浏览 2014-11-17 09:29

HttpClient4.3 创建SSL协议的HttpClient对象

public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().lo ...
alleni123 评论(0) 有1132人浏览 2014-11-07 11:13

对比浏览器,casperjs,httpclient的Header信息

@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=req ...
alleni123 评论(0) 有1440人浏览 2014-11-04 11:57

用webmagic实现的网络爬虫

用webmagic实现的网络爬虫 网络蜘蛛(网络爬虫)Web Spider是一个非常形象的比喻,如果我们的网络是一个蜘蛛网,每个节点就是一个网站,联系每个节点的蜘蛛丝就是我们网站的连接。网络爬虫的原理其实不难理解——通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所 ...
香煎马鲛鱼 评论(3) 有9876人浏览 2014-11-03 00:11

网页异步ajax数据抓取几种解决方案

1.分析出ajax请求地址,直接请求地址 2.使用浏览器内核,比如WebKit,写浏览器插件 3.使用前端的自动化测试工具,比如WebUnit,Selenium 4.使用Phantomjs和Casperjs解析 注:PhantomJS是一个拥有JavaScript API的无界面WebKit。     推荐第4种方式 抓取解析流程: 使用Casperjs加载页面,然后保存文件,再使 ...
wenjinglian 评论(0) 有1995人浏览 2014-10-11 18:06

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics