最新文章列表

使用Google Analytics来统计手机网站的流量

<?php class GoogleAnlayticsMobile {  private $__utma;       // __utma cookie 记录唯一身份访问者  private $__utma_c_time = 63072000;   // 两年 (默认情况下是两年)  private $__utmb;       // __utmb cookie 记录用户的一次Se ...
wbj0110 评论(0) 有1105人浏览 2013-09-21 14:35

使用Google Analytics跟踪搜索引擎的抓取记录

<?php /*  * Name:Tracking Robots With Google Analytics  * Author:biaodianfu  * URI;http://www.biaodianfu.com/tracking-robots-with-google-analytics.html  */ $utmac = 'UA-16811947-5'; // ...
wbj0110 评论(0) 有1263人浏览 2013-09-21 14:35

二、基于storm的爬虫设计方案构想

基于storm的爬虫设计方案构想   这是一个令人振奋的构想   最近在弄storm,之前又弄过爬虫,所以把两者结合起来我觉得还挺有意思的。我们知道爬虫是从网络上获取数据经过一些处理保存到本地,作为自己的业务数据等。所以其从输入到输出其实就是一个数据流不断的流经系统。storm作为实时流处理的利器,其使我们非常方便的对系统各部件的并发进行rebalance,所以如果将其用在自己的爬虫中我们 ...
zhangzhenjj 评论(0) 有6380人浏览 2013-09-01 16:49

多看书,从socket到爬虫到分布式(大数据?)其实没多远

          一段时间没写了,想写点什么,这篇就写写自己的学习历程,希望对曾经和我一样迷茫的兄弟能有点参考。步入正题!            怎么入题呢?先介绍下自己的工作历程吧,然后再写写对工作的感想。这篇先写写工作历程,工作感想我觉得要好好总结和整理才能发出来,避免误导大家,            到现在我已经毕业两年了,算上实习也有两年半了,好快,转眼就过来了,也算适应了北京快节 ...
zhangzhenjj 评论(5) 有3414人浏览 2013-08-17 21:31

实战低成本服务器搭建千万级数据采集系统

上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社会化采集系统架构,讲架构一般都比较虚,这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。 有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu, 4 ...
lanceyan 评论(17) 有3222人浏览 2013-08-05 19:28

社会化海量数据采集爬虫框架搭建

随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。 我们来看一下作为人是怎么获取网页数据的呢? 1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或 ...
lanceyan 评论(0) 有1081人浏览 2013-07-26 09:39

爬虫url查重方式总结

最近做爬虫,在check阶段最后这几天总是遇到内存溢出的问题,分析了一下java堆,发现就是过多的url string存储导致的。今天就总结下url查重的几种方法 ...
384444165 评论(2) 有6051人浏览 2013-07-19 18:10

一、关于爬虫的一点想法

                                            关于爬虫的一点想法(一) 小弟毕业后参加工作的过程中在iteye汲取了很多营养,一 ...
zhangzhenjj 评论(1) 有1922人浏览 2013-05-30 18:52

网络爬虫

最近在写一个程序,去爬热门事件和热门关键词网站上的数据。在这里介绍一下网络爬虫的种种。 基本组件 网络爬虫也叫做网络蜘蛛,是一种互联网机器人,把需要的网页撷取下来,组织成适当格式存储。它是搜索引擎的重要组成部分,虽然从技术实现上来说,它的难度往往要小于对于得到的网页信息的处理。
RayChase 评论(3) 有5424人浏览 2013-05-26 22:24

Heritrix源码分析之URI调度详解

一. 简述 URI调度,简单的来说就是提供一个分配URI和加入URI的方法,抓取线程通过分配URI获取待抓取URI,抓取分析完成后需要把希望继续抓取的URI加入到调度器内,等待调度。Heritrix的CrawlController是通过定义一个 Java代码   private transient Frontier frontier    来实现调度器的管理 ...
wliufu 评论(0) 有1385人浏览 2013-05-20 23:28

Heritrix源码分析之URI调度详解

一. 简述 URI调度,简单的来说就是提供一个分配URI和加入URI的方法,抓取线程通过分配URI获取待抓取URI,抓取分析完成后需要把希望继续抓取的URI加入到调度器内,等待调度。Heritrix的CrawlController是通过定义一个 private transient Frontier frontier  来实现调度器的管理的,Heritrix提供了若干个调度器的实现,当然也 ...
wliufu 评论(1) 有1743人浏览 2013-05-20 15:50

Nutch index源代码解析二)

接着上篇文档~~~~~ 上篇文章写到,Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。 接下来介绍怎么爬取下来的数据如何推送给solr。 ----------------------------------------------------华丽的分割线--------------------------------------------- Ntuch自定义了 ...
cz05141331 评论(0) 有1681人浏览 2013-03-15 10:56

parser设置超时

前段时间用parser编写了一个爬虫,部署后发现有的网页没有返回值时(或许是这样...其实最后也没搞懂为什么..囧)会出现程序卡死的问题,所以想给parser设置个超时,后来发现parser完全没有setReadTimeout之类的方法,经过查询相关资料发现只要这样就可以了,下面是解决方式URL urlPage = new URL(urlString); HttpURLConnection ...
lin358 评论(0) 有925人浏览 2012-11-15 15:41

下载图片代码片段

因项目需求写了个下载图片的函数,现记录下来 实现原理其实很简单就是先打开再通过二进制流读取,不需要第三方jar包 /** * 下载图片 * @return */ private boolean downimg(String jpgurl,String jpgfile,String link){ try { //若获取图片的链接 ...
lin358 评论(0) 有1100人浏览 2012-11-15 15:36

发布了一篇博客,很快就被爬到其他网站了。。

我的博客:   http://superlxw1234.iteye.com/admin/blogs/1703546   被爬的:   http://www.uplook.cn/index-Index-show-view166417.html   速度很快啊。。
superlxw1234 评论(0) 有1126人浏览 2012-10-23 16:15

Crawl a website with scrapy

  Introduction In this article, we are going to see how to scrape information from a website, in particular, from all pages with a common URL pattern. We will see how to do that with Scrapy, a very p ...
michaelh0226 评论(0) 有1684人浏览 2012-09-27 11:27

互联网网站的反爬虫策略浅析

因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。 一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十上百 ...
skywen 评论(0) 有2298人浏览 2012-09-25 09:42

用HtmlParser 写个简单的 news爬虫(转)

有一段时间没写博客了,这几天回到学校我同学要赶着交毕业设计,让我帮他写个爬虫,专门抓搜狐的新闻,我用过爬虫,但是从来没有自己写过爬虫,于是Google了一下,找到了一篇不错的文章:使用 HttpClient 和 HtmlParser 实现简易爬虫 .  参考里面的代码,自己写了个简易的搜狐新闻爬虫。     爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻,然后将新闻添加到数据库中。 代码其实很简单 ...
中国凉茶 评论(0) 有3082人浏览 2012-08-01 15:26

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics