Python爬虫入门八之Beautiful Soup的用法

博客分类：

python

转载自： http://cuiqingcai.com/1319.html 上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们可以很方便地提取出HTML或XML标签中的内容，实在是方便，这一节就让我们一起来感受一下Beautiful Soup的强大吧。 1. Beautiful Soup的简介简单来说，Beautiful Soup是python

2016-01-07 12:24
浏览 616
评论(0)
分类:编程语言

Python爬虫入门七之正则表达式

博客分类：

python

python

转载自： http://cuiqingcai.com/977.html 在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！ 1.了解正则表达� ...

2016-01-07 12:23
浏览 462
评论(0)
分类:编程语言

Python爬虫入门六之Cookie的使用

博客分类：

python

python

转载自： http://cuiqingcai.com/968.html 大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在 ...

2016-01-07 12:23
浏览 497
评论(0)
分类:编程语言

Python爬虫入门五之URLError异常处理

博客分类：

python

python

转载自： http://cuiqingcai.com/961.html 大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚

2016-01-06 02:26
浏览 637
评论(0)
分类:编程语言

Python爬虫入门四之Urllib库的高级用法

博客分类：

python

python

转载自： http://cuiqingcai.com/954.html 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许许多多的内容，这些内容也不是一次性就加载完成的，实质上是执行了好多次请求，一般是首先请求HTML文件，然后加载JS，CSS 等等，经过多次请求 ...

2016-01-06 02:25
浏览 614
评论(0)
分类:编程语言

Python爬虫入门三之Urllib库的基本使用

博客分类：

python

python

转载自： http://cuiqingcai.com/947.html 那么接下来，小伙伴们就一起和我真正迈向我们的爬虫之路吧。 1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。

2016-01-06 02:24
浏览 720
评论(0)
分类:编程语言

Python爬虫入门二之爬虫基础了解

博客分类：

python

python

转载： http://cuiqingcai.com/942.html 1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。 2.浏览网页的过程在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://image.baidu.com/ ...

2016-01-06 02:23
浏览 528
评论(0)
分类:编程语言

Python爬虫入门一之综述

博客分类：

python

python

转载自： http://cuiqingcai.com/927.html 大家好哈，最近博主在学习Python，学习期间也遇到一些问题，获得了一些经验，在此将自己的学习系统地整理下来，如果大家有兴趣学习爬虫的话，可以将这些文章作为参考，也欢迎大家一共分享学习经验。 Python版本:2.7，Python 3请另寻其他博文。首先爬虫是什么？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。根据我的经验，要学习Python爬虫，我们要学习的共有以下几点：

2016-01-06 02:22
浏览 567
评论(0)
分类:编程语言

社会化海量数据采集爬虫框架搭建

博客分类：

爬虫

反监控海量数据抓取爬虫采集.

转载自： http://www.lanceyan.com/tech/arch/snscrawler.html 随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？ 1、打开浏览器，输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整个过程主要为网络访问、扣取结构化数据、存 ...

2015-12-14 11:41
浏览 569
评论(0)
分类:企业架构

gfxboot.c32: not a com32r image

博客分类：

ubuntu

ubuntu iso

ltraISO刻录完Ubuntu14.10后，从U盘启动的时候出现了gfxboot.c32:not a COM32R image的问题，经过研究发现按下Tab键，会出现live live-install check memtest hd mainmenu help.输入live后会进入试用界面，live-install会进入安装界面。转载自： http://www.iyunv.com/thread-26578-1-1.html

2015-12-06 00:59
浏览 706
评论(0)
分类:操作系统

如何防止网站被爬虫爬取的几种办法

博客分类：

爬虫

爬虫

转载自： http://laoxu.blog.51cto.com/4120547/1302013 今天想对一个问题进行分析和讨论，就是关于爬虫对网站页面爬取的问题，有些网站通过爬虫去采集其它的网站页面信息作为己用，大量的爬取行为会对web服务器有比较性能有影响，主要的表现就是会变得很慢。对于如何防止网站被爬取，我想从以下几种方法去分析： 1.基于程序本身去防止爬取：作为爬虫程序，爬取行为是对页面的源文件爬取，如爬取静态页面的html代码，可以用jquery去模仿写html，这种方法伪装的页面就很难被爬取了，不过这种方法对程序员的要求很高。

2015-11-12 01:36
浏览 636
评论(0)
分类:Web前端

PHP模拟登录并获取数据

博客分类：

爬虫

php curl 爬虫

转载自： http://www.helloweba.com/view-blog-253.html cURL 是一个功能强大的PHP库，使用PHP的cURL库可以简单和有效地抓取网页并采集内容，设置cookie完成模拟登录网页，curl提供了丰富的函数，开发者可以从PHP手册中获取更多关于cURL信息。本文以模拟登录开源中国(oschina)为例，和大家分享cURL的使用。 PHP的curl()在抓取网页的效率方面是比较高的，而且支持多线程，而file_get_contents()效率就要稍低些，当然，使用curl时需要开启下curl扩展。代码实战先来看登录部分的代码： //模 ...

2015-11-12 00:37
浏览 884
评论(0)
分类:Web前端

atom-shell和node-webkit的不同

博客分类：

nodejs

node.js node_webkit Electron nw.js

转载自： https://github.com/atom/electron/blob/master/docs/development/atom-shell-vs-node-webkit.md Technical Differences Between Electron and NW.js (formerly node-webkit) Note: Electron was previously named Atom Shell. Like NW.js, Electron provides a platform to write desktop applications with JavaS ...

2015-11-05 02:18
浏览 691
评论(0)
分类:开源软件

AJAX 跨域请求 - JSONP获取JSON数据

博客分类：

js

js

Asynchronous JavaScript and XML (Ajax ) 是驱动新一代 Web 站点（流行术语为 Web 2.0 站点）的关键技术。Ajax 允许在不干扰 Web 应用程序的显示和行为的情况下在后台进行数据检索。使用 XMLHttpRequest 函数获取数据，它是一种 API，允许客户 ...

2015-11-03 17:30
浏览 707
评论(0)
分类:开源软件

FFmpeg深入分析之零-基础

博客分类：

ffmpeg

ffmpeg

转载自： http://blog.chinaunix.net/uid-26611383-id-3976154.html FFmpeg是相当强大的多媒体编解码框架，在深入分析其源代码之前必须要有基本的多媒体基础知识，否则其源代码会非常晦涩难懂。本文将从介绍一些基本的多媒体只是，主要是为研读ffmpeg源代码做准备，比如一些编解码部分，只有真正了解了多媒体处理的基本流程，研读ffmpeg源代码才能事半功倍。下面分析一下多媒体中最基本最核心的视频解码过程，平常我们从网上下载一部电影或者一首歌曲，那么相应的多媒体播放器为我们做好了一切工作，我们只用欣赏就ok了。目前几乎所有的主流多媒体播放 ...

2015-11-02 18:12
浏览 660
评论(0)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Python爬虫入门八之Beautiful Soup的用法

Python爬虫入门七之正则表达式

Python爬虫入门六之Cookie的使用

Python爬虫入门五之URLError异常处理

Python爬虫入门四之Urllib库的高级用法

Python爬虫入门三之Urllib库的基本使用

Python爬虫入门二之爬虫基础了解

Python爬虫入门一之综述

社会化海量数据采集爬虫框架搭建

gfxboot.c32: not a com32r image

如何防止网站被爬虫爬取的几种办法

PHP模拟登录并获取数据

atom-shell和node-webkit的不同

AJAX 跨域请求 - JSONP获取JSON数据

FFmpeg深入分析之零-基础

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>