- 浏览: 30472 次
- 性别:
- 来自: 成都
最新评论
-
manxisuo:
可以用,谢谢博主!
python访问需要登录的网页
文章列表
一、Python
中的线程使用:
Python
中使用线程有两种方式:函数或者用类来包装线程对象。
1、
函数式:调用
thread
模块中的
start_new_thread()
函数来产生新线程。如下例:
import time
import thread
def timer(no ...
在一个项目中,日志模块是必不可少的,健壮的日志输出有助于及时发现问题和调试。python的日志模块logging为我们提供了强大的日志功能。
一.logging模块简介
我们先看一个标准的程序:
import logging
logger=logging.getLogger()
handle ...
最近在做一个爬虫程序,是对一个网站的全站数据收集。程序调好后跑了一晚上,第二天来看就出现了“MySQL server has gone away”的错误, 调了半天以为是程序哪里的逻辑没对,写了单元测试也是通过的。。百思不得其解。
后来网上一搜才知道了原因
一般有两种情况会导致"MySQL server has gone away"的错误
1.mysql实例化后长时间没有对其操作,造成超时。
2.执行一个SQL,但SQL语句过大或者语句中含有BLOB或者longblob字段
我在爬虫的主程序就首先就初始化了mysql连接,但是之后都是在对网页就行解析, ...
今天看一本关于爬虫的书,直到了关于robots.txt的约定。
Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
目前所有的搜索引擎都遵循robots.txt的规则。
一.robots.txt的语法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是 ...
网上很著名的一本爬虫教程《自己手动写网络爬虫》,该书所有源码是用java编写的,
其中提到了宽度优先遍历算法,闲来无事我把他用python实现了一遍。代码量少了将近一半,呵呵。
宽度优先算法介绍
参考:http://book ...
有些网页需要你登录之后才可以访问,你需要提供账户和密码。
只要在发送http请求时,带上含有正常登陆的cookie就可以了。
1.首先我们要先了解cookie的工作原理。
Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏 ...