`
uule
  • 浏览: 6358496 次
  • 性别: Icon_minigender_1
  • 来自: 一片神奇的土地
社区版块
存档分类
最新评论

Python总结

 
阅读更多

官方英文文档

中文教程文档
Python3教程

知乎-Python系列

知乎-如何系统的学习Python

Python学习路线

廖雪峰的python教程(可查询)

 

 

博客:

Python博客

小白爬虫博客

一个python练习多线程的爬虫(爬虫实现了多线程但是存入MYSQL的多线程实现不了)

 

视频教程:

《用Python玩转数据》 

慕课网《Python入门》

慕课网《Python进阶》

Python腾讯课堂视频

 

爬虫:

如何入门Python爬虫

爬虫系列教程

Python 爬虫进阶?

你见过哪些令你瞠目结舌的爬虫技巧?

Python 3 网络爬虫学习建议?

想要用 python 做爬虫, 是使用 scrapy框架还是用 requests, bs4 等库?

用python爬虫抓站的一些技巧总结

使用python爬虫抓站的一些技巧总结:进阶篇

 

JS爬取:

Python 爬虫如何获取 JS 生成的 URL 和网页内容?

获取JS动态内容—爬取今日头条 

 

Scrapy:

Python 爬虫 (六) -- Scrapy 框架学习

 

Scrapy入门教程(很全)

【scrapy】学习Scrapy入门

scrapy下各种安装包

Scrapy学习笔记博客

scrapy学习笔记博客2 

 

scrapy安装

windows下安装scrapy做数据采集

How to Install Scrapy in Windows

最新win10下安装Scrapy 及其环境搭建

Python version 2.7 required, which was not found in the registry

python 安装pywin32模块问题

http://bbs.csdn.net/topics/390512587?page=1

http://jingyan.baidu.com/article/72ee561aa7f129e16138dfa1.html

scrapy使用

从零开始的Python爬虫速成指南

scrapy爬虫框架入门实例

Scrapy教程——搭建环境、创建项目、爬取内容、保存文件(txt)

网站的反爬虫策略

scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP

采用settings.py的方式进行设置user agent和proxy列表

http://www.tuicool.com/articles/VRfQR3U

http://jinbitou.net/2016/12/01/2229.html

 

 

实例:

Python爬虫实战-抓取MM图片

Python爬虫系列

实验楼-Python实例综合(很多例子)

可以用 Python 编程语言做哪些神奇好玩的事情?

下面的Python例子列表

 Python 经典项目实战(6个例子)

 

具体实例:

基于Python的网络小爬虫

基于scrapy爬虫的天气数据采集(python)

Pybatis添加数据库连接池

代理防止禁IP

可以参见: python中使用tor代理

百度贴吧自动签到

遍历bilibili网站视频信息

用Python做2048游戏

python数据使用pyquery抓取YCJ股票数据

爬取代理IP并通过多线程快速验证 

 

部署:

用Python写好的程序如何在其他计算机上运行?

大家都是怎么部署python网站的?

 

 

思考进阶:

1.如何抓取JavaScript生成的页面?     

2.一些网站会限制你的抓取频率,过快的抓取会封禁IP,如何定量控制抓取频率?     

3.google早就实现了单台机器同时维持300个爬取任务,如何提高单台机器爬虫的工作效率?     

4.大数据背景下,单台机器不能满足数据量要求,爬虫分布式如何实现?     

5.如何对DeepWeb进行自动化挖掘?附论文: Google’s Deep-Web Crawl  从1到5逐渐按难度加大,也算是能不断进阶了吧。

6、Python实现网站模拟登陆

 

等你要抓的网站非常多时,就会遇到几个问题:

1、一些网站开始防抓,IP被封?

随机User-Agent,随机代理,开始用到scrapy的插件。

2、网页太多,抓的太慢,scrapy默认是不支持分布式的,怎么实现分布式?

一些分布式的插件就会用起来,例如scrapy-redis。

3、网页越来越多,会不会抓重复?

哦,原来不会重复抓。看一看scrapy源码,基于url指纹过滤重复的。啊,过滤规则自己可以替换,不错!

4、网站如何深度抓取,如何广度抓取?

看一看scrapy源码,哦,原来通过实现了栈和队列改变任务的入队顺序,结合配置来控制。

如果你有足够的兴趣和耐心,有没有发现,从开始使用它,慢慢地你开始关注scrapy的是如何实现了,继续深入源码,你就会发现它的实现思想很巧妙,代码结构低耦合,插件威力巨大!

 

 

工具:

Python 程序如何高效地调试?

 

Python 代码调试技巧

Python在线运行工具1

Python在线运行工具2

Python 爬虫的工具列表

Notepad++编辑Pyhton文件的自动缩进的问题

python开发工具-sublimetext3

         sublimetext下配置可用python

 

如何在myeclipse8.5 配置pydev环境

MyEclipse10中配置开发Python所需要的PyDev 


 

 

  • 大小: 3.8 KB
  • 大小: 4.5 KB
  • 大小: 27.6 KB
  • PyDev_2.7.4.zip (7.4 MB)
  • 描述: myeclipse配置python开发环境
  • 下载次数: 0
分享到:
评论

相关推荐

    Python总结_python总结_源码

    本资料“Python总结”是一份全面的Python学习笔记,涵盖了从基础到进阶的多个方面,旨在帮助Python小白逐步提升编程技能。 首先,让我们从Python的基础知识开始。Python的语法特点是强制缩进,这使得代码看起来更加...

    python总结

    python总结。

    python总结.rar

    在这个“python总结.rar”的压缩包中,我们很可能会找到关于Python语言的各种学习资料,包括基础语法、数据结构、函数、类与对象、模块和包、错误与异常处理、文件操作以及一些进阶主题,如面向对象编程、装饰器、...

    python总结.ipynb

    python总结.ipynb

    Python总结.docx

    Python总结.docx

    日常python总结.rar

    本压缩包“日常python总结.rar”可能包含了作者在这些领域的实践经验和学习笔记,让我们一起深入探讨其中的知识点。 首先,从标签“python”我们可以推测,这个压缩包将涵盖Python的基础语法、内置函数、模块以及...

    15天精通pythonpython总结python基础pyhthon小代码.pdf

    。。15天精通pythonpython总结python基础pyhthon小代码.pdf

    15天精通pythonpython总结python基础pyhthon小代码 (2).pdf

    。。15天精通pythonpython总结python基础pyhthon小代码 (2).pdf

    python总结_基础部分01_容器/函数

    python总结_基础部分01_容器/函数

    Python学习总结.docx

    Python总结 Python学习总结全文共34页,当前为第1页。 Python学习总结全文共34页,当前为第1页。 目录 Python总结 1 前言 2 (一)如何学习Python 2 (二)一些Python免费课程推荐 3 (三)Python爬虫需要哪些知识?...

    python总结-原dell.xmind

    关于Python的总结思维导图笔记

    python 总结.zip

    在Python的总结和复习中,我们将探讨以下几个关键知识点: 1. **基础语法**:Python的基础语法包括变量赋值、数据类型(如整型、浮点型、字符串、布尔型、列表、元组、字典和集合)、流程控制(如if语句、for循环和...

    总结python知识点大全.zip

    通过解压并查阅“python总结知识点大全.pdf”,我们可以深入学习Python的基础和高级特性。 1. **基础语法** Python的基础语法包括变量赋值、数据类型(如整型、浮点型、字符串、布尔型、列表、元组、字典和集合)...

    Python基础总结.xmind

    Python基础总结.xmind

    Python学习总结.doc

    Python总结 目录 Python总结 1 前言 2 (一)如何学习Python 2 (二)一些Python免费课程推荐 3 (三)Python爬虫需要哪些知识 4 (四)Python爬虫进阶 6 (五)Python爬虫面试指南 7 (六)推荐一些不错的Python...

Global site tag (gtag.js) - Google Analytics