`
nbtlxx
  • 浏览: 253119 次
  • 性别: Icon_minigender_1
  • 来自: 宁波
社区版块
存档分类
最新评论

使用python开发简单的贴吧爬虫代码及python ide问题

阅读更多
贴吧例子代码来源于csdn网站,感谢作者技术分享,受益匪浅。
#encoding=utf8
import string, urllib2

def baidu_tieba(url, begin_page, end_page):
	for i in range(begin_page,end_page+1):
		sName = string.zfill(i,5)+'.html'
		print '正在下载'+str(i)+ '个网页'
		f = open('data/'+sName,'w+')
		m = urllib2.urlopen(url+str(i)).read()
		f.write(m)
		f.close()

# bdulr = 'http://tieba.baidu.com/p/2296017831?pn='
bdulr = 'http://tieba.baidu.com/p/2494746884?pn='

begin_page = 1
end_page = 10

# bdulr = str(input(u'please input url:\r\n'))

# begin_page = int(input(u'input start pagenum'))
# end_page = int(input(u'end page num'))

baidu_tieba(bdulr,begin_page,end_page)



碰到的一个问题就是:
sublime2, 对raw_input()的总是提示:error, 貌似没有好的解决办法
然后使用eclipse, pydev, 但是很多时候api不支持,总是提示出错,比如

 
from twisted.internet.protocol import Protocol,Factory
from twisted.internet import reactor


class Echo(Protocol):
    
    def dataReceived(self, data):
        self.transport.write('hello: {}'.format(data))

class EchoFactory(protocol.Factory):
    def buildProtocal(self,addr):
        return Echo()
    
    def connectionLost(self, reason):
        print 'connect lost',reason

    
def main():
    f = Factory()
    f.protocol = Echo
    reactor.listenTCP(8000,f)   #语法提示错误,不影响执行
    reactor.run()
    
if __name__ == '__main__':
    main()
 


另外一种情况就是编译出错,比如
import binascii
import socket
import struct
import sys

#create a TCP/IP socket
# sock = socket.socket(socket.AF_INET6,socket.SOCK_STREAM)
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

server_addr = ('',10000)
sock.bind(server_addr)
sock.listen(10)

unpacker = struct.Struct('I 2s f')

while True:
    print >>sys.stderr , '\n waiting for a client'
    conn, client_addr = sock.accept()
    
    try:
        data = conn.recv(unpacker.size())
        
        unpacked_data = unpacker.unpack(data)
        
    finally:
        conn.close()

报错信息如下:
Traceback (most recent call last):
  File "/Users/chenxu/work/python/pythontutorial/src/socket/server.py", line 14, in <module>
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
AttributeError: 'module' object has no attribute 'socket'

但是上面的代码使用sublime可以运行。

综合的办法就是
1. 使用eclipse, pydev来编写代码,这个ide有强大的代码补全功能,对于不熟悉python语法的人来说是福音
2. 使用sublime来运行代码,Command+b 运行快捷键
人生不如意,十有八九。
接受不能改变的事情吧。
1
0
分享到:
评论
1 楼 coolbamboo2008 2013-12-16  
不错,python还是简单

相关推荐

    Python网络爬虫实战.pdf

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    Python基础与爬虫入门ppt+代码

    基于python的网页爬虫.ppt和python爬虫设计入门.pptx可能包含以下章节: 1. **爬虫基础知识**:解释什么是网络爬虫,其工作原理,以及爬虫的道德与法律问题。 2. **HTTP与HTTPS**:简述HTTP协议,包括请求方法、...

    30 分钟上手 Python 爬虫 #02 - Python 开发环境与 IDE 搭建.mp4

    视频教程 30 分钟上手 Python 爬虫 #02 - Python 开发环境与 IDE 搭建 30 分钟带你快速上手 Python,详解了爬虫底层的原理与实现方法、BeautifulSoup 框架以及实战爬虫的实现,快速助力你成为一名大数据工程师。

    PYTHON 网络爬虫实战

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    python爬虫教程从入门到精通

    - **章节目标**:教会学员如何搭建Python爬虫所需的开发环境。 - **主要内容**: - 安装Python解释器(包括Windows、Mac OS和Linux三种操作系统)。 - 配置Python环境变量。 - 安装并配置常用的Python集成开发...

    在 VisualStudio 2017环境下使用Python之爬虫入门实例1-下载天气网图片

    * Python爬虫库 Scrapy 的使用 * Python 正则表达式的应用 * Visual Studio 2017 中 Python 项目的配置 九、结语 本文只是爬虫实例的入门篇章,希望能够帮助读者了解到爬虫的基本概念和技术。同时,也希望能够激发...

    python 爬虫爬取简历

    使用这两个库,我们可以编写简单的爬虫代码来抓取网页内容: ```python import requests from bs4 import BeautifulSoup url = "http://example.com" # 网站URL response = requests.get(url) soup = ...

    Python_大众点评网站数据爬虫

    这里我们将深入讲解Python爬虫的基础知识、Eclipse与PyDev的集成开发环境设置,以及如何针对特定网站进行数据抓取。 首先,Python是Web爬虫领域广泛使用的语言,其简洁的语法和丰富的第三方库如BeautifulSoup和...

    python专利爬虫下载

    1. **Python爬虫**:Python是一种流行的编程语言,因其简洁的语法和丰富的库支持,在数据抓取方面非常受欢迎。常见的Python爬虫库包括requests(用于发送HTTP请求)、BeautifulSoup(解析HTML和XML文档)以及Scrapy...

    python爬虫实例教程

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。

    web of science论文爬虫程序(python)

    2. **spyder_old_verson.py**:Spyder是Python的一种集成开发环境(IDE),这个文件可能是早期版本的代码,可能包含了爬虫的基本结构或者测试代码。 3. **cl_deal_data.py**:根据命名,这可能是处理爬取到的数据的...

    Python网络爬虫实战(完整版,高清

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    基于Python语言下网络爬虫的技术特点及应用设计.pdf

    4. 编辑器友好:与需要集成开发环境(IDE)支持的编程语言不同,Python的爬虫程序可以在普通的文本编辑器中编写,并可直接运行,这对于快速原型开发和调试非常有利。 5. 高效的开发和执行:Python网络爬虫的编写和...

    超完整Python基础入门知识教程Python从入门到进阶知识大全Python开发基础知识能力

    1. 安装与环境配置:了解如何在不同操作系统(Windows、MacOS、Linux)上安装Python解释器,设置环境变量,以及使用集成开发环境(IDE),如PyCharm、VS Code等。 2. 编程基础:学习Python的基本语法,包括变量、...

    Python程序设计:搭建Python开发环境(案例).pptx

    Python程序设计:搭建Python开发环境是编程初学者的首要任务,这一过程涵盖了多个关键知识点,不仅涉及Python语言的基础,还包括了高效开发工具的使用。以下将详细阐述这些内容。 首先,了解Python的发展历史有助于...

    PYTHON 网络爬虫实战 ,胡松涛著 ,P294 ,2017.01.zip

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    NewSpider_爬虫_python爬虫_python_python爬虫_

    【Python爬虫与Scrapy框架】 Python爬虫是获取网络数据的一种强大工具,它能够自动化地遍历网页,提取所需信息。在众多Python库中,Scrapy是一个专门为爬虫设计的高级框架,它提供了一整套高效且灵活的解决方案,...

    150讲轻松学习Python网络爬虫

    Scrapy是一个功能强大的Python爬虫框架,它提供了完整的解决方案,包括请求调度、中间件、爬虫项目结构等。通过Scrapy,你可以快速构建复杂的爬虫系统,同时支持大规模的数据抓取和处理。 最后,"JSON字符串格式...

    Python网络爬虫实战

    本书共10章,涵盖的内容有Python3.6语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器、Pyspider...

    python的《Selenium爬虫》中文版

    ### Selenium自动化爬虫知识点概述 #### 一、Selenium简介及安装 - **Selenium优点**:Selenium 是一个强大的工具包,用于自动化 Web 测试。它支持多种浏览器(如 Chrome、Firefox)以及多种编程语言(如 Python、...

Global site tag (gtag.js) - Google Analytics