`

python3简单爬虫代码

 
阅读更多

一个python实现的网络爬虫代码

写了个python3的。代码非常简单就不解释了,直接贴代码。

#test rdp
import urllib.request
import re<br>
#登录用的帐户信息
data={}
data['fromUrl']=''
data['fromUrlTemp']=''
data['loginId']='12345'
data['password']='12345'
user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
#登录地址
#url='http://192.168.1.111:8080/loginCheck'
postdata = urllib.parse.urlencode(data) 
postdata = postdata.encode('utf-8')
headers = { 'User-Agent' : user_agent }
#登录 
res = urllib.request.urlopen(url,postdata)
#取得页面html<br>strResult=(res.read().decode('utf-8'))
#用正则表达式取出所有A标签
p = re.compile(r'<a href="(.*?)".*?>(.*?)</a>')
for m in p.finditer(strResult):
print (m.group(1))#group(1)是href里面的内容,group(2)是a标签里的文字
 

关于cookie、异常等处理看了下,没有花时间去处理,毕竟只是想通过写爬虫来学习python。

您可能感兴趣的文章:

分享到:
评论

相关推荐

    爬虫开发Python开发简单爬虫 实例代码.zip

    爬虫开发Python开发简单爬虫 实例代码.zip爬虫开发Python开发简单爬虫 实例代码.zip爬虫开发Python开发简单爬虫 实例代码.zip爬虫开发Python开发简单爬虫 实例代码.zip爬虫开发Python开发简单爬虫 实例代码.zip爬虫...

    简单的python爬虫,代码完整

    本资源提供了一个完整的Python2.7版本的简单网络爬虫代码,旨在帮助学习者理解和实践爬虫的基本原理。 首先,我们要了解Python爬虫的基本构成。一个基础的Python爬虫通常包括以下部分: 1. **URL管理器**:负责...

    python通用爬虫代码(超简易版)

    配合我的教程学习,只需要修改通用爬虫代码中的url和xpath路径,即可快速生成别的网站的python爬虫代码。十分适合新手小白练手用

    Python网络爬虫实战.pdf

    本书从Python的安装开始,详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的爬虫,有针对性地讲解了几种Python网络爬虫。本书共8章,涵盖的内容有Python语言的...

    简单Python爬虫代码

    本主题聚焦于“简单Python爬虫代码”,这通常涉及到使用Python的网络库来抓取网页上的信息,例如从百度百科这样的在线百科全书中提取超链接。 Python中的网络爬虫主要依赖于两个核心库:`requests`和`BeautifulSoup...

    Python3爬虫课程资料代码(34课).rar

    Python3爬虫是数据获取和网络自动化的重要工具,尤其在大数据时代,爬虫技术的应用越来越广泛。本课程针对初学者,旨在带你从零基础到精通Python3爬虫,通过34课的学习,全面掌握爬虫的基本原理和实战技巧。课程资料...

    python豆瓣电影爬虫

    requests库提供了简单易用的接口,能够方便地获取网页HTML代码。例如: ```python import requests url = 'https://movie.douban.com/top250' response = requests.get(url) html_content = response.text ``` ...

    python简单爬虫代码【自学尝试】

    在这个"python简单爬虫代码【自学尝试】"中,我们将探讨Python爬虫的基础知识,以及如何通过Python编写一个简单的网络爬虫。 首先,Python中的爬虫主要依赖于一些第三方库,如BeautifulSoup、requests和Scrapy等。`...

    python3 网络爬虫 多线程 无限爬网址 带mysql sql带入文件

    Python3网络爬虫技术在数据获取领域中占有重要地位,特别是在大数据时代,高效的数据抓取是许多业务的基础。本项目采用Python3实现了一个强大的网络爬虫,它利用多线程技术提高了爬取速度,能够自动无限地爬取互联网...

    python爬虫代码源码.rar

    python爬虫程序可用于收集数据。这也是最直接和最常用的方法。由于爬虫程序是一个程序,程序运行得非常快,不会因为重复的事情而感到疲倦,因此使用爬虫程序获取大量数据变得非常简单和快速。 由于99%以上的网站是...

    81个Python爬虫源代码+九款开源爬虫工具.doc

    1. **Python爬虫源代码**: - Python爬虫源代码通常涉及到requests库用于发送HTTP请求,BeautifulSoup或lxml库解析HTML或XML文档,可能还会使用到re正则表达式处理文本,以及如pandas和numpy库进行数据清洗和分析。...

    Python简单网页爬虫示例

    本示例将探讨如何利用Python实现一个简单的网页爬虫,主要涉及的技术包括BeautifulSoup(bs4库)和requests库。 首先,requests库是Python中用于发送HTTP请求的重要工具。通过这个库,我们可以方便地向指定的URL...

    python简单网络爬虫

    python开发的简单爬虫,可以爬取百度百科若干个页面,可以自行修改。使用BeautifulSoup解析网页,使用内存存储已访问过的URL,以使得程序不会重复爬取网页。

    Python网络爬虫源代码

    Python网络爬虫是一种用于自动化获取网页数据的程序,它能够高效地遍历互联网上的大量页面,提取所需信息。在Python中,有许多强大的库支持网络爬虫的开发,如BeautifulSoup、Requests、Scrapy等。 首先,`Requests...

    python3爬虫实例代码

    以下是一个简单的爬虫代码实例: ```python # 导入必要的库 import requests from bs4 import BeautifulSoup # 目标URL url = 'http://example.com' # 使用requests发送GET请求 response = requests.get(url) # ...

    python3-爬虫代码-保存豆瓣电影TOP250名称

    在本项目中,我们主要关注的是使用Python3编写爬虫代码来抓取并保存豆瓣电影排行榜上Top250电影的名称。这是一个基础的网络爬虫应用,涉及到的知识点包括Python编程基础、网络请求、HTML解析以及数据存储。下面将...

    python爬虫大作业报告+代码

    所学Python技术设计并实现一个功能完整的系统,并撰写总结报告。 要求: (1)实现时需要至少使用图形界面、多线程、文件操作、数据库编程、网页爬虫、统计 分析并绘图(或数据挖掘)六项技术,缺一不可。少一项则...

    Python3简单爬虫抓取网页图片代码实例

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。 ...

    Python基础与爬虫入门ppt+代码

    Python是一种高级编程语言,以其简洁明了的...通过学习这些PPT和实践代码,你可以逐步掌握Python的基础知识,并具备编写简单爬虫的能力。在学习过程中,理论与实践相结合,不断尝试和调试,将有助于你快速提升技能。

    python代码爬虫案例代码

    Python代码爬虫是一种广泛应用于数据抓取和网络信息提取的技术,尤其在数据分析、网站监控以及内容自动化处理等领域中发挥着重要作用。在这个压缩包中,包含了多个与Python爬虫相关的实例代码,下面将对这些文件进行...

Global site tag (gtag.js) - Google Analytics