`

python爬虫

阅读更多

        python最近几年蛮火的,占据了各个技术论坛的很多篇幅,闲来没事自己下载安装搞搞,python的下载安装大家可以自己百度自己安装一下,python2和python3的语法等还是有很大的区别的比如请求组件urllib request和输出print需要带括号等,我的版本是3.6python的安装目录看了一下里面还是有很多工具啊组件啊DLL拓展啥的还是蛮丰富的,安装完成后去  命令 python

  我的开发工具是  JetBrains PyCharm Community Edition 2018.2.1 x64

 下载安装大家可以去自己搞一下;

 

python 可以做很多东西:web开发;爬虫;大数据(数据分析);人工智能(机器学习,这个我不太懂太高大上了);

那下面我就简单介绍一下python的爬虫,我也我抄袭网上别人的,自己练练手(基础语法基本都练习过了);

 1.先来个最简单的  抓取网页的源代码

#coding:utf-8
#import urllib
# 多行注释 获取页面源代码
import urllib.request

page = urllib.request.urlopen('http://www.baidu.com')#打开网页
htmlcode = page.read()#读取页面源码
print(htmlcode) #在控制台输出

 里面的用到的类库及函数等,请大家自行百度一下,编辑工具里运行结果是:

D:\python>python test5.py 




 

2. 再来一个稍微稍微高级一丁点的:抓取贴吧里的图片并保存至本机D盘Temp目录下, 代码如下

#抓取网页 图片并保存
import re
import urllib.request

# ------ 获取网页源代码的方法 ---
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

# ------ getHtml()内输入任意帖子的URL ------
html = getHtml("https://tieba.baidu.com/p/5352556650")
# ------ 修改html对象内的字符编码为UTF-8 ------
html = html.decode('UTF-8')

# ------ 获取帖子内所有图片地址的方法 ------
def getImg(html):
    # ------ 利用正则表达式匹配网页内容找到图片地址 ------
    reg = r'src="([.*\S]*\.jpg)"'
    imgre = re.compile(reg);
    imglist = re.findall(imgre, html)
    return imglist

imgList = getImg(html)
imgName = 0
for imgPath in imgList:
    # ------ 这里最好使用异常处理及多线程编程方式 ------
    try:
        f = open('D:\\Temp\\'+ str(imgName)+".jpg", 'wb')
        f.write((urllib.request.urlopen(imgPath)).read())
        print(imgPath)
        f.close()
    except Exception as e:
        print(imgPath+" error")
    imgName += 1

print("All Done!")

运行结果如下:

 D盘的Temp目录下: 多出了几十张照片


 

代码里面还有涉及到 正则匹配和循环等

----  python 还是蛮有意思的的吧-------

3. 再来个简单的  计算长方形的面积

def area(width,height):
    return width * height

def print_welcome(name):
    print("welcome",name)

print_welcome("Runoob")
w = 4
h = 5
print("width =", w, " height =", h, " area =", area(w, h))

D:\python>python test4.py    运行结果如下:


 

4. 最后一个 让python链接Mysql 数据库,这个我们需要安装pymysql组件,大家可以自己下载安装;开启mysql服务

# 链接mysql数据库

# !/usr/bin/python3

import pymysql

# 打开数据库连接
db = pymysql.connect("localhost", "root", "", "test")

# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()

# 使用 execute()  方法执行 SQL 查询
cursor.execute("SELECT VERSION()")

# 使用 fetchone() 方法获取单条数据.
data = cursor.fetchone()

print ("Database version : %s " % data)

# 关闭数据库连接
db.close()

 运行结果:数据库版本是

 // 创建一张表

 #!/usr/bin/python3

import pymysql
# 创建数据表
# 打开数据库连接
db = pymysql.connect("localhost", "root", "", "test")

# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()

# 使用 execute() 方法执行 SQL,如果表存在则删除
cursor.execute("DROP TABLE IF EXISTS EMPLOYEE1")

# 使用预处理语句创建表
sql = """CREATE TABLE EMPLOYEE1 (
         FIRST_NAME  CHAR(20) NOT NULL,
         LAST_NAME  CHAR(20),
         AGE INT,  
         SEX CHAR(1),
         INCOME FLOAT )"""

cursor.execute(sql)

# 关闭数据库连接
db.close()

 

// 今天先到这里,大家可以下载安装一下玩玩,蛮有意思的风格个PHP很像,很喜欢!

 

 

  • 大小: 4.4 KB
  • 大小: 10.4 KB
  • 大小: 16.1 KB
  • 大小: 19.9 KB
  • 大小: 56.9 KB
  • 大小: 5.8 KB
  • 大小: 3.3 KB
分享到:
评论

相关推荐

    Python爬虫框架Scrapy教程 完整版PDF

    《Python爬虫框架Scrapy教程》主要是针对学习python爬虫的课程,又基础的python爬虫框架scrapy开始,一步步学习到最后完整的爬虫完成,现在python爬虫应用的非常广泛,本文档详细介绍了scrapy爬虫和其他爬虫技术的...

    Python爬虫JS逆向进阶课程-课程网盘链接提取码下载 .txt

    这门课程是Python爬虫JS逆向进阶课程,将教授学员如何使用Python爬虫技术和JS逆向技术获取网站数据。学习者将学习如何分析网站的JS代码,破解反爬虫机制,以及如何使用Selenium和PhantomJS等工具进行模拟登录和数据...

    电影天堂上的Python爬虫源码.zip

    电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python爬虫源码.zip电影天堂上的Python...

    python爬虫从入门到精通(模块)

    这份文档旨在帮助想要学习Python爬虫的初学者,从入门到精通逐步提升自己的技能。以下是我们将要涵盖的主题: ## 入门篇 1. Python爬虫简介 2. Requests库的使用 3. Beautiful Soup库的使用 4. 爬虫实战:爬取百度...

    python爬虫课件+代码.zip

    Python爬虫技术是一种用于自动化网络数据获取的编程技术,它在大数据分析、网站维护、市场研究等领域具有广泛应用。本课程由“路飞学城樵夫”老师指导,通过实际操作帮助学习者掌握Python爬虫的基本原理和实战技巧。...

    Python爬虫教学视频-最全的Python爬虫视频教程全集

    本Python爬虫教学视频,全集共51天课程,整套课程以Python语言为核心,通过各种经典案例的讲解,很好的演示了python爬虫如何抓取数据的全过程,非常值得Python爬虫工程师和想掌握python爬虫技术的同学借鉴学习。...

    简单的python爬虫,代码完整

    在IT行业中,Python爬虫是获取网络数据的重要工具,尤其对于数据挖掘、网站分析和自动化任务有着不可忽视的作用。本资源提供了一个完整的Python2.7版本的简单网络爬虫代码,旨在帮助学习者理解和实践爬虫的基本原理...

    Python爬虫

    Python爬虫是编程领域中一个重要的知识点,尤其在数据挖掘和信息分析中广泛应用。本项目主要涉及了Python语言、网络爬虫技术、HTML解析库BeautifulSoup以及数据库管理系统MySQL。 首先,Python作为一门强大的脚本...

    python爬虫代码源码.rar

    python爬虫程序可用于收集数据。这也是最直接和最常用的方法。由于爬虫程序是一个程序,程序运行得非常快,不会因为重复的事情而感到疲倦,因此使用爬虫程序获取大量数据变得非常简单和快速。 由于99%以上的网站是...

    python爬虫:Python 爬虫知识大全

    python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识...

    python爬虫数据可视化分析

    Python爬虫数据可视化分析大作业,python爬取猫眼评论数据,并做可视化分析。 python爬虫数据可视化分析大作业 python爬虫,并将数据进行可视化分析,数据可视化包含饼图、柱状图、漏斗图、词云、另附源代码和报告书...

    "玩转Python爬虫——入门与实践"课程源码

    在“玩转Python爬虫——入门与实践”这门课程中,你将深入学习到Python爬虫的基础知识和实战技巧。Python爬虫是数据采集的重要工具,尤其在大数据时代,爬虫技术对于获取网络上的非结构化信息具有举足轻重的作用。本...

    python爬虫.pdf

    Python爬虫技术详解 Python爬虫是指使用Python语言编写的网络爬虫程序,它可以自动地从互联网上抓取数据,并对其进行处理和分析。Python爬虫技术广泛应用于数据挖掘、机器学习、自然语言处理等领域。 Requests库...

    Python爬虫开发与项目实战.pdf

    因为在提供的内容中,没有包含实际的技术知识、概念解释、操作指南或者与Python爬虫开发相关的任何实际内容,而是重复了一段关于加入一个Python编程学习交流群的信息,并没有详细说明《Python爬虫开发与项目实战.pdf...

    python爬虫20个案例

    讲诉python爬虫的20个案例 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

    2024年的必考python爬虫面试题10个.zip

    python爬虫内容概要: 本套面试题涵盖了Python爬虫的基本原理、反爬虫策略、常用库(如BeautifulSoup、Scrapy、Selenium)的使用、代理IP的应用、Ajax爬取、多线程/多进程提高效率、分布式爬虫的实现等核心技术点。...

    python爬虫练习.zip

    解锁网络数据的宝藏:Python爬虫工具与教程集合 一、探索网络信息的无限宝藏 在互联网的海洋中,蕴藏着海量的有价值信息。如何合法、高效地获取这些信息?Python爬虫工具与教程为您揭开这一神秘面纱。通过这些资源...

    python爬虫详解.pdf

    Python爬虫详解 1. 爬虫的基本概念 网络爬虫是一种自动化程序,它遵循特定的规则遍历互联网,抓取网页上的信息。爬虫的名称多种多样,如蚂蚁、自动索引、模拟程序或蠕虫。随着互联网的快速发展,网络成为了海量信息...

    81个Python爬虫源代码+九款开源爬虫工具.doc

    Python爬虫技术是数据获取和分析领域的重要工具,尤其在互联网信息海量的今天,爬虫可以帮助我们自动化地从网站上抓取大量数据。以下是一些关于Python爬虫的知识点,以及提到的一些开源爬虫工具: 1. **Python爬虫...

    爬虫代码实例源码大全+Python 爬虫Scrapy课件源码.zip

    "爬虫代码实例源码大全(纯源码不带视频的实例)"这部分是学习Python爬虫的重要资料。源码实例通常包括了各种常见的爬虫应用场景,如爬取网页HTML内容、解析JSON或XML数据、处理JavaScript加载的内容、登录验证、...

Global site tag (gtag.js) - Google Analytics