`
helanhe
  • 浏览: 5436 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Python 爬虫之路(1)

 
阅读更多

小弟我呢,Java出生公司PHP搞个网站看了几天thinkphp于是走上PHP这条不归路。总的来都差不多,语法习惯还是和Java一样建一堆对象搞方法搞继承搞MVC

 

今天再次走向另一条不归路Python,我走的是野路子没有正规的看文档教程基础语法之类的,我喜欢走到那看到那,对于正规军自己看着办吧!

 

我会对每行代码进行解释,具体说明意思请自己看官方文档

 

开车

 

 

import urllib2
from bs4 import BeautifulSoup

class indexAction:
    
    url = 'http://www.baidu.com'
        
    def getHtml(self,url):
        request = urllib2.Request(url)
        request.add_header('user-agent', 'Mozilla/5.0')
        response = urllib2.urlopen(request)
        return response


if __name__ == '__main__':
    index = indexAction();
    html = index.getHtml(index.url);
    html_str = html.read();

    soup = BeautifulSoup(html_str,'html.parser',from_encoding='urt-8');
    
    links=soup.find_all('a');
 
    for link in links:
        print link.name,link['href'],link.get_text();
    pass
import urllib2

     import 关键字  引入一个对象 

     urllib2是一个Python的扩展库,负责URL方面网络协议和支持.资料自己看

     资料地址:http://python.usyiyi.cn/translate/python_278/library/urllib2.html

 

from bs4 import BeautifulSoup

    bs4 是python的第三工具负责解析文本内容是需要安装的 安装请看

    资料地址:http://helanhe.iteye.com/admin/blogs/2394806

    BeautifulSoup是bs4的一个类具体靠他来查找我们需要的内容

 

class indexAction:

    class Python是关键字 

    indexAction是我定义的一个类名

    : 冒号是python的内容体 相当于Java里面大括号

 

url = 'http://www.baidu.com';

    这是定义的一个变量,在python里面和PHP有点像是弱类型所以变量是不需要定义类型的,同时python里面也不需要;分号结束,当然习惯还是给上分号看起舒服些

def getHtml(self,url):

    def 是关键字 相当于 java里面的 function 表示这是一个方法或者函数

    getHtml(self,url) getHtml是方法名里面两个参数,

    第一个参数self不知道干什么用,反正要有.资料请看http://python.jobbole.com/81921/,

    第二个参数才是我们需要传入的参数url 

 

request = urllib2.Request(url)

    意思就是通过urllib2的这个插件请求一个URL地址,然后方法一个对象,这个时候并没有实际请求数据还在组装中

request.add_header('user-agent', 'Mozilla/5.0')

    这个是通过上面返回的对象加载请求的HTTP头,这个我们想加载什么就加载什么,看自己心情

  

response = urllib2.urlopen(request)

    这个才是通过urllib2这个插件像目标URL请求内容,返回一个目标网站的对象给我们,具体什么鬼我也不知道 可以自己打印出来看看

if __name__ == '__main__':

    这个是一个main函数为什么是这个样子,就应该是这个样子

    http://www.dengfeilong.com/post/60.html

   

html_str = html.read();

    这个是从返回的对象通过read内置的方法读取目标网站的html(返回的是个字符串)

soup = BeautifulSoup(html_str,'html.parser',from_encoding='urt-8');

    这其实是在实例化一个类,并不是调用某个方法。在python里面你不需要new 类名

    里面需要三个参数 

    第一个 要解析的字符串

    第二个 解析方式

    第三个 解析后的编码

    https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 

    最后方法一个对象

links=soup.find_all('a');

    通过上面的对象调用find_all()函数里面传入你要查找的HTML标签关键字,里面有很多方法可以进行查找具体看文档好了都有

    

for link in links:
        print link.name,link['href'],link.get_text();
    pass

    最后就是循环打印输出

 

    其他的自己看着办吧,听说还会有什么爬取分页的内容,登录爬取什么的,我搞清楚在给大家说

分享到:
评论

相关推荐

    python爬虫:Python 爬虫知识大全

    python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识...

    python爬虫之DoubanSpider-master (1).zip

    pythonpython爬虫之DoubanSpider-master (1)python爬虫之DoubanSpider-master (1)python爬虫之DoubanSpider-master (1)python爬虫之DoubanSpider-master (1)python爬虫之DoubanSpider-master (1)python爬虫之...

    python爬虫淘宝京东拼多多

    python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python...

    Python爬虫框架Scrapy教程 完整版PDF

    《Python爬虫框架Scrapy教程》主要是针对学习python爬虫的课程,又基础的python爬虫框架scrapy开始,一步步学习到最后完整的爬虫完成,现在python爬虫应用的非常广泛,本文档详细介绍了scrapy爬虫和其他爬虫技术的...

    python爬虫,拉勾网爬虫

    python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...

    【python爬虫】python爬虫基础知识及简单实践

    【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识...

    Python爬虫JS逆向进阶课程-课程网盘链接提取码下载 .txt

    这门课程是Python爬虫JS逆向进阶课程,将教授学员如何使用Python爬虫技术和JS逆向技术获取网站数据。学习者将学习如何分析网站的JS代码,破解反爬虫机制,以及如何使用Selenium和PhantomJS等工具进行模拟登录和数据...

    Python爬虫教学视频-最全的Python爬虫视频教程全集

    Python爬虫实战学习day1 1Python爬虫的基本概念 2Fiddler简介 3网页信息简介 4读取网页三种方法 5正则表达式回顾 6抓取智联招聘 7抓取51job 8作业 Python爬虫实战学习day2 1response网络详细信息 2agent代{过}{滤}...

    python爬虫,简陋的pixabay图片下载器

    python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay图片下载器python爬虫,简陋的pixabay...

    Python爬虫教程文档

    Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档...

    Python爬虫小案例

    python爬虫案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫...

    Python爬虫

    Python爬虫是编程领域中一个重要的知识点,尤其在数据挖掘和信息分析中广泛应用。本项目主要涉及了Python语言、网络爬虫技术、HTML解析库BeautifulSoup以及数据库管理系统MySQL。 首先,Python作为一门强大的脚本...

    python爬虫20个案例

    讲诉python爬虫的20个案例 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

    python爬虫课件+代码.zip

    Python爬虫技术是一种用于自动化网络数据获取的编程技术,它在大数据分析、网站维护、市场研究等领域具有广泛应用。本课程由“路飞学城樵夫”老师指导,通过实际操作帮助学习者掌握Python爬虫的基本原理和实战技巧。...

    python爬虫从入门到精通(模块)

    1. Python爬虫简介 2. Requests库的使用 3. Beautiful Soup库的使用 4. 爬虫实战:爬取百度首页 ## 进阶篇 1. Scrapy框架的使用 2. 数据存储与处理 3. 爬虫实战:爬取豆瓣电影Top250 ## 高级篇 1. Selenium与...

    Python爬虫:爬取网页内容

    python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例...

    python爬虫数据可视化分析

    Python爬虫数据可视化分析大作业,python爬取猫眼评论数据,并做可视化分析。 python爬虫数据可视化分析大作业 python爬虫,并将数据进行可视化分析,数据可视化包含饼图、柱状图、漏斗图、词云、另附源代码和报告书...

    81个Python爬虫源代码

    81个Python爬虫源代码,内容包含新闻、视频、中介、招聘、图片资源等网站的爬虫资源

    python爬虫.pdf

    Python爬虫技术详解 Python爬虫是指使用Python语言编写的网络爬虫程序,它可以自动地从互联网上抓取数据,并对其进行处理和分析。Python爬虫技术广泛应用于数据挖掘、机器学习、自然语言处理等领域。 Requests库...

    python爬虫代码源码.rar

    python爬虫程序可用于收集数据。这也是最直接和最常用的方法。由于爬虫程序是一个程序,程序运行得非常快,不会因为重复的事情而感到疲倦,因此使用爬虫程序获取大量数据变得非常简单和快速。 由于99%以上的网站是...

Global site tag (gtag.js) - Google Analytics