requests爬取猫眼电影top100 - 互联网思维 - ITeye博客

`

李明码农

浏览: 77316 次
性别:
来自: 郑州

最近访客更多访客>>

qq54903099

zllhit

solzzzzz

ynn547

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

requests爬取猫眼电影top100

博客分类：

python

阅读更多

import requests
from requests.exceptions import RequestException
import re
import json
from multiprocessing import Pool
def page_one_html(url):
    try:
        response = requests.get(url);
        if response.status_code == 200:
            return response.text
        else:
            return None
    except RequestException:
        return None

def parse_page_html(content):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?title="(.*?)".*?data-src="(.*?)".*?'
                         +'star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>'
                         +'.*?</dd>',re.S)
    items = re.findall(pattern,content)
    #print(items)
    for item in items:
        yield{
            "index":item[0],
            "title": item[1],
            "image":item[2],
            "actor":item[3].strip()[3:],
            "createTime":item[4].strip()[4:],
            "score":str(item[5])+str(item[6])
        }

def write_text(item):
    with open("result.txt","a",encoding="utf-8") as f:
        f.write(json.dumps(item,ensure_ascii=False) + "\n")
        f.close()


def main(offset):
    url = "http://maoyan.com/board/4?offset="+str(offset)
    html = page_one_html(url)
    #print(html)
    for item in parse_page_html(html):
        write_text(item)

if __name__=="__main__":
     pool = Pool()
     pool.map(main,[i*10 for i in range(10)])

from requests.exceptions import RequestException 异常处理很重要

import re

import json

from multiprocessing import Pool 线程池下线搜搜的

分享到：

阿里云python2.6.6 升级到python3.5 | 阿里centos mongodb最完成的攻略

2018-01-28 21:51
浏览 635
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

爬取猫眼电影的排行榜前100名: 在本项目中，我们主要探讨了如何爬取猫眼电影网站的排行榜前100名的数据，这是一个典型的网络爬虫实战案例。在这个过程中，我们没有使用像Scrapy这样的高级爬虫框架，而是选择了更为基础的方法，即利用requests库...

requests+正则表达式爬取猫眼电影TOP100 代码.txt: requests+正则表达式爬取猫眼电影TOP100 代码.txt

re+requests爬取猫眼电影排行: 利用python3的requests请求库和re正则表达式模块，爬取猫眼电影排行，并存储到MySQL数据库中。

Python爬取猫眼电影TOP100: Requests，正则表达式爬取猫眼电影TOP100，并将结果写入TXT文档中

Python爬取电影榜单Top100并保存csv文件（附源码下载）: 项目功能：使用Python爬取Top100电影榜单数据并保存csv文件，需要的小伙伴们下载源码做参考即可。开发工具 Python版本： 3.6 相关模块： requests模块、time模块、parsel模块、csv模块。操作：浏览器中打开...

Python-使用正则表达式和requests抓取猫眼TOP100的电影信息: 总结，通过Python的requests库和正则表达式，我们可以实现对猫眼电影Top100的抓取。然而，对于更复杂的情况，建议使用如BeautifulSoup、Scrapy等专门的Web爬虫框架。在进行网络爬虫时，一定要遵守道德规范，尊重网站...

python正则表达式爬取猫眼电影top100: 用正则表达式爬取猫眼电影top100，具体内容如下 #!/usr/bin/python # -*- coding: utf-8 -*- import json # 快速导入此模块：鼠标先点到要导入的函数处，再Alt + Enter进行选择 from multiprocessing.pool import...

SpiderMan：爬虫项目：爬取猫眼top100，淘宝美食，微信文章，ip代理池实现，scrapy入门: 爬取猫眼top100电影简述：利用requests和简单的正则表达式进行数据的爬取，并利用multiprocessing.Pool线程池加快速度爬取头条街拍图片简述：利用requests的session特性进行爬取，同时添加headers防止网站反爬...

python 抓取猫眼电影排行: 提取猫眼电影Top100电影名称、时间、评分、图片等信息，提取的结构会以文件形式保存下来使用到 requests页面请求 pyquery源码解析 file文件读写 json数据格式化

python爬虫_爬虫_python_51job_perhapsl6z_python爬虫_: 描述中的"python爬虫应用，爬取猫眼电影TOP100"说明了项目的一部分内容是爬取猫眼电影网站的热门电影列表。这涉及到HTML解析、请求库如requests的使用以及数据提取库如BeautifulSoup或PyQuery的掌握。通过爬取猫眼...

爬猫眼网站TOP100的电影数据,把抓取到的数据写入本地文件和mysql数据库,从数据库表-Maoyan_Top.zip: 在这个项目中，我们针对猫眼电影网站（Maoyan）的TOP100电影数据进行了爬取。这可能涉及到使用Python的requests库来发送HTTP请求获取网页内容，然后使用BeautifulSoup或Scrapy等解析库来解析HTML，提取出电影的名称...

爬虫实现电影榜单、评论、下载链接等信息的爬取，另编写了简单的界面: 该压缩包文件包含了一个关于电影信息爬取的项目，通过爬虫技术实现了对猫眼电影100榜的抓取，以及对电影评论、评分、演员信息和下载链接的检索。这个工具还配备了一个简单的用户界面，使得用户可以通过eastgui进行...

猫眼-TOP.zip: 【猫眼-TOP.zip】是一个基于Python实现的爬虫项目，主要目的是抓取并分析猫眼电影平台上的数据。这个项目包含以下关键知识点： 1. **Python基础**：Python是这个项目的基础语言，它以其简洁易读的语法和丰富的第三...

Python爬虫开发教程及资源汇总: 如爬虫基本流程、动态网页处理等，还介绍了requests、BeautifulSoup、Selenium和Scrapy等常见开发库，以及具体案例，如豆瓣电影Top250、猫眼电影Top100和全国高校名单爬取。此外，提及其他资源平台如GitHub和Stack ...

Python爬虫技术全解:基础库、高级框架与实战案例: 内容概要：本文详细介绍了Python爬虫技术的相关资源，包括基础库（如requests、urllib、BeautifulSoup）、高级框架（如Scrapy、Selenium、Pyppeteer）和实战案例（如爬取豆瓣Top250、猫眼Top100电影信息）。...

Python爬虫运用正则表达式的方法和优缺点: 在上述示例中，使用正则表达式爬取猫眼电影Top100榜单中电影封面图的方法是： 1. 查看页面元素找到包含图片路径的代码段落。 2. 分析图片在web上的唯一属性。 3. 观察多个页面的URL变化，以便处理翻页情况。 4. 编写...

笔记整理——Python爬虫（三）：基本概念及常用基本方法: 在实际应用中，可以结合以上知识点编写爬虫，例如爬取百度贴吧的数据或者猫眼电影的top100列表，通过请求模块获取HTML，然后利用正则表达式解析所需信息，最终存储到本地或数据库。在编写爬虫时，还需要考虑反爬机制...

Global site tag (gtag.js) - Google Analytics