看推特上有人推荐豆瓣上一位
先生的日记,看了许久了,觉得果然不错。最近正好在玩Hpricot,便写了个小程序,把这位先生的个人日记全部爬了下来
require 'rubygems'
require 'hpricot'
require 'string'
require 'open-uri'
require 'fileutils'
def write_file(file_content,title)
path = "E:\\"
file_name = path+title+".txt"
file = File.open(file_name,"w+")
file.puts title
file.puts file_content
file.close
end
def get_content_and_title(target_url)
doc = Hpricot(open(target_url))
content = doc.search("pre.note")
title = doc.search("div.note-header")
write_file(content.inner_html.to_gbk,title.at("h3").inner_html.to_gbk)
end
def get_article_url(articles_url)
doc = Hpricot(open(articles_url))
ele = doc.search("div.article")
ele.each do |ab|
arr = ab.children
arr.each do |cd|
begin
attribute = cd.attributes['id']
rescue NoMethodError
end
if(not attribute.nil? and attribute.include? "note-")
det = attribute.split("-")
id = det[1]
url = "http://www.douban.com/note/"+id
get_content_and_title(url)
end
end
end
end
def get_pages(articles_url)
puts articles_url
doc = Hpricot(open(articles_url))
ele = doc.search("span.next")
get_article_url(articles_url)
next_page = ele.at("a")
while next_page
next_page_url = next_page.attributes["href"]
get_article_url(next_page_url)
get_pages(next_page_url)
end
end
get_article_url("http://www.douban.com/people/1272884/notes")
执行以上程序,可将风行水上先生的个人日记全部爬下来,每篇日记一个txt文件,可以慢慢品味。
我把这些文件打包传上来了,对代码不感兴趣但对文章感兴趣的同学可以看看
ps:本人是java党,所以代码写的像java一般还望大家见谅啊
分享到:
相关推荐
在标题“利用python爬取豆瓣音乐TOP250的数据----爬取的247首歌曲的网址”中,提到了使用Python进行网络爬虫来抓取豆瓣音乐TOP250的数据。这涉及到Python网络爬虫的基本概念和技术实现。 1. **Python网络爬虫简介**...
该项目是一个基于Scrapy框架的豆瓣音乐爬虫,用于爬取豆瓣音乐TOP250的音乐信息以及这些音乐的评论信息。爬虫分为两个部分: 豆瓣音乐信息爬虫 (douban_music_spider): 爬取豆瓣音乐TOP250的音乐的基本信息,并保存...
利用python爬取豆瓣音乐TOP250的数据----最终结果生成一个music.csv文件,里面包含247首歌曲的名称作者发行。如果有按照代码就不会出现空行和乱码的现象。
本教程将探讨如何利用动态IP池和cookie来爬取豆瓣网站上的影评数据,以实现更高效、稳定的数据抓取。 首先,我们需要了解动态IP池的概念。动态IP池是一个能够提供大量不同IP地址的系统,它在爬虫工作时可以频繁更换...
本项目关注的是爬取豆瓣电影TOP250的数据,这是一个非常实用的示例,因为豆瓣电影TOP250列出了最受欢迎和评分最高的电影,对于电影爱好者和研究人员来说具有很高价值。 首先,我们需要安装必要的Python库来实现这个...
通过以上步骤,我们可以实现一个基础的Python爬虫,爬取豆瓣音乐的相关信息,如歌曲名称、歌手、评分等。但要注意,爬虫技术的运用应当遵循合法、合规的原则,尊重网站的使用条款,同时不断提高爬虫的效率和灵活性,...
在爬取豆瓣电影Top250时,可以考虑使用API,但如果仅用于学习和小规模项目,直接爬取网页内容可能更灵活。不过,如果要进行大规模数据抓取,建议遵循豆瓣的API政策并申请认证。 3. **Python爬虫实现**: 使用`...
python 版本 3.6 入门级爬虫,爬取豆瓣读书,需要用到bs4、requests
基于python编写的爬取豆瓣排行榜top250的爬虫源码,直接运行就可以。基于python编写的爬取豆瓣排行榜top250的爬虫源码,直接运行就可以。基于python编写的爬取豆瓣排行榜top250的爬虫源码,直接运行就可以。
这份Python爬虫源代码是一份非常实用的学习资料,它可以帮助用户快速掌握爬取豆瓣排行榜电影数据的技能。该代码包含了GUI界面版,使得用户可以更加方便地进行操作和管理。 该代码使用了Python的requests库和...
在本项目中,我们主要探讨的是使用Python进行网络爬虫,目标是获取豆瓣电影Top250的数据,并将其存储到Excel表格中,同时下载相关的图片。这是一个初学者入门级的爬虫项目,对于想要了解Python爬虫基础的朋友来说...
爬取豆瓣电影标题数据-项目实战8-爬取豆瓣网页标题数据-ipynb格式-Python语法-用Jupyter notebook打开 用来练习网络爬虫爬取豆瓣网页TOP250电影标题加获取源代码,整个流程特别清晰,每个步骤均用markdown编辑器进行...
用 Python 爬取豆瓣电影分类排行榜并保存到本地excel文件 作者博客:https://blog.csdn.net/weixin_52132159 文章链接:https://blog.csdn.net/weixin_52132159/article/details/119505289
基于Python Scrapy实现的爬取豆瓣读书9分榜单的书籍数据采集爬虫系统 含数据集和全部源代码 # -*- coding: utf-8 -*- import scrapy import re from doubanbook.items import DoubanbookItem class DbbookSpider...
Python爬虫实例-爬取豆瓣Top250-保存为表格
用python实现爬取豆瓣top250的电影信息,运用了BeautifulSoup、正则表达式、urllib、 xlwt模块。代码简单易懂。有利于初学习学习。
python编译的爬取豆瓣图书的代码,粗糙但是能用,实现基本的原理,易于理解,为了凑足五十个字不容易
1、本爬虫是爬取豆瓣网站上的TOP 250 图书信息,相关网址:https://book.douban.com/top250 2、本爬虫用到的模块 有 requests,lxml,time 注: 本程序只作为业余学习,程序中,对于“IndexError: list index out of ...