- 浏览: 2652687 次
- 来自: 杭州
文章分类
- 全部博客 (1188)
- webwork (4)
- 网摘 (18)
- java (103)
- hibernate (1)
- Linux (85)
- 职业发展 (1)
- activeMQ (2)
- netty (14)
- svn (1)
- webx3 (12)
- mysql (81)
- css (1)
- HTML (6)
- apache (3)
- 测试 (2)
- javascript (1)
- 储存 (1)
- jvm (5)
- code (13)
- 多线程 (12)
- Spring (18)
- webxs (2)
- python (119)
- duitang (0)
- mongo (3)
- nosql (4)
- tomcat (4)
- memcached (20)
- 算法 (28)
- django (28)
- shell (1)
- 工作总结 (5)
- solr (42)
- beansdb (6)
- nginx (3)
- 性能 (30)
- 数据推荐 (1)
- maven (8)
- tonado (1)
- uwsgi (5)
- hessian (4)
- ibatis (3)
- Security (2)
- HTPP (1)
- gevent (6)
- 读书笔记 (1)
- Maxent (2)
- mogo (0)
- thread (3)
- 架构 (5)
- NIO (5)
- 正则 (1)
- lucene (5)
- feed (4)
- redis (17)
- TCP (6)
- test (0)
- python,code (1)
- PIL (3)
- guava (2)
- jython (4)
- httpclient (2)
- cache (3)
- signal (1)
- dubbo (7)
- HTTP (4)
- json (3)
- java socket (1)
- io (2)
- socket (22)
- hash (2)
- Cassandra (1)
- 分布式文件系统 (5)
- Dynamo (2)
- gc (8)
- scp (1)
- rsync (1)
- mecached (0)
- mongoDB (29)
- Thrift (1)
- scribe (2)
- 服务化 (3)
- 问题 (83)
- mat (1)
- classloader (2)
- javaBean (1)
- 文档集合 (27)
- 消息队列 (3)
- nginx,文档集合 (1)
- dboss (12)
- libevent (1)
- 读书 (0)
- 数学 (3)
- 流程 (0)
- HBase (34)
- 自动化测试 (1)
- ubuntu (2)
- 并发 (1)
- sping (1)
- 图形 (1)
- freemarker (1)
- jdbc (3)
- dbcp (0)
- sharding (1)
- 性能测试 (1)
- 设计模式 (2)
- unicode (1)
- OceanBase (3)
- jmagick (1)
- gunicorn (1)
- url (1)
- form (1)
- 安全 (2)
- nlp (8)
- libmemcached (1)
- 规则引擎 (1)
- awk (2)
- 服务器 (1)
- snmpd (1)
- btrace (1)
- 代码 (1)
- cygwin (1)
- mahout (3)
- 电子书 (1)
- 机器学习 (5)
- 数据挖掘 (1)
- nltk (6)
- pool (1)
- log4j (2)
- 总结 (11)
- c++ (1)
- java源代码 (1)
- ocr (1)
- 基础算法 (3)
- SA (1)
- 笔记 (1)
- ml (4)
- zokeeper (0)
- jms (1)
- zookeeper (5)
- zkclient (1)
- hadoop (13)
- mq (2)
- git (9)
- 问题,io (1)
- storm (11)
- zk (1)
- 性能优化 (2)
- example (1)
- tmux (1)
- 环境 (2)
- kyro (1)
- 日志系统 (3)
- hdfs (2)
- python_socket (2)
- date (2)
- elasticsearch (1)
- jetty (1)
- 树 (1)
- 汽车 (1)
- mdrill (1)
- 车 (1)
- 日志 (1)
- web (1)
- 编译原理 (1)
- 信息检索 (1)
- 性能,linux (1)
- spam (1)
- 序列化 (1)
- fabric (2)
- guice (1)
- disruptor (1)
- executor (1)
- logback (2)
- 开源 (1)
- 设计 (1)
- 监控 (3)
- english (1)
- 问题记录 (1)
- Bitmap (1)
- 云计算 (1)
- 问题排查 (1)
- highchat (1)
- mac (3)
- docker (1)
- jdk (1)
- 表达式 (1)
- 网络 (1)
- 时间管理 (1)
- 时间序列 (1)
- OLAP (1)
- Big Table (0)
- sql (1)
- kafka (1)
- md5 (1)
- springboot (1)
- spring security (1)
- Spring Boot (3)
- mybatis (1)
- java8 (1)
- 分布式事务 (1)
- 限流 (1)
- Shadowsocks (0)
- 2018 (1)
- 服务治理 (1)
- 设计原则 (1)
- log (0)
- perftools (1)
最新评论
-
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介 -
107x:
不错,谢谢!
Python机器学习库
豆瓣(douban)数据储存实践
s5:
mysql> show status like '%Aborted_clients%';
+-----------------+-------+
| Variable_name | Value |
+-----------------+-------+
| Aborted_clients | 40970 |
+-----------------+-------+
1 row in set (0.00 sec)
mysql> show status like '%Threads_created%';
+-----------------+---------+
| Variable_name | Value |
+-----------------+---------+
| Threads_created | 1503885 |
+-----------------+---------+
1 row in set (0.00 sec)
python于web2.0网站的应用 : http://www.beijing-open-party.org/topic/5
见附件:
- 豆瓣数据存储实践_.pdf (3.4 MB)
- 下载次数: 6
- Inside_BeansDB.pdf (2.1 MB)
- 下载次数: 6
- HungQiangning.pdf (4.2 MB)
- 描述: Python在豆瓣的应用
- 下载次数: 5
相关推荐
《豆瓣电影数据集10万.zip》是一个包含丰富电影信息的数据资源,主要由四个文件组成:use_10.csv、movie_10.csv、douban.db和Crawler program.py。这个数据集提供了大约10万条电影的相关信息,包括用户数据、电影...
标题 "douban_flask_pythonflask豆瓣_python_" 暗示了这是一个使用 Python 的 Flask 框架来实现的项目,目标是爬取并处理豆瓣电影Top250的数据。Flask是一个轻量级的Web服务程序,适合用于构建小型到中型的Web应用。...
在本项目"基于Python对豆瓣电影数据爬虫的设计与实现"中,我们将深入探讨如何利用Python编程语言构建一个网络爬虫来抓取豆瓣电影网站上的数据。爬虫是自动化提取大量网页信息的一种工具,对于数据分析、研究或者内容...
该压缩包文件“DouBanMovieTop250.rar”包含了豆瓣Top250电影数据的可视化项目的完整代码,这是一个非常适合初学者了解Python爬虫和Flask框架的应用实例。接下来,我们将详细探讨这两个关键技术点。 首先,让我们从...
豆瓣API,全称为Douban API,是豆瓣网对外开放的一系列接口,允许开发者通过这些接口获取到豆瓣平台上的各种数据,如图书、电影、音乐等资源的信息,以便进行二次开发和创新应用。在这个基于豆瓣API的Android实践...
标题 "Python-导出豆瓣个人数据为Excel文件的线上服务" 涉及到的知识点主要是使用Python编程语言处理和分析个人在豆瓣平台上的数据,并将其导出为易于管理和分析的Excel格式。以下是对这个主题的详细阐述: 1. ...
在这个特定的案例中,爬虫被用来自动化地收集豆瓣图书页面的数据,生成了XML文件,这是一种结构化数据存储格式,用于方便数据交换和处理。 描述中提到“此压缩包里文件为xml”,这暗示了文件的内容是以XML...
【标题】:基于Django的豆瓣电影数据可视化系统 该系统是使用Python的...通过这个项目,开发者不仅可以掌握Django Web开发的基本流程,还能深入了解数据分析和数据可视化的实践,是一次综合运用Python技术的好机会。
在这个项目中,我们将使用Scrapy来抓取豆瓣读书(Douban Books)上的书籍信息,并将其存储到本地数据库中。这个过程涉及多个步骤,包括设置Scrapy项目、定义爬虫、解析网页内容、处理请求和响应,以及将数据存入...
7. **数据库管理**:为了存储大量抓取的豆瓣电影数据,可能需要用到数据库管理系统,如 SQLite、MySQL 或 PostgreSQL。Python 提供了如 `sqlite3`、`pymysql` 等库与这些数据库进行交互。 8. **版本控制**:考虑到...
本项目“wxApp-douban-api-movie-master.zip”则聚焦于利用豆瓣电影API来创建一个功能完善的电影信息查询小程序,让用户能够便捷地获取并浏览电影相关数据。以下将详细介绍该小程序的设计理念、核心技术和实现过程。...
10. **数据存储**:爬取的短评数据可能被存储在文本文件、CSV文件或者数据库中,以便于后续分析和处理。 综上所述,这个项目涵盖了Python编程、网络爬虫技术、HTML解析、数据预处理、中文分词、词频统计、词云可视...
5. **展示或存储数据**:最后,你可以将获取到的书籍信息展示在网页上,或者存储在数据库中,以便后续使用。 在压缩包文件`BookAPI`中,可能包含了一些示例代码或教程,演示如何进行上述步骤。学习这些内容可以帮助...
该项目是关于创建一个网络爬虫来抓取豆瓣(Douban)网站上的Top250电影列表,并将抓取的数据进一步用于数据可视化Web应用。这是一个典型的结合了数据获取、数据分析和前端展示的综合实践项目,涉及到的技术栈主要...
【标题】"douban基于vue全家桶的精致豆瓣DEMO"揭示了这是一个使用Vue.js框架及其相关组件库实现的豆瓣(Douban)网站的示例项目。Vue.js,通常称为“Vue全家桶”,指的是Vue.js核心库以及与其配套使用的各种工具和库,...
总之,“douban_codes_爬虫python_爬虫_数据电影_”是一个结合了Python爬虫技术和数据分析实践的项目,涵盖了网络请求、HTML解析、数据存储等多个环节,对于提升对Python爬虫的理解和应用能力大有裨益。通过实际操作...
本项目“基于mpvue实现的豆瓣电影微信小程序mpvue-douban-master.zip”正是这样一个实例,它利用了mpvue框架,帮助开发者高效地构建微信小程序,实现与豆瓣电影API的对接,提供电影信息查询、评分展示等功能。...
在本项目中,我们主要探讨如何使用Python编程语言来爬取豆瓣(Douban)和互联网电影数据库(IMDb)的电影数据。这两个网站都提供了丰富的电影信息,包括电影名称、导演、主演、上映日期、电影类型、评分以及评论人数...
在本项目中,我们主要...总的来说,这个项目涵盖了Python爬虫的基础知识,包括Scrapy框架的使用、网络请求与数据解析、数据存储到MySQL数据库等,对于想要学习网络爬虫和数据分析的初学者来说,是一个很好的实践案例。