豆瓣的架构—专访豆瓣网站的技术总监洪强宁
“你要是愿意,就买一枝三块钱的玫瑰,送给我吧,这城市也是怪让人伤心的,我想死心塌地的爱上你”
这是一个叫钟童茜的歌手的歌,我在豆瓣网站发现有人评论,才知道了这首有些凄凉的歌曲。你几乎不可能从百度的最流行的mp3的列表中找到它,因为它不是那么有名,也许是这个原因,引发了我采访豆瓣的愿望。接受我采访的是,豆瓣网站的技术总监洪强宁先生和产品经理张贝宁女士。
本刊记者:好,现在开始,豆瓣是一个非常著名的Web2.0网站,你们的开发语言选择的是Python,我想问的是,为什么选择Python?
洪强宁:我们选择Python的理由是它是动态语言,具有动态语言的优点,比如开发特别迅速。我们做的是一个Web2.0的网站,这种网站的特点就是always beta,用户的需求在随时发生变化,我们也不断发现新的价值。所以网站的结构和程序会不断变化,如果用Java做,你的开发量比较大,你就难以做出迅速地改变。Python的特点就是开发迅速,你可以在一两个小时,就做出一个功能。或者说已¾¬上线了,用户反映需要某一功能,也可以比较快地做出来。
本刊记者:这就是TDD,敏捷开发的思路,和传统的方式有些不同。但是会有另一方面的问题,Python的程序员好找吗?在国内会Python的要比会Java程序员少的多。
洪强宁:对,确实是。在中国用Python的人确实不多,也给我们寻找开发任何人员带来困难。不过从另一方面说,也有好处,因为没有一个学校去教Python,会Python的人都是自己学的,也就是说他知道自己需要什么技术,而且能够通过自学掌握它,包括Python的资料中文比较少,需要学习者接触第一手资料,这都使得Python程序员的平均水平,要比使用其他热门语言的平均水平要高。另一方面Python也越来越流行,在国外比较流行的动态语言有Perl,和Python,现在Python已经超过了Perl。
本刊记者:不过,在Web开发这方面有许多选择,比如,Java,.NET,和PHP,在这个格局里Python还是比较弱势。
洪强宁:对,当然,它是新兴语言。在未来,我相信,至少在在Web2.0网站开发方面,它会有自己的一个位置。
本刊记者:还有问一个问题,Python与Perl比较怎么样?因为Python的面向对象的特性好一些,代码看起来更容易理解一些吧,我以前是用 Perl写程序的,觉得Perl的程序代码看起来比较乱。
洪强宁:对,Perl 是write once风格的,一个人写完了,过一段时间,可能自己都不能看懂,它确实很强大,但比较适合当作个人工具使用,不太适合团队的开发。Python的哲学是解决问题的最好方式只有一种,这样同样的功能,每个人写出来的程序样子应该差不太多,比较易于理解,更适合团队开发。
本刊记者:还有一个问题,,有一种说法,认为Python比较慢,在性能方面会不会有问题?
洪强宁:这个问题可以分两个方面说,首先,说Python慢,这是和编译语言比,比如与C,C++,Java比,在动态语言中,它并不慢,它比Ruby要快,它和Perl性能相当。如果选择动态语言的话,Python并不是很慢。另一方面,如果做网站开发,语言的不是速度的瓶颈,比如我把我们现在用Python写的程序全部用C写,程序当然会快一点,但是改变不是很大。Web网站一般会有很多对IO的操作,比如对数据库的访问,对硬盘的访问响应用户的请求,80%,90%你的时间都花在IO上,语言的速度,相对而言,不是那么重要。也可以这样说,网站的性能主要取决于架构设计的是否合理。因为网站需要响应大量的并发的请求,如果你的设计的不好,即使你用C写的,也可能无法应付。所以更多的考虑是在架构设计上,要使架构体系不会产生速度瓶颈。
本刊记者:那您能简要地介绍一下豆瓣的架构吗?
洪强宁:关于豆瓣的系统架构图,首先我们在Web server上做个划分,把网站内容分为动态内容和静态内容。在豆瓣上所有的html都是动态内容,图片都是静态内容。分成两个Web 服务可以做不同的调优。 对动态内容,我们用的是nginx和lighttpd的混合,nginx做负载的平衡,lighttpd通过 SCGi 与application server相连,application server是基于 quixote这个框架写的。
application server拿到用户的请求,分析用户的url,并且利用外部的资源,比如数据库,组合成一个html,返回。从数据库存取会比较慢,数据库有大量的IO,我们使用cache,我们使用的是Memcached,这是一个分布式的内存的cache,比如你可以用很多机器,每个机器有两个G的内存,我们自己开发了client端来使用它,另外如果用户有搜索请求,我们会用搜索引擎。Xapian是一个C++写的开源的搜索引擎,我们通过Web service去访问它。其他,我们还提供了另外的Web service接口响应用户的请求,比如要访问某个文件。spread是我们最近加了一部分,用户有的请求可以采用这样的异步服务。
数据库是这样的,两个MySQL做成一对,一个master ,一个 slave,根据应用划分,使得load不会太高。这个图上»¬的是两对,实际上有三对。还有一个slave,一方面作为备份,一方面用作数据挖掘,因为不能对线上的数据做直接操作。
对于静态部分,我们也是用nginx,你注意到豆瓣现在有日记的贴图功能系统,用户可能上传很多图片,我们采用的方案是用了mogile FS ,这是一个分布式的文件系统,同时可以做备份,保持高可用性,可以提高很大的IO。
关于application server,它都是用Python写的。我们是用的MVC方式,Controller我们用的是quixote ,它接受用户的请求,根据这个URL去找到Model的某个具体的函数来执行,它是一个dispatcher,当中会判断用户的权限等。然后再传给View,View根据模版进行渲染,形成网页。View的模版,我们以前是用的是PTL,PTL很高效,最近引用了mako,这是一个比较现代的开源的模版,用它写出的代码比较好维护,比PTL好维护一些.。同时,在使用mako的同时,我们的工程师做了很多加速的工作,现在mako的代码有很多是豆瓣的人写的。
你如果注意过Python的Web开发框架的话,你会发现Python的有三个比较著名的框架,Django,Pylons,TurboGears,Pylons默认的模版就是Mako。
下面的就是Model,业务模块,核心是类是User,因为Web2.0是以人为本,我们肯定会有一个User。只有人也做不了事情,还要有物。豆瓣的物,就是Subject,比如书,比如评论,比如小组等。
与数据库进行链接,我们一个很轻量级的与数据库进行链接,这也是一个开源项目,SQL Farm Manager。这个Web service,豆瓣中有很多用的都是Web service。
本刊记者:好,还想问您一个问题,Web2.0会不会也在架构设计中也有所体现呢 ?
洪强宁: Web2.0用户的反复的操作非常多,你需要一个非常流畅的体现。这需要一些技术来实现,比如Ajax;豆瓣花了很多钱很多精力,来提高性能,比如买好的机器,使用Gentoo Linux,为什么使用Gentoo Linux,因为它方便调优。还有,大量的使用cache。在数据库调优方面,我们也花了很大的精力。
另一方面,Web 2,0是用户提供数据的,用户有很多写操作。这样很多1.0优化方法在2.0中行不通。豆瓣在数据库上用的是分库的方式。除此之外我们还尝试了一些其他的方法。
本刊记者:我现在想问张贝宁一个问题,您能否谈一下Web2.0社区网站和传统的社区网站的区别?比如天涯论坛,和豆瓣的区别。
张贝宁:先说一下Web 2.0 的概念,传统网站,用户到这些网站,只是看信息,这些信息是怎么来的呢,比如像Google,它是抓来的,或者像新浪这样的门户网站,是用户给你编好的。你到这样的网站,只是获取信息,你不能创造信息,也不能决定它放的位置。按照业界的理解,Web 2.0相对于Web 1.0,它是以用户为中心的,或者说是以用户创造内容为主,并且可以决定展现方式。你刚才说的传统的社区,在某种程度上,也可以说是2.0的,因为它也由用户提供内容。不过早期的BBS,网站以内容作分类,比如体育,军事,文学等。用户不能形成自己的分类。在豆瓣,用户可以对任何一个话题进行讨论,这完全是用户自主的。这还只是关系到豆瓣的小组的功能,如果拿天涯论坛和豆瓣做比较的话,豆瓣与天涯这样的BBS不同还在于,它首先有一个物的概念,比如书,音乐,和电影。
本刊记者:我也发现了这点。这样的组织方式,给人的感觉会非常不同。比如我们要查找对余华的小说《活着》的评论,在豆瓣就比较容易找到认真,有质量的评论。而在传统的BBS上,你只能用查找的方式,搜索“活着”这个词,找出的东西,也可能还不是谈论《活着》这本小说的,而只是其中的文本包含了“活着”这个词,而且有很多无意义的吵架帖。豆瓣的组织方式,让人感觉很严肃,雅气。不过,我也发现了一个或许有些不便的地方,比如,我要在讨论德里达的小组回帖,在一般的BBS可以匿名,或具有一个ID就行了,但在豆瓣,我要首先参加德里达这个小组。
张贝宁:对,是这样的。豆瓣更关心的是人群,就是对同一话题和事物有兴趣的人群,而不是帖子,这与传统的BBS确实有一些区别。
分享到:
相关推荐
技术总监洪强宁先生在采访中分享了豆瓣选择Python作为开发语言的原因及其背后的战略考量。Python以其动态语言的特性,如快速开发、敏捷适应用户需求变化,成为豆瓣构建Web2.0平台的理想选择。虽然Python在国内的使用...
【豆瓣网技术架构详解】 豆瓣网作为国内知名的社交与文化分享平台,其技术架构的设计与优化对于支撑海量用户的高并发访问至关重要。洪强宁,作为豆瓣的首席架构师,曾在2010年的QCon北京大会上分享了豆瓣网的技术...
在CTO俱乐部北京举办的第99期主题活动中,豆瓣的首席架构师洪强宁介绍了豆瓣的技术架构和自主研发的几个主要组件。通过这次分享,我们可以深入了解到豆瓣的技术构成和背后的技术策略。 首先,豆瓣的技术架构主要由...
仿地宝网分类信息,分类信息源码程序破解完整无错版,班班分类系统 JAVA上百实例源码以及开源项目 两例Eclipse不能启动Tomcat服务的处理过程 ...洪强宁谈豆瓣网技术架构 学习豆瓣网的技术架构发展历程
洪强宁可能阐述了豆瓣网从初创到成长过程中遇到的技术挑战,如何通过技术创新和架构优化应对高并发、大数据量和快速迭代的需求。这可能包括数据库设计、缓存策略、分布式计算和负载均衡等方面的内容,同时,他也可能...
大学生C语言程序设计(第四版 谭洪强)实验5答案.pdf大学生C语言程序设计(第四版 谭洪强)实验5答案.pdf大学生C语言程序设计(第四版 谭洪强)实验5答案.pdf大学生C语言程序设计(第四版 谭洪强)实验5答案.pdf大学生C语言...
大学生c语言程序设计(第四版谭洪强)实验5答案.pdf大学生c语言程序设计(第四版谭洪强)实验5答案.pdf大学生c语言程序设计(第四版谭洪强)实验5答案.pdf大学生c语言程序设计(第四版谭洪强)实验5答案.pdf大学生c语言程序...
### 汇编实现接口课程设计:小车动画移动 #### 1. 项目概述 本次课程设计的主要任务是利用汇编语言实现一个简单的字符动画,即...以上是关于汇编实现接口课程设计——小车动画移动项目的详细介绍和技术实现方案。
描述:本文档主要介绍了Python在Web2.0网站中的应用,通过洪强宁在QCon Beijing 2010的演讲,深入探讨了Python作为编程语言的优势,以及它如何在豆瓣等网站中扮演关键角色。 ### Python在Web2.0网站的应用分析 ###...
谭洪强的《大学生C语言程序设计》是学习C语言的经典教材之一,旨在帮助初学者掌握C语言的基本概念、语法和编程技巧。实验部分是理解和实践C语言的重要环节,以下将针对提供的实验内容进行详细解释。 实验四包含了四...
根据提供的文件信息,本文将对《大学生C语言程序设计(第四版谭洪强)》中的实验5答案进行详细的解析和知识点归纳。 ### C语言基础知识回顾 C语言是一种结构化编程语言,广泛应用于操作系统、嵌入式系统等领域。...
根据提供的文件信息,本文将对《大学生C语言程序设计(第四版 谭洪强)》中的实验5涉及的关键知识点进行详细的阐述。 ### C语言基础知识回顾 #### 1. C语言简介 C语言是一种结构化的高级编程语言,由Dennis ...
【大学生C语言程序设计实验6】涉及的知识点主要包括C语言的字符串处理、字符转换、条件判断、循环控制、数组操作以及基本的算法设计。以下是针对每个题目所涵盖的知识点的详细解析: 1. **字符串大小写转换** (sy6-...
【C语言程序设计基础】 C语言是计算机科学中一种广泛使用的编程语言,它以其简洁、高效和灵活性著称。在大学生C语言程序设计课程中,通常会通过一系列实验来帮助学生掌握基本概念和编程技巧。这里提到的实验4是关于...
讲义中提到的洪强宁是一位经验丰富的Python程序员,从2002年开始接触Python,到2004年已经完全使用Python进行工作。在QCon Beijing 2010会议上,他可能分享了关于Python及其在Web2.0网站应用方面的经验。 Python...