Technorati (现在被阻尼了, 可能你访问不了)的 Dorion Carroll在 2006 MySQL 用户会议上介绍了一些关于 Technorati 后台数据库架构的情况.
基本情况
目前处理着大约 10Tb 核心数据, 分布在大约 20 台机器上.通过复制, 多增加了 100Tb 数据, 分布在 200 台机器上. 每天增长的数据 1TB. 通过 SOA 的运用, 物理与逻辑的访问相隔离, 似乎消除了数据库的瓶颈. 值得一提的是, 该扩展过程始终是利用普通的硬件与开源软件来完成的. 毕竟 , Web 2.0 站点都不是烧钱的主. 从数据量来看,这绝对是一个相对比较大的 Web 2.0 应用.
Tag 是 Technorati 最为重要的数据元素. 爆炸性的 Tag 增长给 Technorati 带来了不小的挑战.
2005 年 1 月的时候, 只有两台数据库服务器, 一主一从. 到了 06 年一月份, 已经是一主一从, 6 台 MyISAM 从数据库用来对付查询, 3 台 MyISAM 用作异步计算.
一些核心的处理方法:
1) 根据实体(tags/posttags))进行分区
衡量数据访问方法,读和写的平衡.然后通过不同的维度进行分区.( Technorati 数据更新不会很多, 否则会成为数据库灾难)
2) 合理利用 InnoDB 与 MyISAM
InnoDB 用于数据完整性/写性能要求比较高的应用. MyISAM 适合进行 OLAP 运算. 物尽其用.
3) MySQL 复制
复制数据到从主数据库到辅数据库上,平衡分布查询与异步计算, 另外一个功能是提供冗余. 如图:
- 浏览: 1610355 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (1585)
- Http Web (18)
- Java (194)
- 操作系统 (2)
- 算法 (30)
- 计算机 (45)
- 程序 (2)
- 性能 (50)
- php (45)
- 测试 (12)
- 服务器 (14)
- Linux (42)
- 数据库 (14)
- 管理 (9)
- 网络 (3)
- 架构 (83)
- 安全 (2)
- 数据挖掘 (16)
- 分析 (9)
- 数据结构 (2)
- 互联网 (6)
- 网络安全 (1)
- 框架 (9)
- 视频 (2)
- 计算机,SEO (3)
- 搜索引擎 (31)
- SEO (18)
- UML (1)
- 工具使用 (2)
- Maven (41)
- 其他 (7)
- 面向对象 (5)
- 反射 (1)
- 设计模式 (6)
- 内存数据库 (2)
- NoSql (9)
- 缓存 (7)
- shell (9)
- IQ (1)
- 源码 (1)
- Js (23)
- HttpClient (2)
- excel (1)
- Spring (7)
- 调试 (4)
- mysql (18)
- Ajax (3)
- JQuery (9)
- Comet (1)
- 英文 (1)
- C# (1)
- HTML5 (3)
- Socket (2)
- 养生 (1)
- 原理 (2)
- 倒排索引 (4)
- 海量数据处理 (1)
- C (2)
- Git (59)
- SQL (3)
- LAMP (1)
- 优化 (2)
- Mongodb (20)
- JMS (1)
- Json (15)
- 定位 (2)
- Google地图 (1)
- memcached (10)
- 压测 (4)
- php.性能优化 (1)
- 励志 (1)
- Python (7)
- 排序 (3)
- 数学 (3)
- 投票算法 (2)
- 学习 (1)
- 跨站攻击 (1)
- 前端 (8)
- SuperFish (1)
- CSS (2)
- 评论挖掘分析 (1)
- Google (13)
- 关键词分析 (1)
- 地图 (1)
- Gzip (1)
- 压缩 (1)
- 爬虫 (13)
- 流量统计 (1)
- 采集 (1)
- 日志分析 (2)
- 浏览器兼容 (1)
- 图片搜索引擎技术 (2)
- 空间 (1)
- 用户体验 (7)
- 免费空间 (1)
- 社交 (2)
- 图片处理 (2)
- 前端工具 (1)
- 商业 (3)
- 淘宝 (3)
- 站内搜索 (1)
- 网站收藏 (1)
- 理论 (1)
- 数据仓库 (2)
- 抓包 (1)
- Hadoop (105)
- 大数据 (6)
- Lucene (34)
- Solr (31)
- Drupal (1)
- 集群 (2)
- Lu (2)
- Mac (4)
- 索引 (9)
- Session共享 (1)
- sorl (10)
- JVM (9)
- 编码 (1)
- taobao (14)
- TCP/IP (4)
- 你可能會感興趣 (3)
- 幽默笑话 (7)
- 服务器整合 (1)
- Nginx (9)
- SorlCloud (4)
- 分佈式搜索 (1)
- ElasticSearch (30)
- 網絡安全 (1)
- MapReduce (8)
- 相似度 (1)
- 數學 (1)
- Session (3)
- 依賴注入 (11)
- Nutch (8)
- 云计算 (6)
- 虚拟化 (3)
- 财务自由 (1)
- 开源 (23)
- Guice (1)
- 推荐系统 (2)
- 人工智能 (1)
- 环境 (2)
- Ucenter (1)
- Memcached-session-manager (1)
- Storm (54)
- wine (1)
- Ubuntu (23)
- Hbase (44)
- Google App Engine (1)
- 短信 (2)
- 矩阵 (1)
- MetaQ (34)
- GitHub &Git &私/公有库 (8)
- Zookeeper (28)
- Exception (24)
- 商务 (1)
- drcp (1)
- 加密&解密 (1)
- 代码自动生成 (1)
- rapid-framework (1)
- 二次开发 (1)
- Facebook (3)
- EhCache (1)
- OceanBase (1)
- Netlog (1)
- 大数据量 (2)
- 分布式 (3)
- 事物 (2)
- 事务 (2)
- JPA (2)
- 通讯 (1)
- math (1)
- Setting.xml (3)
- 络驱动器 (1)
- 挂载 (1)
- 代理 (0)
- 日本語の (1)
- 花生壳 (7)
- Windows (1)
- AWS (2)
- RPC (11)
- jar (2)
- 金融 (1)
- MongDB (2)
- Cygwin (1)
- Distribute (1)
- Cache (1)
- Gora (1)
- Spark (31)
- 内存计算 (1)
- Pig (2)
- Hive (21)
- Mahout (17)
- 机器学习 (34)
- Sqoop (1)
- ssh (1)
- Jstack (2)
- Business (1)
- MapReduce.Hadoop (1)
- monitor (1)
- Vi (1)
- 高并发 (6)
- 海量数据 (2)
- Yslow (4)
- Slf4j (1)
- Log4j (1)
- Unix (3)
- twitter (2)
- yotube (0)
- Map-Reduce (2)
- Streaming (1)
- VMware (1)
- 物联网 (1)
- YUI (1)
- LazyLoad (1)
- RocketMQ (17)
- WiKi (1)
- MQ (1)
- RabbitMQ (2)
- kafka (3)
- SSO (8)
- 单点登录 (2)
- Hash (4)
- Redis (20)
- Memcache (2)
- Jmeter (1)
- Tsung (1)
- ZeroMQ (1)
- 通信 (7)
- 开源日志分析 (1)
- HDFS (1)
- zero-copy (1)
- Zero Copy (1)
- Weka (1)
- I/O (1)
- NIO (13)
- 锁 (3)
- 创业 (11)
- 线程池 (1)
- 投资 (3)
- 池化技术 (4)
- 集合 (1)
- Mina (1)
- JSMVC (1)
- Powerdesigner (1)
- thrift (6)
- 性能,架构 (0)
- Web (3)
- Enum (1)
- Spring MVC (15)
- 拦截器 (1)
- Web前端 (1)
- 多线程 (1)
- Jetty (1)
- emacs (1)
- Cookie (2)
- 工具 (1)
- 分布式消息队列 (1)
- 项目管理 (2)
- github (21)
- 网盘 (1)
- 仓库 (3)
- Dropbox (2)
- Tsar (1)
- 监控 (3)
- Argo (2)
- Atmosphere (1)
- WebSocket (5)
- Node.js (6)
- Kraken (1)
- Cassandra (3)
- Voldemort (1)
- VoltDB (2)
- Netflix (2)
- Hystrix (1)
- 心理 (1)
- 用户分析 (1)
- 用户行为分析 (1)
- JFinal (1)
- J2EE (1)
- Lua (2)
- Velocity (1)
- Tomcat (3)
- 负载均衡 (1)
- Rest (2)
- SerfJ (1)
- Rest.li (1)
- KrakenJS (1)
- Web框架 (1)
- Jsp (2)
- 布局 (2)
- NowJs (1)
- WebSoket (1)
- MRUnit (1)
- CouchDB (1)
- Hiibari (1)
- Tiger (1)
- Ebot (1)
- 分布式爬虫 (1)
- Sphinx (1)
- Luke (1)
- Solandra (1)
- 搜素引擎 (1)
- mysqlcft (1)
- IndexTank (1)
- Erlang (1)
- BeansDB (3)
- Bitcask (2)
- Riak (2)
- Bitbucket (4)
- Bitbuket (1)
- Tokyo Cabinet (2)
- TokyoCabinet (2)
- Tokyokyrant (1)
- Tokyo Tyrant (1)
- Memcached协议 (1)
- Jcrop (1)
- Thead (1)
- 详设 (1)
- 问答 (2)
- ROM (1)
- 计算 (1)
- epoll (2)
- libevent (1)
- BTrace (3)
- cpu (2)
- mem (1)
- Java模板引擎 (1)
- 有趣 (1)
- Htools (1)
- linu (1)
- node (3)
- 虚拟主机 (1)
- 闭包 (1)
- 线程 (1)
- 阻塞 (1)
- LMAX (2)
- Jdon (1)
- 乐观锁 (1)
- Disruptor (9)
- 并发 (6)
- 为共享 (1)
- volatile (1)
- 伪共享 (1)
- Ringbuffer (5)
- i18n (2)
- rsync (1)
- 部署 (1)
- 压力测试 (1)
- ORM (2)
- N+1 (1)
- Http (1)
- web开发脚手架 (1)
- Mybatis (1)
- 国际化 (2)
- Spring data (1)
- R (4)
- 网络爬虫 (1)
- 条形码 (1)
- 等比例缩放 (1)
- java,面向接口 (1)
- 编程规范 (1)
- CAP (1)
- 论文 (1)
- 大数据处理 (1)
- Controller (3)
- CDN (2)
- 程序员 (1)
- Spring Boot (3)
- sar (1)
- 博弈论 (1)
- 经济 (1)
- Scrapy (1)
- Twistedm (1)
- cron (1)
- quartz (1)
- Debug (1)
- AVO (1)
- 跨语言 (1)
- 中间服务 (2)
- Dubbo (4)
- Yarn (1)
- Spring OSGI (1)
- bundle (1)
- OSGI (1)
- Spring-Boot (1)
- CA证书 (1)
- SSL (1)
- CAS (7)
- FusionCharts (5)
- 存储过程 (3)
- 日志 (2)
- OOP (2)
- CentOS (5)
- JSONP (2)
- 跨域 (5)
- P3P (1)
- Java Cas (1)
- CentOS 6.5 Released – Installation Guide with Screenshots (1)
- Android (1)
- 队列 (2)
- Multitail (1)
- Maout (1)
- nohup (1)
- AOP (1)
- 长连接 (3)
- 轮循 (2)
- 聊天室 (1)
- Zeus (1)
- LSM-Tree (1)
- Slope One (1)
- 协同过滤 (1)
- 服务中间件 (1)
- KeyMeans (1)
- Bitmap (1)
- 实时统计 (1)
- B-Tree+ (1)
- PageRank (1)
- 性能分析 (1)
- 性能测试 (1)
- CDH (10)
- 迭代计算 (1)
- Jubatus (1)
- Hadoop家族 (8)
- Cloudera (2)
- RHadoop (1)
- 广告定价 (1)
- 广告系统 (9)
- 广告系统,架构 (1)
- Tag推荐算法 (1)
- 相似度算法 (1)
- 页面重构 (2)
- 高性能 (6)
- Maven3 (3)
- Gradle (11)
- Apache (1)
- Java并发 (1)
- Java多进程 (1)
- Rails (1)
- Ruby (3)
- 系统架构 (1)
- 运维 (36)
- 网页设计 (1)
- TFS (0)
- 推荐引擎 (0)
- Tag提取算法 (1)
- 概率统计 (1)
- 自然语言处理 (2)
- 分词 (1)
- Ruby.Python (1)
- 语义相似度 (0)
- Chukwa (0)
- 日志收集系统 (0)
- Data Mining (4)
- 开放Api (1)
- Scala (28)
- Ganglia (2)
- mmap (1)
- 贝叶斯分类 (1)
- 运营 (1)
- Mdrill (1)
- Lambda (2)
- Netty (5)
- Java8 (1)
- Solr4 (1)
- Akka (12)
- 计算广告 (2)
- 聊天系统 (1)
- 服务发现 (1)
- 统计指标 (1)
- NLP (1)
- 深度学习 (0)
最新评论
-
wahahachuang5:
web实时推送技术使用越来越广泛,但是自己开发又太麻烦了,我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用 -
秦时明月黑:
Jetty 服务器架构分析 -
chenghaitao111111:
楼主什么时候把gecko源码分析一下呢,期待
MetaQ技术内幕——源码分析(转) -
qqggcc:
为什么还要写代码啊,如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote) -
yongdi2:
好厉害!求打包代码
Hadoop日志文件分析系统
发表评论
-
邻接表无向图---C语言
2016-08-26 16:06 976邻接表无向图的介绍 邻接表无向图是指通过邻接表表示的无向图 ... -
Dubbo分析一
2016-05-09 18:23 407Dubbo的总体架构如下图所示: 节点角色说 ... -
即时通信聊天工具的原理与设计
2015-03-13 15:11 745该软件采用P2P方式,各个客户端之间直接发消息进行会话聊天 ... -
从模拟真实世界中理解软件设计原则
2015-03-12 10:17 765软件设计原理的理论在大多数学生眼里既枯燥又乏味——那是因为他 ... -
架构师必读:淘宝网采用什么技术架构来实现网站高负载的
2014-06-18 12:22 819<iframe style=&qu ... -
97条架构师须知
2014-07-02 09:27 72197条架构师须知原载:http://architect.9 ... -
高性能web开发技术(一)
2014-05-05 09:22 7511. 数据库访问性能优 ... -
网站的高性能架构
2014-04-08 17:35 893什么叫高性能的网站 ... -
互联网系统架构的演进
2014-04-08 17:36 508多终端接入、开放平 ... -
MySQL索引背后的数据结构及算法原理
2014-04-04 09:40 963摘要 本文以MySQL数据库为研究对象,讨论与数据库索引 ... -
天猫浏览型应用的CDN静态化架构演变(转)
2014-03-26 09:57 1142在天猫双11活动中,商品详情、店铺等浏览型系统,通常会承受 ... -
支撑4.5亿活跃用户的WhatsApp架构概览(转)
2014-03-06 10:42 1191以下为译文: 从WhatsApp软件架构师Rick Ree ... -
高性能、高流量Java Web站点打造的22条建议(转)
2014-01-30 09:34 982从2005年-2013年,Ashwanth Fernand ... -
sar 找出系统瓶颈的利器
2014-01-25 23:28 801sar 找出系统瓶颈的利 ... -
Java编程中“为了性能”需做的26件事
2014-01-15 11:07 667下面是参考网络资源总结的一些在Java编程中尽可能要做到的一 ... -
技术选型:效率至上与实用至上
2014-01-02 11:05 875当我们面对一个架构 ... -
LMAX架构(转)
2013-12-31 17:48 939LMAX是一种新型零售 ... -
可伸缩性最佳实践:来自eBay的经验(转)
2013-12-29 12:36 647在eBay,可伸缩性是我 ... -
Java性能监控的一些记录
2013-12-29 12:40 723本篇所有内容都是基于JDK5,如使用JDK6会有差别。 ... -
java服务,cpu高,内存高,telnet不通排查及分析
2013-12-26 22:21 2300一个java服务的异常排查及分析过程,以备将来参考。 ...
相关推荐
了解一下 Technorati 的后台数据库架构 57 Myspace架构历程 58 eBay 的数据量 64 eBay 的应用服务器规模 67 eBay 的数据库分布扩展架构 68 从LiveJournal后台发展看大规模网站性能优化方法 ...
五、 Technorati的后台数据库架构 六、 通过了解MySpace的六次重构经历,来认识分布式系统到底该如何创建 七、 从LiveJournal后台发展看大规模网站性能优化方法 八、 说说大型高并发高负载网站的系统架构
- **全球顶级网站架构**:通过对YouTube、Technorati、Myspace、eBay等网站的架构分析,我们可以学习到不同的扩展策略和技术选型。例如,YouTube的架构扩展、eBay的数据库分布扩展架构,以及Myspace的架构历程,都为...
- 文档中列举了多个知名网站的技术架构,如YouTube、Technorati、MySpace等,这些案例为读者提供了宝贵的参考价值。 #### 四、实践建议 1. **数据库优化**:通过对SQL查询进行优化、合理使用索引等方式来提高数据库...
当用户触发一个需要后台操作(如查询数据库、提交表单等)的事件时,显示"loading"图可以减轻用户的焦虑感,让他们知道系统正在处理他们的请求。这通常涉及到JavaScript编程,通过监听AJAX请求的状态改变来决定何时...
这对于了解竞争对手网站的历史背景和技术架构非常重要。通过这些信息,我们可以判断一个网站的年龄、稳定性以及是否经历过重大的技术迁移或变更。 #### 2. Ranks.nl/tools/spider.html —— 关键词密度分析 Ranks....
这一机制可以提高博客的可见性,让更多人通过诸如Technorati、Sphere等第三方网站了解到你的最新内容。 - **社会化推广**:通过这种方式,博客能够更好地融入社交媒体网络,吸引更多潜在读者。 - **流量增加**:...
SEOquake还允许用户对一些SEO技术参数进行分析并且了解每一个的细节。这个号称SEO终极完美工具SEOquake越来越受到广大站长的喜爱,也是每一位SEO的必备选择。 二、SEOquake的一些SEO参数 Google、Yahoo、MSN、...
专门针对博客的统计工具,如FeedBurner、Feedsky、MeasureMap、Mint、Performancing、Pheedo和Technorati,不仅追踪RSS订阅情况,还提供关于读者行为的见解。例如,FeedBurner可以帮助博主分析订阅者数量、阅读习惯...
**如何设置更新通知**:在WordPress后台的设置菜单中选择“录入”,然后滚动到页面底部找到“更新通知”部分。在这里,你可以添加多个更新服务器的地址,每行输入一个地址。这些地址可以是各种RSS聚合器、搜索引擎或...
9. **indicator_technorati.gif**:这可能是特定品牌或网站定制的加载图标,具有独特性,可以增加品牌的识别度。 10. **indicator_bar.gif**:条形进度条,与progressbar系列相似,但可能具有不同的设计风格或颜色...
加上了国内主流的网络书签、社区、微博客分享等,分别包括:Del.icio.us(美味书签)、我挖网(DigBuzz)、QQ书签、收客网(Shouker)、百度搜藏、趣摘网、Google书签、Technorati、Diglog、饭否、 365key、FaceBook、...
wordpress是一款开源的PHP博客程序,可以有大量的开源主题与插件,使用液非常简单,wordpress在全球范围应用都十分广泛,根据Pingdom.com最近发布的一份数据,2013年在Technorati排名前100的博客(Technorati为一个...
根据描述,谷歌在成为某些领域的直接竞争者后,如博客搜索服务,被指控降低了竞争对手Technorati在搜索结果中的排名,导致后者业务受损。这种情况引发了关于谷歌是否公平对待所有网站的讨论。Technorati创始人戴夫·...
Ping 1.0.0 is a component for pinging xml-rpc updating services (such as rpc.weblogs.com or rpc.technorati.com). To ping just select “Component - Ping - Ping” at the backend. You can edit list of ...
Lucene的现在权力在不同的公司,包括Akamai公司,Netflix公司,LinkedIn,Technorati等等,雅虎HotJobs,顿悟,联邦快递,梅奥诊所,麻省理工学院,“新科学家”杂志,以及其他许多搜索。虽然有些事情保持不变,。 ...
5. **technorati.jpg** - Technorati 是一个已停业的博客搜索引擎,这个图标可能指的是与社交媒体或博客分享相关的功能,或者代表对某个技术话题的讨论。 6. **Reddit.jpg** - Reddit 的图标代表了这个知名的社交...
Zend Framework 2 Documentation Release 2.4.8 1 Overview ... 374.14ZendService\Technorati 374.15ZendService\Twitter 374.16ZendService\WindowsAzure 375Copyright 376Indices and tables Index
PJBlog是由舜子(陈子舜,英文名字PuterJam,PJblog就是以他英文名字缩写命名的,他本人就职于腾讯公司QZONE开发组)所开发的一套开源免费的中文个人博客...9、去除TAG标签的technorati.com代码 10、其他一些小的修改
Technorati Sidebar1.0.0 Yahoo!Mail1.0 OS=WinXP IE Version=8.0.6001.18702 -------- Processes -------- [System Process] System smss.exe csrss.exe winlogon.exe services.exe lsass.exe ibmpmsvc.exe ati2...