`
wutao8818
  • 浏览: 612648 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Tailrank Architecture - Learn How to Track Memes Across the

阅读更多
转自:http://www.highscalability.com/tailrank-architecture-learn-how-track-memes-across-entire-blogosphere


Ever feel like the blogosphere is 500 million channels with nothing on? Tailrank finds the internet's hottest channels by indexing over 24M weblogs and feeds per hour. That's 52TB of raw blog content (no, not sewage) a month and requires continuously processing 160Mbits of IO. How do they do that?

This is an email interview with Kevin Burton, founder and CEO of Tailrank.com. Kevin was kind enough to take the time to explain how they scale to index the entire blogosphere.


Sites


Tailrank - We track the hottest news in the blogosphere!

Spinn3r - A blog spider you can specialize with your own behavior instead of creating your own.

Kevin Burton's Blog - his blog is an indexing mix of politics and technical talk. Both are always interesting.


Platform


MySQL

Java

Linux (Debian)

Apache

Squid

PowerDNS

DAS storage.

Federated database.

ServerBeach hosting.

Job scheduling system for work distribution.


Interview


What is your system is for?

Tailrank originally a memetracker to track the hottest news being discussed
within the blogosphere.

We started having a lot of requests to license our crawler and we shipped that
in the form of Spinn3r about 8 months ago.

Spinn3r is self contained crawler for companies that want to index the full
blogosphere and consumer generated media.

Tailrank is still a very important product alongside Spinn3r and we're working
on Tailrank 3.0 which should be available in the future. No ETA at the moment
but it's actively being worked on.


What particular design/architecture/implementation challenges does your system have?

The biggest challenge we have is the sheer amount of data we have to process and
keeping that data consistent within a distributed system.

For example, we process 52TB of content per month. this has to be indexed in a
highly available storage architecture so the normal distributed database
problems arise.


What did you do to meet these challenges?

We've spent a lot of time in building out a distributed system that can scale
and handle failure.

For example, we've built a tool called Task/Queue that is analogous to Google's
MapReduce. It has a centralized queue server which hands out units of work to
robots which make requests.

It works VERY well for crawlers in that slower machines just fetch work at a
slower rate while more modern machines (or better tuned machines) request work
at a higher rate.

This ends up easily solving one of the main distributed computing fallacies that
the network is homogeneous.

Task/Queue is generic enough that we could actually use it to implement
MapReduce on top of the system.

We'll probably open source it at some point. Right now it has too many
tentacles wrapped into other parts of our system.


How big is your system?

We index 24M weblogs and feeds per hour and process content at about
160-200Mbps.

At the raw level we're writing to our disks at about 10-15MBps continuously.


How many documents, do you serve? How many images? How much data?

Right now the database is about 500G. We're expecting it to grow well beyond
this in 2008 as we expand our product offering.


What is your rate of growth?

It's mostly a function of customer feature requests. If our customers want more data we sell it to them.

In 2008 we're planning on expanding our cluster to index larger portions of the
web and consumer generated media.


What is the architecture of your system?

We use Java, MySQL and Linux for our cluster.

Java is a great language for writing crawlers. The library support is pretty
solid (though it seems like Java 7 is going to be killer when they add
closures).

We use MySQL with InnoDB. We're mostly happy with it though it seems I end up
spending about 20% of my time fixing MySQL bugs and limitations.

Of course nothing is perfect. MySQL for example was really designed to be used
on single core systems.

The MySQL 5.1 release goes a bit farther to fix multi-core scalability locks.

I recently blogged about how these the new multi-core machines should really be
considered N machines instead of one logical unit: Distributed Computing Fallacy #9.


How is your system architected to scale?

We use a federated database system so that we can split the write load as we see
more IO.

We've released a lot of our code as Open Source a lot of our infrastructure and
this will probably be released as Open Source as well.

We've already opened up a lot of our infrastructure code:


http://code.tailrank.com/lbpool - load balancing JDBC driver for use with DB connection pools.

http://code.tailrank.com/feedparser - Java RSS/Atom parser designed to elegantly support all versions of RSS

http://code.google.com/p/benchmark4j/ - Java (and UNIX) equivalent of Windows' perfmon

http://code.google.com/p/spinn3r-client/ - Client bindings to access the Spinn3r web service

http://code.google.com/p/mysqlslavesync/ - Clone a MySQL installation and setup replication.

http://code.google.com/p/log5j/ - Logger facade that supports printf style message format for both performance and ease of use.


How many servers do you have?

About 15 machines so far. We've spent a lot of time tuning our infrastructure
so it's pretty efficient. That said, building a scalable crawler is not an easy
task so it does take a lot of hardware.

We're going to be expanding FAR past this in 2008 and will probably hit about
2-3 racks of machines (~120 boxes).


What operating systems do you use?

Linux via Debian Etch on 64 bit Opterons. I'm a big Debian fan. I don't know
why more hardware vendors don't support Debian.

Debian is the big secret in the valley that no one talks about. Most of the big
web 2.0 shops like Technorati, Digg, etc use Debian.


Which web server do you use?

Apache 2.0. Lighttpd is looking interesting as well.


Which reverse proxy do you use?

About 95% of the pages of Tailrank are served from Squid.


How is your system deployed in data centers?

We use ServerBeach for hosting. It's a great model for small to medium sized
startups. They rack the boxes, maintain inventory, handle network, etc. We
just buy new machines and pay a flat markup.

I wish Dell, SUN, HP would sell directly to clients in this manner.

One right now. We're looking to expand into two for redundancy.


What is your storage strategy?

Directly attached storage. We buy two SATA drives per box and set them up in
RAID 0.

We use the redundant array of inexpensive databases solution so if an individual
machine fails there's another copy of the data on another box.

Cheap SATA disks rule for what we do. They're cheap, commodity, and fast.


Do you have a standard API to your website?

Tailrank has RSS feeds for every page.

The Spinn3r service is itself an API and we have extensive documentation on the
protocol.

It's also free to use for researchers so if any of your readers are pursuing a
Ph.D and generally doing research work and needs access to blog data we'd love
to help them out.

We already have the Ph.D students at the University of Washington and University
of Maryland (my Alma Matter) using Spinn3r.


Which DNS service do you use?

PowerDNS. It's a great product. We only use the recursor daemon but it's FAST.
It uses async IO though so it doesn't really scale across processors on
multicore boxes. Apparenty there's a hack to get it to run across cores but it
isn't very reliable.

AAA caching might be broken though. I still need to look into this.


Who do you admire?

Donald Knuth is the man!


How are you thinking of changing your architecture in the future?

We're still working on finishing up a fully sharded database. MySQL fault
tolerance and autopromotion is also an issue.

分享到:
评论

相关推荐

    50大最酷网站

    - **Tailrank**:使用实时算法分析博客和社交媒体上的内容,以快速识别热门话题和趋势。这涉及到自然语言处理、文本分析和大数据处理技术。 ### 4. 社交媒体与即时通讯 - **MySpace**:早期的社交网络平台,允许...

    大型网站架构技术方案集锦

    众多大型网站架构技术方案集锦,包括PlentyOfFish、YouTube、WikiPedia、Tailrank、Yahoo、Craigslist

    小程序毕业设计-基于微信小程序的影院选座系统+ssm(包括源码,数据库,教程).zip

    Java 毕业设计,小程序毕业设计,小程序课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行!可以放心下载 1. 技术组成 前端: 小程序 后台框架:SSM/SpringBoot(如果有的话) 开发环境:idea,微信开发者工具 数据库:MySql(建议用 5.7 版本,8.0 有时候会有坑) 数据库可视化工具:使用 Navicat 部署环境:Tomcat(建议用 7.x 或者 8.x 版本),maven

    大二下算法作业,迷宫生成算法以及基于递归的求解,可以在blender中生成3D模型.zip

    大二下算法作业,迷宫生成算法以及基于递归的求解,可以在blender中生成3D模型.zip

    小程序毕业设计-基于微信小程序的在线视频教育系统+ssm(包括源码,数据库,教程).zip

    Java 毕业设计,小程序毕业设计,小程序课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行!可以放心下载 1. 技术组成 前端: 小程序 后台框架:SSM/SpringBoot(如果有的话) 开发环境:idea,微信开发者工具 数据库:MySql(建议用 5.7 版本,8.0 有时候会有坑) 数据库可视化工具:使用 Navicat 部署环境:Tomcat(建议用 7.x 或者 8.x 版本),maven

    基于SpringBoot+Vue.JS前后端分离的游乐园管理系统 源码+数据库+录屏(毕业设计)

    游乐园管理系统是一个综合性的软件解决方案,旨在为游乐园提供高效的日常运营支持。该系统采用现代的前后端分离架构,前端使用Vue.js框架,后端则基于SpringBoot框架进行开发。Vue.js是一个渐进式JavaScript框架,它易于上手且灵活,非常适合构建用户界面。SpringBoot则提供了快速开发的能力,简化了配置和部署过程,使得后端服务的开发更加高效。 用户管理:允许管理员管理游客信息,包括注册、登录、权限分配等。 设施管理:对游乐园内的游乐设施进行管理,包括设施信息的录入、更新和维护。 票务系统:处理门票销售、折扣策略、在线预订等功能。 安全监控:实时监控游乐园内的安全状况,确保游客的安全。 数据分析:收集和分析游客行为数据,为游乐园的运营决策提供支持。 客户服务:提供客户服务功能,如失物招领、投诉处理等。 启动教程:https://www.bilibili.com/video/BV1SzbFe7EGZ

    《深度学习入门 基于Python的理论与实现》学习笔记.zip

    深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。

    java-ssh-jsp-mysql小区物业管理系统实现源码(项目源码-说明文档)

    本系统采用了BS架构的模式开发,利用浏览器就可以随处打开,也就是说小区的住户在家里就能进行上网,打开网站,进行物业费的缴费。系统采用了SSH框架技术开发,数据库采用了mysql数据库进行管理 物业管理系统,分为前后台的管理,系统的主要功能包括:业主信息管理,小区新闻,小区风景的展示,在线水电费的缴费,在线对小区设备的报修等 项目关键技术 开发工具:IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7+ 后端技术:ssh 前端技术:jsp 关键技术:jsp、spring、ssm、ssh、MYSQL、MAVEN 数据库工具:Navicat、SQLyog

    高仿网易云课堂小程序源码学习

    高仿网易云课堂小程序源码学习

    SAP S4新建用户,分配用户,激活用户

    SAP S4的BAISIS 已经取消,但 新建用户,分配用户,以及权限分配 激活用户的均是需要掌握的

    智能翻译官cpc-bd07-20752777288491826.exe

    ‌智能翻译官获得了广泛的好评‌,这主要得益于其高效、准确以及用户友好的特性。以下是一些具体的评价细节: ‌用户界面和操作体验‌:智能翻译官提供了一个直观且易于使用的界面,使得用户能够轻松地进行翻译操作。无论是文字输入、拍照翻译还是语音输入,智能翻译官都能提供流畅的使用体验,大大提高了用户的工作和沟通效率‌12。 ‌翻译准确性和速度‌:智能翻译官在翻译准确性和速度方面表现出色。它支持多种语言的翻译,包括但不限于英语、日语、韩语等,并且能够在短时间内完成翻译,确保了沟通的实时性和有效性‌23。 ‌功能多样性‌:除了基本的翻译功能外,智能翻译官还提供了同声传译、录音文件保存、实景AR翻译等多种功能。这些功能使得智能翻译官成为开会、旅行等多种场景下的理想选择‌2。 ‌用户反馈‌:从用户反馈来看,智能翻译官不仅受到了普通用户的欢迎,也得到了专业人士的认可。无论是学生、商务人士还是旅游者,都对其表示满意,认为它极大地便利了他们的学习和生活‌12。 综上所述,智能翻译官以其高效、准确、用户友好的特点,赢得了广泛的好评和推荐。无论是对于需要频繁进行语言沟通的用户,还是对于需要学习不同语言的学

    喜鹤付费V3(1).zip

    喜鹤付费V3(1).zip

    c#代码介绍23种设计模式-03工厂模式(附代码)

    1. 工厂方法模式之所以可以解决简单工厂的模式: 是因为它的实现把具体产品的创建推迟到子类中,此时工厂类不再负责所有产品的创建,而只是给出具体工厂必须实现的接口, 这样工厂方法模式就可以允许系统不修改工厂类逻辑的情况下来添加新产品,这样也就克服了简单工厂模式中缺点 2. 使用工厂方法实现的系统,如果系统需要添加新产品时: 我们可以利用多态性来完成系统的扩展,对于抽象工厂类和具体工厂中的代码都不需要做任何改动。 例如,我们我们还想点一个“肉末茄子”,此时我们只需要定义一个肉末茄子具体工厂类和肉末茄子类就可以。而不用像简单工厂模式中那样去修改工厂类中的实现 3. 从UML图可以看出,在工厂方法模式中,工厂类与具体产品类具有平行的等级结构,它们之间是一一对应的。针对UML图的解释如下: Creator类:充当抽象工厂角色,任何具体工厂都必须继承该抽象类 TomatoScrambledEggsFactory和ShreddedPorkWithPotatoesFactory类:充当具体工厂角色,用来创建具体产品 Food类:充当抽象产品角色,具体产品的抽象类。任何具体产品都应该继承该类 Tom

    基于深度学习的手语识别项目.zip

    深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。

    【5层】2800平米框架商务写字楼毕业设计(含计算书,建筑、结构图).zip

    【5层】2800平米框架商务写字楼毕业设计(含计算书,建筑、结构图) 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 、6可私信博主看论文后选择购买源代码。

    大气污染控制工程课程设计某厂燃煤锅炉烟气除尘处理工程方案设计.doc

    大气污染控制工程课程设计某厂燃煤锅炉烟气除尘处理工程方案设计.doc

    EXCLE批量写入模版

    你是否遇到过老板各种苛刻的要求?例如,你手上有份excel表格汇总着上千信息条,老板却要求你把每条信息保存为独立一份excel工作薄,上千条信息条就是要生成上千份工作薄,怎么做?手动录入?有加班工资吗?没有的话,以下的excel模版能帮到你!只需按一下按钮,加班?NO!直接摸鱼~~(WPS、EXCEL均可正常使用)

    win64 CC2024.zip

    SmartTools InDesign插件

    火焰火圈喷火特效:Stylized Fire Effects Pack v3.0

    该包包含 10 个预制体: - 火焰喷射器 - 火球 - 火之魔球 - 火把 - 篝火 - 小型篝火 - 烟雾 - 火墙 - 火环 - 火区域。 这个在 3D 和 2D 视图中都能使用。

    2023中国大陆薪资指南.pdf

    2023中国大陆薪资指南.pdf

Global site tag (gtag.js) - Google Analytics