来源:
Todd Hoff的文章http://www.highscalability.com/tailrank-architecture-learn-how-track-memes-across-entire-blogosphere
Tailrank网站提供blog文章热点新闻跟踪服务,同时从8个月前开始许可其爬虫程序
Spinn3r。
Tailrank要解决的是如何高效处理海量数据,及如何分析并精确索引其抓取的内容。
其要技术难点在于建立伸缩性好并高容错的分布式系统,目前实现了一个类似于Google的MapReduce的工具Task/Queue,
它是一个集中的队列服务器,用于分发任务给来请求的机器人。
技术平台
- MySQL:Federated方式分布数据,待扩展成完全的sharded方式
- Java
- Linux(Debian)
- Apache 2.0
- Squid:服务95%的页面
- 存储:两个SATA驱动器,配置成RAID 0.
- ServerBeach托管
系统规模
- 15台机器;
- 每小时索引24M的weblog和feed;
- 速度处理内容:以160~200M bps;
- 每月处理的内容:52TB;
- 当前数据库规模:500G;
MySQL使用情况
- 使用InnoDB引擎;
- MySQL基于单核系统设计,从5.1开始才解决了多核系统下锁的问题。
已开源的代码
- http://code.tailrank.com/lbpool:支持负载均衡的JDBC数据库连接缓冲池;
- http://code.tailrank.com/feedparser:较好支持所有RSS版本的Java RSS/Atom解析器;
- http://code.google.com/p/benchmark4j/:Java(及UNIX)下的性能分析工具;
- http://code.google.com/p/spinn3r-client/:访问Spinn3r web service的客户端接口;
- http://code.google.com/p/mysqlslavesync/:用于快速并某MySQL进行复制;
- http://code.google.com/p/log5j/:基于log4j,实现printf格式的日志内容处理功能。
分享到:
相关推荐
大型网站架构技术方案集锦 PlentyOfFish 网站架构...LinkedIn 架构笔记 Yahoo!社区架构 Craigslist 的数据库架构 Fotolog.com 的技术信息拾零 Digg 网站架构 Amazon 的 Dynamo 架构 财帮子(caibangzi.com)网站架构
这涉及到数据挖掘、机器学习和推荐系统等技术。 - **YouTube**:全球最大的视频分享平台,支持用户上传、观看和评论视频。其背后的技术包括视频压缩、流媒体传输、大规模数据存储和处理,以及推荐算法。 ### 2. ...
opencv_python-4.1.0.25-cp37-cp37m-linux_armv7l.whl
onnxruntime-1.13.1-cp38-cp38-win_amd64.whl
Few-shot CIFAR100数据集,来自CIFAR100数据集。 数据集共包含100类别,每个类别600张图像,合计60,000张图像。 数据集介绍:分为训练集、验证集、测试集 --data--train--:60个文件夹,36,000张图片 --data--val--: 20个文件夹,12,000张图片 --data--test--:20个文件夹,12,000张图片 FC100按照超类(Superclass)进行划分:训练集60个超类,验证集20个超类,测试集20个类别。
numpy-1.19.5-cp39-cp39-linux_armv7l.whl
基于springboot的城乡商城协作系统源码数据库文档.zip
基于springboot宠物管理系统源码数据库文档.zip
基于springboot餐饮连锁店管理系统源码数据库文档.zip
基于springboot在线问诊系统源码数据库文档.zip
1、资源内容地址:https://blog.csdn.net/2301_79696294/article/details/143734777 2、数据特点:今年全新,手工精心整理,放心引用,数据来自权威,且标注《数据来源》,相对于其他人的控制变量数据准确很多,适合写论文做实证用 ,不会出现数据造假问题 3、适用对象:大学生,本科生,研究生小白可用,容易上手!!! 4、课程引用: 经济学,地理学,城市规划与城市研究,公共政策与管理,社会学,商业与管理
功能说明: 陕理工图书馆管理系统包括两种用户,管理员,和学生用户。不同的用户都需要进行登录,然后针对其操作权限才能进入管理系统。 系统的设计将分为后台和前台,后台是系统管理员进行登录后管理,前台是学生使用的部分。 前台实现的功能包括:学生用户注册、登录,座位信息查看、阅览室信息、在线交流、座位预约、查看图书位置等。 服务器后台管理实现的功能包括:管理员登录,阅览室信息管理,座位管理,预约管理,图书管理以及用户管理等。 环境说明: 开发语言:python Python版本:3.6.8 数据库:mysql 5.7数据库工具:Navicat11开发软件:pycharm
numpy-1.16.1-cp35-cp35m-linux_armv7l.whl
scipy-1.2.0-cp35-cp35m-linux_armv7l.whl
opencv_python-4.0.1.24-cp37-cp37m-linux_armv7l.whl
ASP.NET酒店管理系统源码(WPF) 一、源码特点 采用WPF进行开发的酒店管理系统源码,界面相当美观,功能齐全 二、菜单功能 1、预订登记:可选择入住时间、离店时间、所在城市、证件类型,保存、删除、查询、返回 2、住宿结算:新增入住、保存、删除、查询、返回 3、今日盘点:查询、返回 4、查询统计: 5、房间管理:增加房间类型、删除类型、增加房间、删除房间、保存、返回 6、用户管理:增加用户、删除用户、保存、返回 7、系统配置:基本功能 8、显示当前系统时间等功能的实现
基于springboot的c语言学习辅导网站源码数据库文档.zip
基于springboot医疗废物管理系统源码数据库文档.zip
opencv_python-4.5.5.64-cp39-cp39-linux_armv7l.whl
gee_python基于机器学习ML(随机森林RF)的土地分类.ipynb