LAMP 关键数据集锦技术选项参考

957803796_1

浏览: 124054 次
性别:
来自: 广州

最近访客更多访客>>

youc

hemlocker

woweishenmebushishen

laopoainiben

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

LAMP 关键数据集锦技术选项参考

源自日积月累自己的其他人的经验总结

负载均衡

LVS
工作在四层，内核态，性能极高，有VIP功能，配合 keepalived 做有效的心跳检查和负载均衡安装配置麻烦，
HAProxy
工作在四层到七层，功能强大，有VIP功能，配置简单，CPU占用高
Nginx
工作在七层，应用层功能多，配置简单，无法支持VIP功能
负载均衡器测试数据
软件每秒并发量 CPU占用结论
LVS (DR模式) 1.6W25%性能综合比最好，配置复杂
HAProxy 2.3W 95% 转发快，CPU占用高，配置简单
Nginx2W 80% 转发没有haproxy快，CPU比haproxy占用低
机器足够并且应用重要建议独立使用LVS或HAProxy，机器不足使用 Nginx

========================================

反向代理

1.varnish在高负载下以CPU和内存为代价,比squid 2.6提高8%,但是绝非10倍~20倍.
2.squid 3.0的性能比2.6更低.而非更高.相反,3.0是最不稳定以及性能最差的.
3.squid 2.7的性能比2.6低,但是CPU和内存占用率控制的更好.

nginx+远程cache处理能力是2万次/秒；varnish在大部分本地cache命中情况下处理能力是3万次/秒；

========================================

HTTP Server

Apache
2.2版本非常稳定强大
Preworker模式取消了进程创建开销，性能很高
Nginx
基于异步IO模型，性能强悍，能够支持数万并发
对小文件支持很好，性能很高
代码优美，扩展库必须编译进主程序
Lighttpd
基于异步IO模型，性能Nginx没有差别
扩展库是SO模式，比Nginx要灵活
全球使用率比以前低，安全性没有上面两个好
Web服务器静态内容测试数据
处理静态文件Apache 性能比 nginx和lighttpd要差

Nginx在处理小文件优势明显
Web服务器动态内容测试数据
处理动态内容三者相差不大(测试环境差异)，主要是取决于PHP和数据库的处理性能

=========================================

PHP

版本选择
PHP 4：马上抛弃它吧，低下的性能，不完整的面向对象支持
PHP 5.2.x：成熟稳定，各种扩展都支持，性能卓越，建议使用
PHP 5.3.x：有一些包括Unicode、命名空间之类的新功能，看个人喜好
工作模式选择
Mod_php5.so：如果使用Apache的话，简单配置，可以使用本模式，挺稳定，性能不错
FastCGI模式：推荐结合 php-fpm 的 fastcgi模式，性能很高，工作稳定，而且可以跟 Apache、Nginx、Lighttpd 完美结合
其他
注意安全配置，注意 safe_mode、open_base_dir 等选项
停掉不需要使用的PHP扩展

大部分的消耗在文件引用上(include/require)

SQL语句不要放在for循环里面执行，最好能用group by之类解决，或者合并写入
出了问题再profile你的PHP代码
通过auto loading 实现lazy loading
相比较运行速度，更需要注意memory limit，尤其是一些shell处理脚本

影响不大的性能优化
不要用array_key_exists，用isset来判断键值是否在数组中
如有可能，采用static静态方法
避免使用__set, __get等魔术方法 set是get 3倍速度
使用echo代替print()
使用include、require代替include_once、require_once
@操作符是邪恶的
不要把count/strlen/sizeof 放到for 循环的条件语句中
……

通过set_error_handler来捕获线上运行错误，统一收集日志、报警
通过register_shutdown_function来捕获fatal errors、记录运行时间

=============================

MySQL

MyISAM与Innodb

MyISAM的读性能是比Innodb强

MyISAM的索引和数据是分开的，并且索引是有压缩的

Innodb是索引和数据是紧密捆绑的，没有使用压缩从而会造成Innodb比MyISAM体积庞大不小

innodb不信任操作系统

MyISAM不支持外键 Innodb支持

MyISAM不支持事务 Innodb支持

MyISAM只支持表所 Innodb支持行锁

对数据信息的存储方式不同，MyISAM创建一张表对应3个文件，Innodb则只有一个文件.frm，数据存储在ibdata1

复制自己insert into tt select * from tt

MyISAM：表级锁、查询快(500W)，可以count
Innodb：行级锁、事务支持（隔离级别），不要count，要设置主键
重要的配置：
Max_connections、Query_cache、key_buffer、sort_buffer
Innodb_buffer_pool_size、 innodb_flush_log_at_trx_commit

--------------------------

恢复

不小心update一个表where写的范围不对，导致这个表没法正常用了，这个时候MyISAM的优越性就体现出来了，随便从当天拷贝的压缩包取出对应表的文件，随便放到一个数据库目录下，然后dump成sql再导回到主库，并把对应的binlog补上。如果是Innodb，恐怕不可能有这么快速度

--------------------------

锁表

select count(*) 和order by 是最频繁的，大概能占了整个sql总语句的60%以上的操作，而这种操作Innodb其实也是会锁表的，很多人以为Innodb是行级锁，那个只是where对它主键是有效，非主键的都会锁全表的。

-------------------------

大小

保证数据库单个实例尽量不要超过150G。

受文件系统操作限制，文件数过大需要更多文件句柄，且大目录操作造成复制、压缩、备份效率低。

- 打开表占用数据库资源（table_cache）

√ 建议一个库不应超过300-400个表

√ 建议一般带char字段的表不应超过500万rows.基于数字的字段为主的表不要超过1000万rows.

切分尽量多的小实例，一个机器跑7-8个实例，平常load avg不超过1-2，峰值不超过6-7为合理。

-------------------------

主从

通过分多个主库,便于未来可扩展

通过使用replicate_do_db(table)来解决从库追主库延迟时间较长的问题由于mysql的从库只能单进程追，而通过上述方式，就能形成多进程追不同库来减少延迟，缺点是管理成本会很大。

---------------------------

多IDC

通过多IDC提升数据库平台99.999%稳定性

---------------------------
分表
按时间(财经)
按ID号hash分(统一通行证)
按业务项目(通用投票)

对数据进行Sharding：分表，分库
垂直切分：按照业务或产品切分
水平切分：按照数据拆分，比如mod或div

-----------------------------

merge引擎

提升代码开发速度
1.
比如有些项目，需要定期存用户离线消息，可以采取程序只访问对应的merge表，然后merge表对应7个子表(比如周一到周日)。
2.
比如统计项目，可能分表策略是每个月一个表，然后要做如一季度，二季度的统计，为
了方便开发，可以采取程序只访问对应merge表，然后自由结合1234，N表作为merge表的子表。

---------------------------

索引

正确使用索引，避免全表搜索

使用定长表,且定期做OPTIMIZE TABLE命令（注意这个命令会锁表，请在数据库访问小的时候做）

在对大表进行添加索引，一定要选择访问小的时间段做，否则会导致严重问题。

注:一般临晨2-3点时候是大部分项目访问的低谷。

索引优化，选择实验
稳妥地改进
将需要优化的相关表复制到测试环境
在测试环境启动一个测试daemon，关闭query cache或是使用select SQL_NO_CACHE 方式。
未优化时测试若干次查询时间，以及explain检查扫描集。
选择合适的索引试验建立。可以通过use index(xx)来强制使用。检查是否有效。
测试查询时间变化，反复试验得到最优结果

保持关注，根据情况随时改变索引设置

采取从库不同索引的模式来提升性能
比如有些项目，有很多不同的排序需求，需
要建立很多索引，但是如果都加必然导致性
能下降，所以采取不同功能使用对应索引的
从库来解决。

Oracle索引使用原则：

大表上建索引才有意义；

在where子句或是连接条件上经常引用的列上建索引；

索引层次不要超过4层；

很少或不引用的字段不宜使用索引；

逻辑性的字段，如男女，是否等不宜使用索引。

Oracle缺点分析：

建立索引，系统要占用大约是表的1.2倍的硬盘和内存空间来保存索引；

更新数据的时候，系统必须要有额外的时间来同时对索引更新，以维持数据和索引的一致性

-------------------------------------

查询

尽量减少查询
可以缓存的就不要查数据库
部分数据可以借助比如 Shpinx解决，检索需求
要注意的查询
给需要的字段加上索引，比如需要 WHERE 或者 ORDER BY 的字段
不要LIKE ‘%key%’，不使用索引，可以 LIKE ‘key%’
如果可以，少使用 SELECT * FROM XX，尽量查询自己需要的字段
避免使用 JOIN/GROUP BY/DISTINCK
INNODB表不要count

-------------------------------------

排序

尽量使用带主键的字段做order by 的排序

尽量不要多提供页面的查找（最好只提供100页内），避免机器爬虫抓取数据，导致数据库压力负载过高。因为做order by field1 limit xxxxxx,20是非常消耗数据库资源。

-------------------------------------

批量

通过使用insert批量的方式来提升主库的写速度，通过批量values模式都能提升主库写性能。

--------------------------------------

key-value

通过简单的key-value模式数据库来处理简单逻辑业务，如berkeley DB, LightCloud, Tokyo Tyrant

------------------------------------

NoSQL

通过Memcache来缓冲频繁update的数据库
比如通过设定阀值500次才往数据库做一次写操作，或是间隔30分钟往数据库写一次。

------------------------------------

硬件
SSD > SAS > SCSI，随机存取
内存越大越好，多核CPU

-------------------------------------

补丁

通过使用如ebay公司开发的heap补丁来解决一些如session业务比如跑一些数据总大小不会很大，但是update特别频繁的，比如用户状态值，补丁的好处是省内存。

Q4M 消息队列

MemcacheQ

------------------------------------

监控

进程列表

mysql>show processlist;

profiling

该方式默认是关闭的。可以通过以下语句查看
mysql>select @@profiling;
mysql>set profiling=1; //打开
执行需要测试的sql 语句：

mysql> show profiles;
通过指定的Query_ID 来查询指定的sql语句的执行信息：
mysql> show profile for query 1;
测试完毕以后，关闭参数： mysql> set profiling=0

数据库连接池

MySQL Proxy
性能不是太好，目前功能不完善
无法进行读写分离，需要自己写Lua脚本实现
SQL Relay
业内普遍反映不好用

------------------------------

Oracle

据说 Oracle 5000个并发连接吃力

===================================================

InnoDB还是MyISAM 再谈MySQL存储引擎的选择

http://database.51cto.com/art/200905/124370.htm

邵宗文：数据库极限性能测试修正版

http://wenku.baidu.com/view/1a6ebe717fd5360cba1adbca.html

Centos5.6下MySQL Proxy0.8.2的安装及测试

http://database.51cto.com/art/201203/324475.htm

=====================

NoSQL

Ttserver-2G(32bit)

MongoDB-2.5(32bit)

MongoDB
文档数据库，介于 Key->Value 数据库和关系数据库之间
无存储引擎，高写入性能，内存越大，性能越好
AutoSharding、主从复制
操作简单，会JavaScript就会操作MongoDB
发展中，业内有应用，百度(商业产品)、淘宝（监控中心）、视觉中国
缺点：
最大单记录 16M
比较浪费磁盘：4亿数据 500G磁盘

Redis
可持久化的缓存服务
纯粹Key ->Value结构，存储数据类型丰富：String/List/Set
可以持久化，可以主从同步
缺点：
主从同步拷贝整个镜像文件
内存大小限制了能存储最大持久化文件大小

Memcached
32位机上开辟内存不要超过2G，建议可以多开几个进程
如果没有富余的机器可以跟Web一起部署
它单个数据值长度不能超过1M
数据存储最长有效期是30天

===================

参考：http://blog.csdn.net/heiyeshuwu等人

分享到：