csdn密码泄漏,640万用户数据泄漏,对于在小公司的我,从没见过这么大数据量,于是非
常兴奋,迫不及待的想去操作一下如此大的表。
使用mysql,首先建表。
create database csdn;
create table csdn(
id int not null auto_increment,
username varchar(100),
passwd varchar(100),
email varchar(100),
primary key (id)
)
接着导入表,由于泄漏的文件不是标准sql,只有三列,使用#隔开,因此使用load data infile方式。
load data local infile '/home/kaka/csdn.sql' into table csdn fields terminated by '#' (username,passwd,email);
导入成功,共有6428632条记录。
这么多条记录,访问起来十分慢,首先建几条索引(index)
create index passwd_index on csdn(passwd) using btree;
时间是
引用
Query OK, 6428632 rows affected (3 min 46.82 sec)
再对邮箱建一个索引:
create index email_index on csdn(email) using btree;
用的时间更长,
引用
Query OK, 6428632 rows affected (6 min 51.11 sec)
Records: 6428632 Duplicates: 0 Warnings: 0
不过和后面的查询减少的时间比起来,这个6分钟也是很值得了。
下面来进行一些有趣的分析:
1、常用密码排名(前20名)
引用
| passwd | count(passwd) |
+--------------+---------------+
| 123456789 | 235029 |
| 12345678 | 212766 |
| 11111111 | 76348 |
| dearbook | 46052 |
| 00000000 | 34953 |
| 123123123 | 20010 |
| 1234567890 | 17794 |
| 88888888 | 15033 |
| 111111111 | 6995 |
| 147258369 | 5966 |
| aaaaaaaa | 5890 |
| 987654321 | 5555 |
| 1111111111 | 5145 |
| 66666666 | 5026 |
| a123456789 | 4686 |
| 11223344 | 4096 |
| 1qaz2wsx | 3969 |
| password | 3654 |
| xiazhili | 3649 |
| 789456123 | 3611 |
12345678和12345678分别突破20万,整天叫嚷这数据安全的程序员们,轮到自己的时候,密码就这么简单啊~
排名第四的是dearbook,有4.6万人,我不清楚dearbook有何含义,知道的解释下吧。
以ilove**作为密码的共有12031个人。
2、没有重复的密码:
引用
!(*!!
!(()!!!^
!((%)*)(QWtxd
!((%!((%
!(($)
!((!)*)
!((!)()%
!((
!(&^)^!(
!(&^!!@&
!(()!!@
!(()!@)(cloud
!(()!@)6125dou
!()jian20
!((^)^@@123123
!((@0709yxw
!((*03230225tian
!(()HB1990128
!(()0803
!(())@)@@
要想密码没有重复,!,(,)不可少啊~不过这也太难记了吧。。
3、80后统计
把密码设为日期的应该就是自己的出生日期了吧
来统计一下80后
引用
birth count
----- ------
1980 15374
1981 21923
1982 34535
1983 35144
1984 39849
1985 41709
1986 50940
1987 59569
1988 53519
1989 45269
----- ------
397831
将近40万的80后哦~
4、注册邮箱排名(前20)
引用
qq.com 1972584
163.com 1763310
126.com 806199
sina.com 350870
yahoo.com.cn 205110
hotmail.com 202361
gmail.com 186086
sohu.com 104554
yahoo.cn 86797
tom.com 72231
yeah.net 53114
21cn.com 50597
vip.qq.com 35055
139.com 29105
263.net 24756
sina.com.cn 19103
live.cn 18860
sina.cn 18574
yahoo.com 18338
foxmail.com 16382
从这张表里,大概能反映目前国内各邮箱厂商的市场占有率:网易和qq领先竞争对手非常多,网易256万多,腾讯200万左右,排名第三的新浪只有35万左右。后面依次是雅虎,hotmail,gmail,sohu。。
5、大学统计
根据邮箱后缀来统计各大学注册人数
引用
mail.ustc.edu.cn 2035 中科大
sjtu.edu.cn 1876 上海交大
bjtu.edu.cn 1341 北京交大
fudan.edu.cn 981 复旦
stu.xjtu.edu.cn 930 西安交大
zju.edu.cn 876 浙大
mails.tsinghua.edu.cn 716 清华
bit.edu.cn 691 北京理工
mail.nankai.edu.cn 640 南开
stu.edu.cn 559 汕头大学
emails.bjut.edu.cn 487 北京工大
swu.edu.cn 450 西南大学
nenu.edu.cn 413 东北师范
ustc.edu 345 中科大
mail.dhu.edu.cn 327 东华大学
cqu.edu.cn 311 重庆大学
pku.edu.cn 309 北大
mail.sdu.edu.cn 309 山东大学
stu.snnu.edu.cn 299 陕西师范大学
cqut.edu.cn 260 重庆理工
中科大,上海交大,北京交大占据了前三甲啊。。
6、两个段子
引用
RT @hecaitou: 转:CSDN 杯我最喜欢的密码大决选总冠军:ppnn13%dkstFeb.1st。看不懂?中文解析:娉娉袅袅十三余,豆蔻梢头二月初。
经查,没有这个密码。。
引用
转:CSDN杯我最喜欢的密码大决选季军: FLZX3000cY4yhx9day (飞流直下三千尺,疑似银河下九天) hanshansi.location()!∈[gusucity](姑苏城外寒山寺) hold?fish:palm(鱼和熊掌不可兼得)
经查,只有 FLZX3000C 这个存在,其它的都不存在。
这帮文人啊,造些无聊的段子有神马意义~
csdn的分析就到这里吧,下一篇将是对4000万天涯数据的分析,敬请期待啊~
ps:
1、建库,导入数据,建索引时间都是基于我的笔记本上虚拟机统计出来的。P8500双核,1G内存.
2、处理大数据,linux系列比windows强太多了。在win7上查询不下去了,我才转移到ubuntu上的。
3、本人只是对处理大规模数据感兴趣,所以才下载了这些数据,仅用来学习,不害人不传播,请勿跨省,请勿向我索取。
分享到:
相关推荐
总的来说,“星号密码显示”涉及到的技术包括但不限于内存分析、API钩子、操作系统交互以及密码恢复算法。在信息安全日益重要的今天,理解这些概念对于开发者和普通用户来说都具有重要意义,既可以用来解决实际问题...
通过分析"CSDN.rar_csdn"这个压缩包,开发者可以了解到一个完整的用户注册系统的实现细节,学习如何设计和实现类似的系统。这不仅有助于提高编程技能,也有助于理解Web应用开发的整体流程。同时,这也为那些想要搭建...
6. 组合密码算法的评估涉及量化分析和风险判定,确保算法的安全强度。7. 分期改造的信息系统需按阶段进行密码应用安全性评估,以确保整个过程的安全。8. 已通过评估的密码应用方案在实际操作中,仍需关注新的威胁和...
如何安全地分发、存储和更新密钥,以及处理丢失或泄露的情况,都是必须考虑的问题。PKI(Public Key Infrastructure)就是一种解决密钥管理的系统,它通过CA(证书权威机构)来颁发和验证数字证书。 此外,可能还会...
综上所述,《密码学原理与实践》这本书籍通过对离散数学在密码学中的应用、不同加密算法的介绍、密码分析的基本概念以及密码学的实际应用场景的详尽描述,为我们提供了一个深入理解和应用密码学的平台。学习这些知识...
2. **调查与修复**:查明泄露原因,修复系统漏洞,更新所有相关密码。 3. **通知与透明**:向受影响用户和监管机构通报情况,保持信息透明度。 4. **加强培训**:提高员工的安全意识,加强内部安全培训和政策制定。 ...
更安全的做法是使用密码管理器,它们能生成强密码并存储在加密的数据库中,避免了记忆复杂密码的困扰,同时降低了密码泄露的风险。 5. **浏览器开发者工具**: 对于一般用户,有时浏览器内置的开发者工具也可用来...
- 现代密码学期末复习材料应包含各种类型的问题,涵盖上述知识点,可能包括理论分析、计算题和应用题。解题过程中,学生将深化对密码学原理的理解,并提高实际操作能力。 通过深入学习和实践这些知识点,学生不仅...
6. 实例分析:可能会提供实际案例,展示密码和口令在实际操作中的应用,以及这些措施如何防止信息泄露。 7. 最佳实践与未来趋势:可能总结了当前最佳的安全实践,并探讨了未来的可能发展方向,如量子密码学对无线电...
分析CSDN密码泄露事件显示,许多用户仍倾向于使用弱密码,这大大增加了账户被攻击的风险。为了增强安全性,每个账户应使用不同的密码,尤其是对于高敏感度的账户,如银行、电子邮件和社交媒体。 其次,正确使用密码...
3. 安全性:聊天记录的隐私保护是重要的一环,需要设置加密传输,防止信息泄露。同时,应具备防止骚扰机制,如黑名单、消息撤回等。 二、概要设计 1. 系统架构:聊天工具通常采用客户端-服务器(C/S)架构,客户端...
常见的门禁系统有密码门禁系统、感应式 IC 卡门禁系统、指纹虹膜掌型生物识别门禁系统等。本系统的设计目标是提高出入管理的效率、安全性和可靠性。 门禁系统的业务价值在于其能够提供快速、安全、可靠的出入管理...
5. **数据恢复**:在内存中,可能会找到临时存储的敏感数据,例如密码、加密密钥或用户信息。这有助于评估数据泄露的风险。 6. **系统调用分析**:通过分析系统调用模式,可以识别不寻常的行为,例如频繁访问特定...
考虑到安全,支付过程需遵循安全协议,如SSL加密,防止数据泄露。 物流管理模块涉及配送地址、发货状态、快递公司等信息。用户地址表存储用户的收货信息,订单与物流信息关联,以便追踪包裹状态。 此外,数据分析...
CSDN是一个知名的中国开发者社区,其中的文章通常包含丰富的技术信息和实践经验,因此这篇博客应该能提供足够的上下文来理解SYD8811密码加密例程的工作原理。 标签“文档资料 密码加密例程”进一步确认了这个压缩包...
- **安全性**:确保用户数据的安全,防止未授权访问和数据泄露。 - **灵活性**:系统需具备一定的扩展性和适应性,以应对未来可能的需求变更。 通过本项目的实施,开发者不仅能加深对Web技术的理解,还能提升...
通信系统:DOA估计、编码译码、变分模态分解、管道泄漏、滤波器、数字信号处理+传输+分析+去噪、数字信号调制、误码率、信号估计、DTMF、信号检测识别融合、LEACH协议、信号检测、水声通信 5、欢迎下载,沟通交流,...
- **LinkedIn用户密码泄露**:2012年6月,部分用户密码遭泄露,需要重置密码。 - **VMware源代码被窃**:2012年4月,源代码被窃取。 - **DNSChanger肆虐全球**:2012年4月,400万台电脑被感染。 - **赛门铁克产品源...