`
Tonyguxu
  • 浏览: 278619 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

tianya数据分析

 
阅读更多

源文件数据格式:用户名 密码 注册邮箱

共 条记录,分别存储在tianya_1.txt——tianya_50.txt里,每个文件中平均约 条记录。

 

task1:获取一个文件中的所有的注册邮箱,并存入另一个文件中

 

获取一个邮箱即写入文件

ok

 

task2:task1中获取的邮箱中有重复注册邮箱,去除重复。

 

TODO :将邮箱保存在list中,如有存在则不append,再将list中的邮箱一起写入文件。

ok

 

统计单个文件里账户数及账户总数

效果如下:

文件名1 - 账户数目

文件名2 - 账户数目

...

total:xx

 

 

分享到:
评论

相关推荐

    python数据分析基础教程numpy学习指南书本附带代码

    Python数据分析基础教程主要聚焦在利用NumPy库进行高效的数据处理和分析。NumPy,全称为Numeric Python,是Python科学计算的核心库,它提供了强大的n维数组对象、各种形状的矩阵运算以及相关的工具,广泛应用于科学...

    C#网络抓取源码范例(分析天涯文章)

    7. **分析**:在抓取到数据后,可能还进行了数据分析,例如统计“楼主”发帖的数量、频率等。这部分可能涉及到数据处理和分析库,如LINQ(Language Integrated Query)进行查询,或者使用更复杂的统计分析工具。 综...

    天涯推广小助手下载地址

    天涯社区是中国知名的网络论坛之一,拥有庞大的用户...通过数据分析和市场研究,可以定制更符合用户喜好的推广内容,从而提高转化率。在数字化营销的今天,不仅要有工具的辅助,更要有策略性的思考和对用户心理的洞察。

    部分天涯密码库

    ### 天涯密码泄露事件分析 根据提供的描述和部分内容可以看出,本次密码泄露事件涉及大量的天涯用户,泄露的信息包括用户的账号、密码及邮箱地址。这类事件的发生通常意味着天涯的安全系统可能存在漏洞,导致黑客...

    天涯文本处理工具.rar

    4. **文本分析与统计**:对于学术研究或数据分析工作,工具可能包含文本分析模块,能进行词频统计、关键词提取、情感分析等,辅助用户理解文本内容和结构。 5. **编码兼容**:在处理不同来源的文本时,编码问题常常...

    天涯,58同城分类信息资源

    这些文本文件可能包含了各个分类的标题、内容、发布时间、作者信息等关键字段,便于进行数据分析和挖掘。 对于这些数据,我们可以进行以下分析: 1. **数据清洗**:首先,我们需要对文本数据进行预处理,去除无关...

    天涯 scdn 密码库

    根据描述,“庞大的密码库可用于统计分析”,这意味着这份资料可能是用于安全研究、数据分析或者密码学研究等合法目的。然而,同时也明确指出“希望不要用作其他非法用途”,强调了使用者应当负责任地对待此类信息。...

    天涯易栈的工具

    天涯易栈是一个知名的在线技术交流平台,其提供的“天涯易栈的网页抓包工具”是程序员和网络技术爱好者常用于网络数据抓取和分析的实用软件。网页抓包工具能够帮助用户捕获、查看和记录网络上的数据传输,这对于调试...

    天涯搜吧小偷程序 v1.0.rar

    小偷采集程序,又称为Web爬虫或网络蜘蛛,是一种自动化浏览网络的技术,用于搜集和整理网络上的信息,通常用于数据分析、内容聚合或者搜索引擎优化等目的。 在这个程序中,`down.liehuo.net`可能是该小偷程序的目标...

    《掌心天涯》Android版

    对于《掌心天涯》Android版的源码,开发者可以通过阅读和分析代码来理解如何实现特定的功能,如用户登录、数据同步、论坛浏览等。这为其他开发者提供了学习Android应用开发的实例,尤其是对于那些想要了解如何将网络...

    02408仿天涯论坛模板的免费论坛系统(php在线问答系统源码)v2.0.zip

    当然,您也可以从更专业角度去分析: 懂前端的,您可以单击右键查看源文件,对比互联网上所有网站HTML编码源文件; 懂PHP后端的,您可以下载这个论坛程序查看源代码编译逻辑和精简程度; 懂SEO的,您可以检查...

    基于天涯论坛的BBS在线行为分析

    数据分析结果表明节假日及周末用户的发帖量减少;用户的发帖行为符合日常作息规律,有显著的日历效应;点击量满足泊松分布与幂律分布的混合分布;用户发帖量,回复量和生存期均满足幂律分布.说明只有少数的热帖具有较高的...

    java爬取天涯社区

    在本项目"java爬取天涯社区"中,我们将探讨如何使用Java语言来编写一个简单的网络爬虫,以抓取天涯社区中的帖子数据。 首先,我们需要了解Java爬虫的基本构建模块。这通常包括以下几个部分: 1. **HTTP请求库**:...

    前端静态模板-手机仿天涯社区Discuz-学生作业毕设实训素材.zip

    它还可以利用AJAX(异步JavaScript和XML)技术,实现无刷新的数据更新,提升用户体验。 对于前端框架和库的使用,虽然题目中没有明确提及,但通常为了提高开发效率和代码质量,开发者会选用一些流行的技术,如React...

    只看楼主_天涯百度贴吧帖子下载_贴吧脱水(Python)

    其次,天涯和百度贴吧的网页结构可能各不相同,因此在编写爬虫时,需要对每个网站的页面结构进行分析。例如,楼主要发的帖子通常有特定的标识或者类名,爬虫代码需要能够识别这些特征,以便正确地提取出楼主的帖子。...

    天涯在线书库--星座花语

    全站源码通常包括前端页面、后端逻辑、数据库脚本以及可能的配置文件,通过分析这些代码,开发者可以深入理解项目的架构、功能实现以及优化策略。下载这些资料可以帮助初学者提升技能,也可以为有经验的开发者提供...

    天涯海格酒店管理系统实现

    此外,系统还可能具备历史记录查询功能,用于追溯过去的入住情况,为决策分析提供数据支持。 其次,预定功能是酒店管理系统的核心模块之一。天涯海格系统支持在线预订,客户可以通过网站或者移动应用方便地查看房型...

    《天涯明月刀手游》背后的自研数据库 — TcaplusDB.pdf

    《天涯明月刀手游》作为一款大型多人在线角色扮演游戏(MMORPG),其后台数据库面临着海量数据存储和高并发读写的挑战。传统关系型数据库无法满足业务需求,因为它们不支持热更新、改表结构需要停服、不支持无状态...

    (彬)泪闯天涯-彗星取特定文本源码

    这种工具通常在处理大量文本数据时非常有用,例如在数据分析、网页抓取或日志分析等场景。 【描述】中的“彗星取特定文本”可能是指该项目具有快速、高效地从大量文本中抓取特定模式或关键字的能力,就像彗星划过...

    天涯搜吧 v1.0-ASP源码.zip

    学习和分析这个ASP源码,可以提升对服务器端编程的理解,尤其是对于服务器端脚本的执行流程、数据处理逻辑以及页面动态生成机制。对于开发者来说,这是一个很好的实践平台,能够通过实际操作来提升自己的技能,同时...

Global site tag (gtag.js) - Google Analytics