我们总是在谈数据分析,那么到底什么是数据,数据有什么特征呢?这个问题虽基础却重要。
这里我们所说的数据,仅指应用于企业运营的市场信息。它是认识事物的中间环节,是事物的表面特征,其作用在于消除事物的不确定性。它至少具有以下四个基本特征。
一、时效性
所谓时效性是指数据的发生和运用要有个提前期,失去时效性,就失去了潜在机会。
举个例子,以前在广州有个大厦,它对数据的时效性运用的就很好。据说有一年,它的经理和别人聊天,人家无意间提起说那年春天广州的雨水将特别大,于是他特意去了广州气象台证实,证实后,他开始调查,发现深圳一家厂子里积压着20万多把雨伞。当时正是11月份,旱季,这家厂子压着20万多把雨伞早就想出手,所以这个大厦的经理就去了深圳,以极低的价格就把雨伞盘进来了。结果那年广州的春天来得特别早,一过春节,这雨哗哗就下起来了,他趁机20多万把雨伞往出卖,结果一销而空。这就是利用了信息的时效性。
简单吗?很简单,只需要到气象台问一下,但是,有多少企业会问呢?其实并不多,因为很多企业就没有提前获取数据的意识。经常是等到下雨了再进雨伞,那就没买卖做了。
数据要具有时效性,或者说数据分析要有预见性,因此,大家在采集数据的时候,要注意数据的时效性,要具备用现在的数据预测未来市场的走向的意识。
二、分散性
数据的分散性,具体表现在两个方面。
1、没有固定发生地
数据没有固定发生地,因此,需要多渠道采集数据,除了上网、图书馆查资料、还要留意电视、杂志等媒体的信息,关注统计局、行业协会、研究机构的数据或者直接做市场调研。
2、零散分布,相互关联才完整
数据是零散的,真正能还原数据的完整性,并充分利用数据的,都是勤于思考,努力寻找数据关联性的人。
在旧社会的解放区,人人都听到,河北省出了一个白毛仙姑,但是谁也没有去琢磨,当时只有20岁的贺敬之琢磨出来了:这叫做旧社会把人变成鬼,新社会把鬼变成人。于是他就写出了不朽的名著叫做《白毛女》,正可谓“人人之所见、人人所未思”。
三、概率性
什么是概率性?简单理解就是看似结果不确定的事情,多次重复,就会显示出一定的规律性。
比如我们抛硬币。抛5次、10次,到底有几次正面向上不好说,但若抛几百次,几千次,正面向上的可能性就稳定在50%左右。
有一个生产装汽水、装啤酒的塑料箱的小厂厂长,了解了数据的概率性,就把北京邮政编码本找来,找到北京130个单位,发了130封信,结果就回来1封,让他拿着样品过去看看,概率够低的。这个厂长怕别人搞不好,就自己夹着箱子去了。这家单位在4楼,厂长把箱子递过去,那老兄看都没看,一推窗户,‘磅’的一声,就给扔出去了。然后那老兄就往下跑,这厂长就在后面追,到了楼下,一看这箱子,一点没坏!那老兄说:“行!这箱子挺结实的,定货!”半年的买卖就有了。玩的就是概率。
数据的概率性告诉我们:成功=努力+等待。
四、再创性
所谓再创性是指我们所看到的数据只是一种现象和启示,不同的人会得出不同的结论。而要想透过现象看本质,需要用发展的眼光看问题,通过深入的分析,找出隐藏在市场现象背后的机会。
例如,二战后,松下幸之助开始研制一个非常不起眼的家庭用电机,好多人嘲笑他,说电机都是工厂用的,你这电机家庭干什么使呢。但是,松下幸之助看到了家用电机的发展,他说:‘现在是零,将来就是无限。’用发展的眼光看问题,才能再创性地挖掘机会。
再讲个故事:有甲、乙两个推销员,同时到非洲的一个岛国卖鞋子。这个岛国里人人都光着脚丫。甲推销员一见到他们都不穿鞋,于是认为鞋子在这里没有销路;而乙推销员将数据进行再创,看到他们不穿鞋,于是拿着鞋子来做调查,经调查发现:这里的人之所以不穿鞋,是因为他们的脚都特别宽,而市面上的鞋太窄,他们穿不进去。于是他建议公司生产出专门适合这个岛国的鞋子。此外,他还把尺寸合适的鞋子送给当地的酋长,酋长一穿鞋,感觉舒服极了,而老百姓一看酋长都穿鞋了,他们也想穿。等到老百姓也想穿,就有市场了,原来都不穿鞋,现在人人都要穿鞋,于是乙推销员让鞋子很有销路。这个故事说明,数据只是现象和启发,只有深入的分析,才能再创性地挖掘机会。
以上就是数据的四个特征:时效性、分散性、概率性、再创性。
了解数据的四个特征,对于我们的数据工作具有启发。例如,数据采集就要充分考虑到数据的这四个特征:
基于时效性,数据采集要有项目周期;
基于概率性,数据采集要有抽样设计;
基于分散性,针对不同的数据来源要有不同的采集方法和问卷设计
基于再创性,要对采集到的数据信息深入地分析和解读
相关推荐
在"四个特征脸代码"中,我们可以理解为通过PCA算法处理得到的四个最重要的特征脸图像。特征脸是主成分分析的结果,它们是原始面部图像数据在新坐标系下的投影,这些投影图像代表了数据的主要变化方向。通常,前几个...
KDD Cup 1999 数据集是一個常用的网络入侵检测数据集,它包含了 41 个特征变量和一个分类标签。这些特征变量可以分为基本特征、流量特征、目标主机特征和时间特征四大类。 基本特征 1. duration: 连接持续时间,以...
RM: 每个住宅的平均房间数 LSTAT: 区域内房东的地位,表示低收入人群的百分比 PTRATIO: 区域内学生和教师的比例 MEDV: 自住房的中位数价值,以千美元为单位 可采用岭回归和线性回归进行预测
总结来说,数据的这四个特征要求我们在数据分析过程中,不仅要重视数据的及时获取,广泛搜集,还要理解数据的随机性,并能从中创新思考,发现新的商业模式和市场机会。在实际操作中,应制定项目周期以确保数据的时效...
四维数据通常由四个变量组成:X、Y、Z和S,其中X、Y、Z代表三维空间坐标,而S则代表在这些坐标上的某种属性值。本篇文章将深入探讨如何使用MATLAB中的`scatter`和`slice`函数来构建四维数据的空间模型。 首先,`...
本篇文章将聚焦于一个特定的方法——利用四个特征点来估计相机姿态,配合OpenCV库实现这一过程。OpenCV是一个强大的开源计算机视觉库,提供了丰富的功能用于图像处理和计算机视觉算法的实现。 首先,我们需要理解...
本项目专注于处理和提取人脸68个特征点中的关键点数据,以便于后续的面部分析任务。以下是对这个项目的详细说明: 首先,我们要了解的是“人脸特征点”。在计算机视觉中,人脸特征点是指在人脸上定义的一系列特定...
这个数据集共有12个特征,包括了红酒的11个理化性质以及一个质量评分(1到10的评分体系)。这些特性对于评估红酒的质量至关重要,因为它们反映了红酒的基本构成和化学特性。 首先,我们需要导入必要的Python库,如...
描述中提到,该程序可以分类四种音乐类型,这表明网络至少有一个输出层,包含四个节点,分别对应每种音乐类型。训练过程中,需要准备一个标记有正确类别的数据集,每条记录包含相应的语音特征和对应的标签。通过反复...
这个过程可以评估每个特征的重要性,并构建一个只包含最相关特征的子集。 4. **随机森林特征重要性**:随机森林是一种集成学习方法,它能同时进行分类和特征选择。通过计算每个特征在所有决策树中作为分割节点的...
标题"mnist四个数据集"指的是著名的MNIST数据集的一个变体,通常MNIST数据集被分为三个部分:训练集、验证集和测试集,但这里提到的是“四个数据集”,这可能意味着除了标准的训练和测试集外,还额外包含了其他数据...
每个样本有四个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。 本资源提供了Iris 数据集的下载链接,并附带了数据预处理、特征工程、分类算法和数据可视化的示例代码,帮助用户更好地理解和应用该数据集。 适用...
- **手机用户流失率分析**:这个案例可能会涉及多个变量如地区(region)、服务期限(tenure)等,通过对这些变量进行数据清洗和特征选择,从而构建预测模型来预测用户是否会选择离开当前的服务提供商。 - **鸢尾花数据...
四维数据通常由四个坐标轴(x, y, z, w)组成,其中w轴代表第四维度。处理四维数据时,直观的可视化方法至关重要,因为它可以帮助我们更好地理解数据的复杂模式和趋势。 标题“四维数据的显示”指的是如何有效地将...
4. 选择主成分:根据特征值的大小,选取前k个特征向量,作为新的坐标系的基,k通常远小于原始特征的数量,这便是降维的过程。 5. 数据投影:将原始数据投影到这k个主成分上,得到低维表示,即特征脸。 6. 显示结果:...
鸢尾花数据集,三种分类,四种特征
### 故障电机典型频谱特征整理数据集概述 本数据集主要针对三相异步故障电机的典型频谱特征进行了整理与汇总,旨在为电机故障诊断提供重要的参考依据。通过收集不同类型的故障电机在运行过程中所产生的振动信号,...
在数据挖掘领域,时序数据的分类是一个重要而复杂的任务。时序数据广泛存在于各种...通过掌握上述四种主要的特征提取方法,研究者和技术人员可以更加科学地处理时序数据,进而在不同的应用场景中发挥出数据的最大潜力。
在这个项目中,研究者使用了著名的鸢尾花数据集,该数据集由Ronald Fisher在1936年提出,包含了150个鸢尾花样本,分为Iris setosa、Iris virginica和Iris versicolor三个类别,每个样本有四个特征:萼片长度、萼片...
主数据管理实施四部曲是指企业在实施主数据管理时所遵循的四个关键步骤,这四个步骤分别是:摸家底、建体系、接数据、抓运营。下面将详细阐述这四个阶段。 1. 摸家底: 在实施主数据管理之前,企业首先需要全面了解...