数据分析第2篇|深入理解:探究四种常见的数据分析类型
在【数据分析第一篇|概念扫盲】,通过三个故事简单给大家扫盲了一下数据分析的概念,让你可以快速理解数据分析的本质。但真实的数据分析肯定是要复杂的多。
我们提到数据分析就是从数据中提取有价值的信息的过程,目的是用于决策。数据分析是一个过程,是一个我们通过数据理解世界的一个过程。
在刘慈欣的科幻小说《三体》中,智子是一种超级人工智能,其能力和智慧远超人类。故事中三体人通过智子 锁死了人类科技。
其锁死人类科技的核心就是在微观层面干扰人类科学实结果,从而使人类科学家不能正确地开展数据分析,无法对物质深层的结构进行有效探索,失去了理解世界的能力,从而无法产生突破性的科学发展。
由此可见数据分析的重要性。这篇文章,我们就来聊一聊数据分析的四种类型,了解一下如何利用数据来帮助我们更好地理解世界。
第一类:描述型数据分析
我们都知道,所谓的数据是对事实的描述,比如说你的身高、体重、籍贯等等。对这些数据的描述本身也是一种分析。
举一个例子:最近我在看房子,每天会关注成都市二手房的成交量,比如说{2023年2月27日成都二手房成交了465套}
这就是描述型分析,如果你写过实证分析相关的论文,这个就是对数据的描述,比如说我上面提到的毕业论文,在完成数据处理后会做一个描述型统计分析:
2012年,国有企业控制下的上市公司数量达到了1176家,占比超过50%,到2016年,这个数字下降到了1015家,占比降至不到50%。与此同时,民营企业控制下的上市公司数量在同期内从978家增加到了1183家……第二类:探索性数据分析
探索性数据分析,有个英文名叫Exploratory Data Analysis,简称EDA。我们所说的一般意义上的数据分析就是指探索性分析。
所谓的探索性分析就是提出一个问题,然后通过数据的特征、规律、分布和异常等情况,给出问题的答案,辅助决策。
这也是一般企业里数据分析师的核心工作:比如说探究什么用户注册数变少了?为什么公司的GMV下滑了?等用户运营或者产品运营层面的问题。
讲一个故事:
2021年我在一家公司金融小贷部门做数据产品经理,主要做贷前的反欺诈产品。
有一天运营部门的同事突然发现,当天下午的3点-6点,申请贷款的用户暴增,而且比过往的每天平均客户数多了2倍多,而且还在持续增长,于是立刻汇报给了部门领导.
部门领导就给数据分析的同事抛出来一个问题:是什么原因导致用户数骤增?
数据分析的同学接到任务,立刻着手进行数据分析,拉出当天3~6点申请贷款的客户的全部信息:性别、年龄、籍贯、手机号、婚姻状态,驾照信息、申请地点等等……
经过几个小时的分析,最终得出结论:这是一起无组织的集体撸贷行为。
原因也很简单:这些客户分散在全国各地,申请时间高度集中,而且申请的贷款流程中约50%的人上传的都是同一个驾照信息。
作为一名优秀的数据分析师,并不会甘于只做探索性分析,而是会给出指导和改进的建议。
比如说我上面讲的的故事里,我们部门在发现了这个问题后,给业务部门提出了优化建议:建议在贷款流程中加入驾照身份核验,必须要身份信息和驾照信息一致才能申请贷款。
因为有数据支撑,业务部门也很快采纳了我们的建议。
第三类:指导性数据分析
指导性分析,英文名叫Confirmatory Data Analysis,简称CDA。
别被它的名字给误导了,基本大多数研究生和博士生论文都是指导性分析,也就是所谓的实证分析。
它要求你在做数据分析前,先明确研究问题,并提出假设,然后通过严格的统计方法和模型验证,对数据进行检验和分析,以验证研究假设的有效性和可靠性。
和探索性分析不同,指导性分析的目标是验证数据分析中的假设和研究结论是否正确,它需要做出明确的假设,并通过统计模型和验证方法来检验假设的有效性,以确保分析结果的可靠性。
CDA通常是在EDA之后进行,当我们已经了解数据并发现有趣的关系时,需要进行进一步的验证和检验。
CDA在科学研究和数据分析中非常重要,因为它可以帮助我们确定研究结论的有效性,并排除偶然性和误差的影响。
同时,CDA也可以帮助我们发现数据中的异常和离群值,以及其他可能影响分析结论的因素。
第四类:预测性数据分析
预测性分析,又叫Predictive Analytics。这个概念有点晦涩,但却早已飞入寻常百姓家。
预测分析是指通过对历史数据和趋势的分析和建模,预测未来事件或行为的发生概率或趋势。
它的目标是利用现有的数据建立预测模型,它可以帮助决策者更好地理解未来发展趋势和可能发生的事件,以便制定更加科学的决策和策略或者让用户更加上瘾。
看到这个,你是不是想起了抖音、快手、微信视频号。没错,这类短视频工具无一例外地使用了预测性数据分析,它可以将你的注意力数据作为输入,输出你更为感兴趣的视频 ,让你越刷越想刷,越刷越停不下来。
抖音2小时,人间五分钟。就是这么来的。
预测性分析有较高的技术门槛,它需要完整的数据清洗、特征选择、模型选择和评估等步骤。
在建立预测模型时,我们需要选择合适的特征和算法,并对模型进行训练和优化,以达到最佳的预测效果。
这些从业人员也一般称之为算法工程师,而不再是数据分析师了。
-----------------------------
页:
[1]