百度apistore、阿里云云市场、数据堂、聚合数据
数粮、极速数据、apix、通联、大海洋、优易数据
还有上面答案提到的几个网站,总体来说这些网站的数据量在不断增加
如果找统计数据可以直接去国家统计局网站,量大、正宗,并且可以外链到几个全球范围的统计网站,质量很高 现在找数据的渠道很多,基本上分为开放性的数据和爬虫获取的专业数据,另外现在逐渐也可以找到一些数据交易平台了。无论是哪种渠道,主要应该想好所找数据的方向,才能挖掘出更多数据。同时数据收集后要做好梳理分析,才能让数据产生价值。
结合上面说的,列举一些常见的数据渠道,希望带来一些帮助:
1、开放性的数据渠道
一般这种数据比较好找,像国家统计局、中国信息统计网,以及北京、上海等地方政府类数据官网,里面包含了城市、交通、就业、基础设施等数据。当然还包括行业类的一些数据平台,比如新浪财经、东方财富网。又或者智联招聘、猎聘网等就业市场类的数据。不过很多开放的数据渠道可能数据会有些老,且比较散乱,通常需要多个渠道去找,这需要有鉴别能力,慢慢梳理,不要着急。
2、专业爬虫数据渠道
不建议数据小白通过这种方式和渠道挖掘数据,因为前期需要学习爬虫获取技术,比较耗费时间和精力。有基础知识和能力的小伙伴,可以从易观智库、阿里研究院、科赛网等,以及火车头、八爪鱼等采集软件中获取,但可能会出现采集速度慢,数据混乱等情况。另外关于国外的数据网站,检索成本较高,比如部分需要VPN翻墙或者数据信息冗杂,需要加强鉴别梳理,因此不建议小白采用这个方式。
3、数据交易渠道
现在数据交易渠道也很多,通过付费方式得到想要的数据。虽然有一定的成本,但
数据获取效率会比较高,像数据堂、万得、数位观察、优易数据等。这些数据交易渠道的
数据覆盖面很广,比如数位观察,可以直接查询城市、客群、商圈、品牌、区域等,而且数据相对精准全面。此外,这些渠道的数据都比较有逻辑性,像在数位观察上查,得到的数据都有热力图、模型的分析梳理,这样就省去数据统计整合的过程,提高效率,省事省心。
数据挖掘可以通过商业软件来实现,例如:思迈特软件Smartbi mining,SAS,SPSS clementine等;也可以通过自己编程或是下载已有的开源代码来实现,例如:决策树就有C4.5、ID3等很多种成熟的开源算法。 下面分享精心整理的数据网站,涵盖各种原始数据以及数据分析报告,看完麻烦点个赞哈
0. 搜数网
http://www.soshoo.com.cn/index.do
1.中华人民共和国统计局
国家统计局
2. 中国互联网络信息中心
中国互联网络信息中心
3. 中国信通院
中国信息通信研究院
4. 艾瑞网
报告_艾瑞网
(另外,我整理了学习数据分析完整的路线需要的书籍送给大家)
错过了,需要再等一年的数据分析书籍5.前瞻网
经济学人 - 让您成为更懂趋势的人_细分产业市场分析_前瞻经济学人App - 前瞻网
6. 极光大数据
数据报告列表 - 极光
7.中国互联网数据资讯中心
互联网数据资讯网-199IT | 发现数据的价值-199IT | 中文互联网数据研究资讯中心-199IT
8. 易观智库
分析报告-易观分析
9. talking data
数据报告-移动观象台-TalkingData
(另外,我整理了学习数据分析完整的路线需要的书籍送给大家)
错过了,需要再等一年的数据分析书籍5.前瞻网
10.艾媒网
艾媒网-全球领先的新经济行业数据分析报告发布平台
11.七麦数据
七麦数据(原ASO100)-专业移动产品商业分析平台-ASO-ASM优化
12.企鹅智库
企鹅智酷_腾讯网
13.腾讯大数据
腾讯大数据
14.IT桔子
IT桔子 | 泛互联网创业投资项目信息数据库及商业信息服务商
15. 百度指数
https://index.baidu.com/v2/index.html#/
--------------------
码字不易,麻烦给我点个赞,更多干货不要错过关注我 分享一下我平时常用的几个经典的数据源吧。
1,世界银行公开数据:World Bank Open Data
免费并公开获取世界各国的发展数据,数据全面、权威且比较规范。
2,联合国人口司数据集:United Nations Population Division
网页中有个数据专区,含有各种人口相关的数据集,比如人口老龄化数据、全球移民数据、世界人口婚姻状况数据、人口增长趋势数据等等,想挖掘人口相关的问题,是一个不可多得的数据源。
3,Kaggle数据集:Datasets | Kaggle,总有你感兴趣的数据
Kaggle主要是为数据科学家提供机器学习竞赛、编写和分享代码的平台,里面的各种数据集十分丰富。
4,如果上面的几个不能满足你的需要,那就给你来个集大成的数据网站
大数据导航:大数据导航-大数据工具导航-199IT大数据导航-199IT大数据工具导航-Hao.199it.com
数据包罗万象,各行业、各领域分门别类,总有你需要的。
5,授人以鱼不如授人以渔,没有数据就没法玩做可视化吗,NO!
没有数据还可以自己模拟数据,分享一个数据模拟神器:WebPlotDigitizer,
不用到处找数据,如果你想做图,没问题,把你想要的图表导进去,这个神器可以帮你模拟出一套数据哦(工具获取及用法详见:采悟:PowerBI完美制作魔力象限图,内含可视化神器!)
最后,如果你下载数据不方便,我平时自己整理使用的一些数据,近百个、Excel格式,简单易用,在微信公众号「PowerBI星球」,回复关键字"数据"即可获取下载链接。
学习愉快!
. 原创作者:吴晓光
出自公众号:51CTO技术栈
“时下数据科学是一个热点话题,各个行业里面也有一些比较成熟的应用,在这个大的背景下,我们在大约一年前就开始有意识地把数据技术、数据分析、数据挖掘这些技术融合到运维领域的应用。”
在这个过程中,我们做的时间其实不长,比较短,目前只是做了一些相对来说较为简单的一些事情,但取得的成果在公司内部感觉还是比较好的。
CDP白皮书:2020营销技术新风向 - Linkflow联否官网今天跟大家分享一下我们在应用开发过程中的一些案例,即如何让数据技术在运维实践中得到充分的应用,希望对大家的工作有一些参考价值。
分为四个部分进行分享:
[*]数据处理技术应用
[*]数据分析技术应用
[*]数据挖掘技术应用
[*]应用生态建设及规划在运维中我们会碰到各种各样的问题,如下图:
但有些问题我们经常重复遇到,并且形成了一些提问范式,如:
[*]“有问题或故障发生吗?”,这个提问转换成数学问题就是建立“异常检测”模型。
[*]当我们确认有问题时,我们本能地会问“哪里出了问题”,这便是一个“根因分析”问题。
[*]对于一家电商公司来说,促销前总是要对线上系统进行容量评估和扩容,这里便有一个“预测”模型需要被建立。
[*]当我们每做完一个项目,需要对项目需要达成的目标进行定量的评估,这便是一个“绩效分析”的问题。
目前各类数学模型的输出在我们的具体工作中主要被用作辅助决策,有两个原因使我们还不能直接把结果自动地用于决策:
[*]我们对数据的使用能力还不能做到面面俱到,很多业务知识还无法用算法描述。
[*]算法的输出结果一般都是有概率的,在很多需要“绝对正确”的场合只能作为参考。
在实际工作中,算法和业务规则库都会进行建设,用来帮助运维人员更容易和正确地做出决定。
今天给大家重点介绍“数据处理技术”、“数据分析技术”、“数据挖掘技术”这三个方面在唯品会的应用实践,主要会讲到一些应用场景,最后谈下“数据技术”在运维的生态建设和一些规划。
数据处理技术应用
对于数据处理技术来说,我们主要解决以下五个方面的问题:
[*]数据的准确性、及时性
[*]海量数据的实时计算
[*]多维数据的实时监控
[*]多维数据的展示
[*]A/B 测试实现方法
这里有些问题在行业里已有比较成熟的解决方案,有些可能不是每个公司都会碰到。
数据采集
首先我们看数据采集,对唯品会来说,我们主要是两类数据:
[*]日志数据
[*]数据库数据
对于日志数据来说,我们有两类采集:
[*]客户端的日志采集
[*]服务器端的日志采集
对于服务器端的日志采集,实际上是比较简单的,一般来说就是落到本地盘之后,通过 Flume 传送到公司的 Kafka 集群,然后大家在上面消费。
对于客户端行为的采集,分成两种:
[*]Web 端的采集,一般来说就是通过异步请求在 Nginx 上落日志。
[*]APP 端的采集,一般是通过一个接口调用的方式,把这些数据落到服务端,再由服务端把这个数据收集起来。
对于数据库的采集,实际上我们也是有两种方法:
[*]直接在从库上来做这种指标的计算。
[*]对于复杂的应用,我们会把 DB 的 Binlog 做一些解析,解析完了之后放到一个消息总线上,实际上就放到 Kafka 上,然后让大家来进行一个消费,每个应用都是根据自己的特点,重构自己的数据结构。
有些会还原数据库,有些就直接用消息来计算指标,具体要根据情况进行分析。
上图主要描述了唯品会用到的一些主要开源产品,基本上是这样。
数据计算
数据计算是比较重要的一环,实际上要兼顾性能和灵活性两个方面。
对日志的处理,会有一个日志解析程序来消费 Kafka 的消息,“日志解析”实现一个实时 ETL 的过程,我们会根据配置(基本配置也跟 ETL 差不多)去生成预定义的标准格式,后续就交给 Spark 做聚合。
“日志解析”由于日志之间没有相关性,可以 Map 之后并行计算,吞吐量和资源的投入是成正比的,这样效率就没有什么太多的问题。
对于 Spark 的聚合配置,一般来说我们会把日志解析完的数据进行定义,定义各个字段是维度或是指标,然后会做一个全维度的聚合。
这里面实际上也是有个要求的,我们要求所有的指标在各个维度上都具有累加性。
如果不具备累加性(比如百分比这种指标),我们在 Spark 里是不做聚合的,只是在展现的时候重新计算,计算好的数据会放到一个 OLAP 和 MOLAP 的数据库里。
还有一种情况,是通过脚本在数据库从库上直接进行指标的计算,一般用于只有时间维度的指标计算,配置好的计算脚本,我们会用公司开源的一个产品 Saturn 来进行一个分布式调度。
Saturn 这个东西还是不错的,推荐大家去尝试一下。对于日志的详细查询,我们还是放到 ES 里,通过全文检索的方式来查询。
数据展现
数据展现是最终的结果输出,实际工作中,我们对结果数据的查询效率要求比较严苛,因为这些结果数据不仅用于前端,还用于告警输出等各个方面。
对于告警的数据我们需要做到毫秒级响应,前端界面一般要求是在 3 秒内渲染完成。
为了完成这个要求,我们构建了一个 ROLAP 数据库,还有一个 MOLAP 的数据库,在 ROLAP 的数据库里,一般只存当天的多维数据,而在 MOLAP 的数据库里,会存历史数据。
对于 MOLAP 数据库的检索,由于应用主要是切片方面的需求,基本上都是 K-value 模式的一个检索,所以它比较快。
MySQL 里一般是存放单维度指标,应该这么讲,它不是多维数据。Redis 缓冲里,一般会存放我们的秒级数据,还有一些配置信息。
这个架构中,最后通过 ApplicationServer 进行一个数据的整合,来满足前端数据的一个展示要求。
多维分析界面案例
这是一个多维分析案例的界面,左边是我们的分析平台,右边是我们的实时监控平台。
从这上面大家能看到,我们实际提供的功能主要是对数据切片的能力,这个能力基本可以满足我们目前所有的需求。
A/B 测试实现
对于数据分析来说,基于 A/B 测试的对比分析是一种重要的方法,因为 A/B 测试对比的结果容易被业务理解,如果没有 A/B 测试,你说我做了一件事情,这件事情带来了一个好的效果,还是很难经得起挑战的。
在 A/B 测试中,它需要一些技术来支撑的,因为我们在线上同时会有很多 A/B 测试的案例同时在跑,你自己的 A/B 测试不应该被别人干扰。
在这种情况下实际上是要求各个 A/B 测试之间的用户分布得具有正交性,也就是说别人的 A/B 测试集用户应该平均分布在你的 A/B 测试集上。
这种实现我们大约有两种方法,一种是会在 APP 端设置开关,每个开关管理一个 A/B 测试的实验。
更多的 A/B 测试,是统一请求后端的 A/B 测试分组服务,这个服务通过算法来保证各个试验之间相互独立。
一般来说,当客户端发起 A/B 测试场景的时候,就会向 A/B 测试分组服务发个请求,然后 A/B 分组服务会返回这个用户是属于 A 组还是 B 组,一般是这样的。
数据分析技术应用
这部分会简单介绍具体的分析方法,并主要说下应用场景和案例。我们的运维数据分析技术主要是用于解决两方面的问题:
[*]绩效分析
[*]根因分析
绩效分析
以前我们做了挺多的项目,这些项目一般来说 WBS 分解之后,我们会对项目的结果做一个简单的跟踪,只是说做完了,还是没做完,一般也不会对它做一些定量的分析或者说对这个质量有一个看法。
这种情况在我们的项目中非常常见,这种项目一般来说比较小,都是靠个人技术能力就能控制住。
但在大型项目中这种做法就很困难,它会面临更多的一个挑战,尤其是跨部门合作等情况,因为大家的沟通手法不仅仅是技术的,可能还有一些管理上的,这时就需要大家用数据在各个部门之间作为一个沟通的桥梁。
绩效分析-全站 HTTPS 项目案例
于是数据分析人员开始介入来进行分析体系的设计,主要包括:分析指标的设计和分析维度的设计,同时和研发确认数据采集方案、A/B测试方案、统计口径等。
指标主要是根据项目中各项工作都关注什么问题来设计,而维度的设计是从当指标不满意时,可以在哪些方面着手改进来进行。
在这个项目中可预见的是,由于证书握手的原因,TCP 连接时间会变长,可能会影响用户体验,同时也会减少劫持从总体上提高用户体验,所以项目的目标设置为转化率至少不下降,最好能有上升。
我们实际上是做了一个 HTTPS 的全站项目,在项目开始之初,我们就有意识地把数据分析团队和技术人员整合到一起跟进项目,取得了不错的结果。
数据分析人员在项目的初期就已经开始介入,来进行分析体系的设计,主要包括:分析指标的设计和分析维度的设计,同时和研发确认数据采集方案,A/B 测试方案,统计口径等。
分析人员会把这些工作做好,可他们怎么来设计这个项目的一些指标呢?一般来说,在 WBS 分解之后,我们关注什么问题,就会把这个问题变换成一个主要的监控指标。那如何去设定这些维度呢?
实际上这些维度都是我们能解决问题的一些角度,也就是说实际上所有的维度都是我们能控制、能改善的地方。
首先 HTTPS 项目,不知道大家有没有了解,如果了解可能知道 HTTPS 项目,因为 TCP 握手时间会延长,这一点上可能会损失一部分的用户体验,但在防劫持等方面,又会加强整体的用户体验。
在这种情况下,我们项目设立了一个最终的主要目标,也就是保证转化率,这个转化率不能下降,最好还有一点点提升。
在这个主要目标上,我们就控制这个主要目标,不停地灰度放量,不停地调整,这个效果是比较好的。
因为在这个过程中我们发现了很多的问题,同时这个项目持续了大约 8 个月,在 8 个月中我们没有发生过任何重大的故障。
这个案例是对错误率的分析和监控,有一次发现我们的错误码是 HTTPS 的证书认证过不去。
这种情况在某个省某个运营商大规模地发生,我们从分析的角度看这些节点 IP 是不是我们自己的 IP,这样我们就知道在这个地方发生了大规模的 DNS 劫持问题,于是就去协调当地的运营商把这个事情搞定。
数据分析也会发现一些代码中的问题,我们做 HTTPS 项目,可能要对代码进行一些修改,比如说在整个 HTML 里是不能存在 HTTP 协议的硬编码。
但由于历史原因,这种地方还是比较多的,开发人员很难排查完,实际上需要分析人员通过数据分析手段去查,把这些没有改过的代码找出来。
还有一些图片的问题,我们发现一些图片的拼接错误,当然是报了 404。
报了 404 之后,我们对这个错误码分析,发现突然多了,把报错的 URL 做一个排序后发现一些是拼接的错误,还有一些是由于特殊字符引起而导致了无法生成正确的请求。
我们对 TCP 的握手时长也会进行跟踪,在做灰度选型阶段,我们在不同的入口采用了不同的技术类型,通过分析各个入口的握手时长来辅助运维人员进行一个加速卡的选型,还有一些参数调整等工作。
绩效分析-其他案例场景
这个项目进行完成之后,我们总结了很多经验,慢慢地在其他的项目中也逐渐有意识地运用数据分析技术,把数据分析人员和技术人员有效地结合在一起。
这里面也有几个案例:
[*]比如说 CDN 厂商切换时,我们要跟踪错误率、响应时间这样的一些指标,来决定切换是否需要回滚。
[*]促销前的一些流量调度,我们也要分析调度策略的预期结果,比如说各个入口的流量是不是按我们的计划把这个流量调度到位了。
[*]每次 APP 版本的更新,我们也需要不停地来跟踪它的访问连通率、网络连通率等一些关键指标。
根因分析
在数据的基础上,我们也可以做一些原因的查找,通过数据分析进行的原因查找有时可以直接帮我们定位到问题,在更多的时候可以有效地帮我们缩小问题的范围。
通过数据来查找原因,这其实是有一定局限性的,局限性就在于数据的维度,因为我们只能在分析的维度上来进行查找,如果故障的原因没有在我们已知维度上,实际上是找不出来的,但大部分时候还是能起到比较关键的作用。
对于直接利用多维数据进行问题的分析,我们大约有三个步骤:
[*]确定问题,确定问题之后,就确定了是哪个指标有问题。
[*]做一些数据上的分析。
[*]找到问题之后,我们要做数据和业务上的一些验证。
主要的方法有两种:
[*]排序表,这个最简单了,就是人眼看,通过排序我们可以解决70-80%的问题。
[*]数据探索,有点自动化的意思,它有一个原理,实际上并不是所有的数据都能进行探索,我们目前就是假设这个数据在任意切片上,在时间维度上它是属于均匀分布的。
在这种情况下,我们认为这个误差值是符合正态分布的,就可以比较容易地做一个异常的检测来看每个数据切片上是否有问题,当所有的数据被探索完之后,问题的原因也基本能找到。
根因分析-案例
这是非实时根因分析的一些案例:
我们有一次网络连通率连续三个月下降,我们分析到最后,发现这个 APP 的版本有些问题,某天之后所有新发布的 APP 版本连通率下降都比较大,跟研发反馈之后,他们就在 SDK 做了一些调整。
实际上真正错在哪,我们并不知道,我们只能知道这个版本有问题,更多地去帮助技术人员缩小这个范围。
图片错误率上升,刚才已经介绍过了,再就是实时的根因分析,刚才讲的都是一些平时的案例,而实际上我们也做实时的系统,这些实时的系统就是希望利用多维数据,在系统告警后,能够帮助大家更快定位一些问题。
这里也有两个例子:
[*]连通率下降之后,我们会发现某类错误码是影响的一个主要因素,有针对性地解决问题后,发现连通率恢复了,这样基本上可以定位故障。
[*]某一个应用的错误率有上升,我们会看到有些省份影响比较大,具体看是一些 CDN 节点的故障,切换后,故障得到恢复。
总体看,实时分析还是能够比较快地帮助运维人员定位问题。
数据挖掘技术应用
对于数据挖掘来说,我们目前所应用的场景,或者说能帮我们解决的问题主要有三类:
[*]预测。
[*]异常检测,主要是用来做告警阈值自动的设置。
[*]做一些根因的分析,它的目的和刚才讲的基于数据分析的根因分析是一样的,但在实现上算法有些不同。
预测
我们现在的预测,主要是做了一些业务指标的预测,比如像 PV、UV、订单、购物车这样的一些业务指标,下面我讲一下订单的预测。
如上图,是我们的订单预测图。当时做这个预测,实际是有应用的场景,当故障发生时,需要实时跟踪预计的损失,以便于我们确定故障的等级,还有就是调度解决故障需要的资源量。
大家可以看到,这种预估我们还是比较容易可以算出来的,在什么时候这个故障已经好了,什么时候它的损失达到什么程度,我们的故障是不是需要升级。
这里面有一个技术点需要解决,就是说我们在故障的时候,实际值已经掉下去了。
而我们的预测算法需要前一分钟和前几分钟的数据,为了不把故障的数据引入到算法中,在故障的时候,是用预测值代替真实值。
具体来说,就是用上一周的数据做一些平均的加成来替换,然后再做下一次的预测。
对于预测算法,我们开始采用的是时间序列中的 holt-winters 算法,因为我们公司的数据周期性比较明显,我们在时间序列上做拟合时还是比较准确的,应该来说效果还比较好。
但这个算法到了一定时候,我们就碰到了一些问题:
[*]促销和平时不太一样,也就是说促销的数据,我们是拟合不上的。
[*]在告警和一些夜晚流量低峰时,这个数据波动还是比较大的,告警的准确率也不是很高,我们怎么来解决这个问题呢?
先看促销,对订单量来说,订单达到高峰之前,我们的 PV、UV 包括收藏数等业务指标已经开始启动了,我们就会把这些业务指标引入我们的分析模型。
也就是我们会把 PV、UV、收藏数,包括上周同期的这些数据,和上周我们要预测那个时间点的订单数全部都引进来,然后用一个机器学习的办法,基本上就可以解决这个问题。
在双 11 促销后观察了一下预测的情况,现在促销预测的数值还是比较准的。
当基于预测进行告警时,碰到主要问题是夜晚低峰时数据波动较大,如果按每个时间点的指标直接进行告警非常容易误报。
我们采用的办法是预估损失累计的报警方法,当累计预估损失达到 100 单时就进行告警,这样调整后,我们从上线到现在基本已经没有了误告。
这个 100 单的设置,跟我们公司的制度有关,因为我们公司达到了 200 单、300 单,那就是重大故障了,我们在 100 单的时候,就把这个警报给拉起来,是可以防止重大故障发生的。
根因分析
最后在数据挖掘这部分的应用,给大家介绍一下根因分析。
我们这套算法经过几个案例的尝试,基本上都能找出原因,首先就是它跟多维分析的“根因分析”不太一样。
多维分析的“根因分析”是建立在已经计算好的多维数据基础上,而这个算法实际上是从原始数据来抽样的。
比如说,像错误率上升的一个根因分析,我们首先会抽一些数据,把错的和正确的日志各抽 50%,对非数据列进行预编码。
预处理之后,我们会用 Spearman 和 MutualInformation 这两种算法来计算各个维度和结果之间的相关性程度。
如果这两种方法结果一致,则直接按相关性值大小进行排序,然后会用 Onehotencoding 做一个转码,转码之后放入逻辑回归模型中,选择 L1 的惩罚项;如果它的系数算出来是负值,这个负值所代表的维度就是原因所在。
如果上述方法两个结果不一致,采用 Random Forest 和 Adaboost 的方法构建树模型,查看模型给出的维度重要性,这里我已经画得很清楚了。
如果两个模型的重要性排序一致,就走上次那个步骤;如果不同,则用该模型对数据进行预测,选择预测结果较高的相关性排序。
应用生态建设及规划
最后跟大家一起讨论一下,如何让数据成为运维的大脑,根据我们的经验,首先从组织结构上来说,我们需要一个独立的分析团队。
因为在这个分析团队成立之前,公司的运维体系实际上也在使用数据,使用数据的方法和分析团队后来使用分析数据的方法也是大同小异,但因为它本身是一个自发的,没有一些强制性的要求。
在把数据分析融入到工作流程之后,我们发现效率会得到一个比较大的提升,同时知识的传承,包括统计口径等这些比较令人困惑的问题也都可以得到一个比较好的管理和解决。
这样的组织架构在我们的实践中,感觉可以更好地帮助运维专家来解决问题。
从平台建设上来说,应该是说现在已经开始了,着力打造的是两个平台:
[*]数据分析平台,数据分析平台说到底就是运维的数据仓库,它使用现在大数据的一些传统技术来做这件事情。
[*]统一信息平台,“统一信息平台”主要考虑到在互联网公司,不管是不是在野蛮成长阶段,系统都特别多,信息也是特别分散,我们还是想把这些分散的关键信息看怎么收集起来,然后看能不能做一些事情。
目前我们会把发布平台的一些发布信息,还有 ITIL 平台的一些事件信息、变更信息,CMDB 的一些基础架构信息,再有就是各种各样的监控系统的值班表信息和告警信息(这种监控系统我们有好几十套),我们都会把它们放到信息库里面。
在信息库建设之后,我们算法虽然可以实际有效地解决点上的问题,但还没能很好地解决关联性上的问题,这块还是挺困难的。
只能是说当前是一件事情一件事情去解决,那这种复杂的关联性我们靠什么呢?
靠的是规则库,用业务知识补充当前阶段算法上的一些不足,也就是说在整个系统建设中,实际上算法库和规则库都是一起建设的。
不会说,就用算法,不要规则了;或只有规则,算法也没什么用,它是一体建设的。
而且它们能解决的问题不一样,算法我们是解决点上的问题,规则我们是用来解决这种关联性的问题,尤其复杂业务关联的问题,都靠规则来配置的。
整个这套平台的建设,它主要有两个目标:
[*]对告警进行有效的一个压制、管理、合并。
[*]想能够解决自动故障定位的问题。
目前是有一定的成效,但准确率还没有那么高,以后能做得好的时候,我们会通过 ITIL 平台来驱动自动化平台对现网的故障进行自动化的处理。
比如说像重启、降级,限流,磁盘空间管理,流量调度等工作,应该是说为了自动化运维、解决故障一起努力吧!
以上就是我们对数据应用在未来一个时期内的定义,也是想在未来大约半年到一年能够看到更多成果的一个实践。
微信后台回复关键词“数据”,即可下载完整版PPT资料
原创作者:吴晓光
编辑:陶家龙、孙淑娟
出处:转载自DBAplus社群微信公众号,本文根据吴晓光老师在〖Gdevops 2017全球敏捷运维峰会广州站〗现场演讲内容整理而成。
01 搜索引擎
搜索引擎是我们信息资料搜集的最重要的渠道之一,用搜索引擎查找信息资料需要使用恰当的关键词和一些搜索技巧。目前国内主要的搜集引擎有如下10个,近期还有较多行业型搜索冒出来,需找专业型行业资料可以使用行业型搜索引擎。
由于每个搜索引擎都有一定的局限性,可以把要搜索的关键词在多个搜索引擎试一下,可能会搜出你意想不到的结果。
大家对国内的引擎基本都很熟悉,尤其是百度和google,需要搜索同一主题的资料,不同的人所搜出来的结果可能就天差地别了,主要原因在于如下两点:
1. 搜索关键字的选择
举例说明,假如我们要搜索大数据行业发展相关资料,如果我们就在百度上搜索“大数据”,结果非常多,无法进行筛选,可以对关键词进一步界定,如“大数据行业”“大数据市场规模”“中国大数据产业”“大数据技术”“大数据企业”等等,需要不停地变换搜索关键词,直到查到满意的搜索结果。
在查找的过程中可以根据查找结果内容再进行对关键词进行修正,修正有些名称专业表达方式,因为最开始搜索我们表达的不一定准确。
2. 搜索技巧
主要是针对百度、google等搜索引擎一些高级搜索技巧。常用技巧主要有如下几个方面:
1)文件类型搜索
使用filetype,如在百度或google中键入“filetype:pdf 大数据”搜索出有关大数据内容pdf内容,而且这些文档基本都是可直接下载。还可以变换为其他的,如“filetype:doc”“filetype:ppt”“filetype:xls”等等,注意其中的冒号为英文的冒号,一定要变换为英文冒号。
2)定位于哪个网站上搜索
使用site,如在百度或google中键入“大数据空格site:sina.com”,则在http://sina.com搜索有关大数据的一些资料信息,这个特别适用针对某些信息可能在哪些网站上出现的一个快速搜索方法,注意冒号也是英文的,网站名称也不用加www。
3)精确匹配搜索
使用“”,如在百度中键入“大数据行业”,表示搜索“大数据行业”五个必须联在一起的,如果不加“”,搜到的为大数据及行业两个词并列显示结果,没有这么精确匹配。
4)限制性的网页搜索
使用intitle,如在百度键入“intitie:大数据”,限定于搜索标题中含有“大数据”网页,如果输入“intitie:大数据市场规模”限定于搜索标题中含有“大数据”和“市场规模”的网页。
附:搜索引擎推荐
[*]http://scholar.google.com/
[*]Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数。略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章。
[*]http://www.scirus.com
[*]Scirus 是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出版社开发,用于搜索期刊和专利,效果很不错!
[*]Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。
[*]http://www.base-search.net/
[*]BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160个开放资源(超过200 万个文档)的数据。
[*]http://www.vascoda.de/
[*]Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。
[*]http://www.goole.com/
[*]与google比较了一下发现,能搜索到一些google搜索不到的好东东 。它界面简洁,功能强大,速度快,YAHOO、网易都采用了它的搜索技术。各位可以一试。
[*]http://www.a9.com
[*]Google在同一水平的搜索引擎。是http://Amazon.com推出的,Webresult部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。
[*]http://www.findarticles.com/
[*]一个检索免费paper的好工具。进入网页以后,可以看到他有三个功能,driectory web article,其中article对我们很有帮助,你可以尝试输入你要找的文章,会有很多发现的!
[*]http://www.emolecules.com
[*]在此搜索引擎里可以搜索到超过千万种化学品信息或相应的供应商,与Chemblink有点相似,但提供的化学品理化信息没有Chemblink详细,与其不同的是该搜索引擎可提供化学品结构式搜索(主页上有在线绘制化学结构式的搜索框)。
[*]http://www.ojose.com/
[*]OJOSE (Online JournalSearch Engine,在线期刊搜索引擎)是一个强大的免费科学搜索引擎,通过OJOSE,你能查找、下载或购买到近60个数据库的资源。但是感觉操作比较复杂。
[*]http://citeseer.ist.psu.edu/
[*]一个关于计算机和信息科学的搜索引擎。
[*]http://hpsearch.uni-trier.de/
[*]专家个人主页搜索引擎。
02 数据库
数据库是研究人员重要的数据来源之一,目前券商、基金研究研究机构都购买有商业数据库,目前研究用的数据库主要分为两大类,一是商业数据库,二是学术数据库。
1. 商业数据库
商业数据库大多为金融投资所用,主要分为国内与国外数据库两大类。
1)国内商业数据库
国内数据库主要有如万德、恒生聚源、锐思数据库、CSMAR数据库、巨潮数据库等。
[*]目前万德数据库主要定位于国内高端客户,市场占有率较高,80%左右,当然其售价较高。
[*]恒生聚源也定位为机构客户,性价比较高,售价要比万德便宜的多。
[*]CSMAR数据库定位于学术与高校,其中金融数据比较全,强大。
[*]锐思数据库定位于学术,质量一般。
[*]巨潮数据库为深交所旗下数据库,有一定的特殊优势。
2)国外商业数据库
国外数据库主要有彭博、路透社、CEIC、OECD、Haver Database、Thomson Financial One Banker等。
国外数据库中彭博是比较全也大的,在国内销售也较好,但是售价奇贵。一般不做国际市场研究,大多用不到国外数据库,毕竟国外数据库公司对国内的行业数据及公司数据不如本土数据库公司的做得好。
2. 学术数据库
学术数据库基本为高校、研究机构所用,也分为国内与国外两大类,学术数据库中一些学术论文、行业数据、统计年鉴还是有用的,缺点就是其中有些数据的相对较旧,无法做到实时更新。
1)国内学术数据库
[*]中国知网:国内最大学术数据库,包括期刊、学位论文、统计年鉴等
[*]万方数据:仅次于中国知网,包括期刊、学位论文等
[*]人大复印资料:期刊、论文等
[*]维普:期刊、论文等
[*]中经网:有较多行业研究报告,宏观数据较全
[*]国研网:数据较为权威,有些报告可以一看
[*]上海公共研发平台:可以注册,人工审核,内包含较多数据库
2)国外学术数据库
[*]EBSCO:较全的一个数据库,内包含较多的商业数据,好用
[*]Elsevier:学术文章全,更新速度快
以上大致介绍了国内的商业及学术数据库,但这些数据库都是通过收费或学校账号才能使用,对于平时临时研究用的一些人,没有必要去购买,下面介绍一些免费可用的数据库。
[*]数据汇:国内的宏观数据,国外的也有一部分,可以导出来,免费好用。
[*]http://www.shujuhui.com/database/
[*]数据圈:免费共享平台,行业研究报告,统计年鉴等
[*]http://www.shujuquan.com.cn/
[*]FRED
[*]http://research.stlouisfed.org/fred2/
[*]OECD图书馆
[*]http://www.oecd-ilibrary.org/economics
[*]台湾学术数据库:部分文章提供免费全文下载
[*]http://fedetd.mis.nsysu.edu.tw/
[*]台湾大学电子书
[*]http://ebooks.lib.ntu.edu.tw/Home/ListBooks
03 共享文库
首先也非常感谢共享文库的出现,使得大家搜集信息方便了许多,随最早的豆丁、百度、爱问等共享文库的出现,随后到如今出现许多共享文库,不过很多文库规模较小,文档数量较少。
1. 国内主要文库
[*]百度文库
[*]http://wenku.baidu.com/
国内文档数据量最大的共享文库,综合型的,好用。
[*]豆丁文库
[*]http://www.docin.com/
其收费的盈利模式导致用户数量逐年减少,文档质量也不如百度文库。
[*]爱问共享
[*]http://ishare.iask.sina.com.cn/
综合型文库,里面也时常发现好的行业研究报告,电子书籍等。
[*]道客巴巴
[*]http://www.doc88.com/
综合型文库,后起之秀,文档数量和质量较好。
[*]智库文档
[*]http://doc.mbalib.com/
以管理、行业文档为主,质量较好。
[*]文库大全
[*]http://www.wenkudaquan.com/
无需注册,通过点击广告模式盈利,文档内容多。
[*]IT168文库
[*]http://wenku.it168.com/
专业型文库,以计算机及IT技术相关的文档为主。
[*]CSDN
[*]http://www.csdn.net/
全球最大的中文IT社区。
[*]呱仕网
[*]http://www.guasee.com/
以创业投资、证券市场等文档为主的专业型文库,刚起步状态。
[*]新浪地产
[*]http://dichan.sina.com.cn/
国内最大房地产类文库,房地产相关策划、数据较全。
2. 国外文库
[*]Scribd
[*]http://www.scribd.com
全球最大的文档分享平台。
[*]Docstoc
[*]http://www.docstoc.com
在线文档与图片分享平台。
针对以上国内的共享文库,都可以通过注册账号,上传分享资料赚取积分,通过积分可以下载文库资料。
如果有些文档看过后不错想保存下来积分不够,可以通过文库下载器来免费下载保存,文库下载器有如“冰点文库下载、易读下载、老张文库下载”等等,如果只看重其中一部分内容,可以通过QQ拷屏方式保留下来(登陆QQ,ctrl+alt+a拷屏)。
04 专业网站
在共享文库未出现以前,专业论坛一直担任着查找资料的好去处,的确国内的一些论坛经过这么多年的运营,已经积累大量有用文档。下面主要介绍我们常用的专业论坛。
1. 人大经济论坛
http://bbs.pinggu.org/
经济、学术型论坛,其中行业研究、统计年鉴数量多,更新速度快,我的最爱,常用。
2. 经济学家
http://bbs.jjxj.org/
经济学专业论坛,其中统计年鉴、行业报告、国内外数据等有特色。
3. 随意网-经济论坛
http://economic.5d6d.net/
新建网站,有些内容尚可。
4. 理想在线
http://www.55188.com
股票券商研究报告。
5. 迈博汇金
http://www.hibor.com.cn/
股票券商研究报告,目前已经收费了,只能查询有哪些最新报告了,无法下载。
6. 博瑞金融
http://www.brjr.com.cn/forum.php;
金融行业专业型论坛。
7. 华尔街社区
http://forum.cnwallstreet.com/index.php
国内专业的金融论坛。
8. 投行先锋论坛
http://www.thxflt.com/
专业型为投行人士探讨而设立的论坛。
9. 春晖投行在线
http://www.shenchunhui.com/
证券相关政策的汇编整合论坛。
10. 中华股权投资论坛
http://www.tzluntan.com/
pe投资专业型论坛。
11. 其他专业网站
投行网站:
[*]http://macabacus.com/
[*]http://www.wallstreetoasis.com/
[*]http://www.ibankingfaq.com/
[*]http://stocks.etnet.com.cn/www/sc/stocks/ci_ipo.php
[*]http://www.aastocks.com/sc/ipo/sponsor.aspx
[*]http://terminal.chinaef.com/index.action
[*]http://www.mergermarket.com/info/
各大咨询公司报告:
[*]http://www.deloitte.com/view/zh_CN/cn/services/
[*]http://www.deloitte.com/view/en_GX/global/insights/index.htm
[*]http://www.kpmg.com/CN/en/IssuesAndInsights/Pages/default.aspx
[*]http://www.mckinsey.com/locations/chinasimplified/
[*]http://www-31.ibm.com/cn/services/bcs/
[*]http://www.bcg.com.cn/cn/newsandpublications/newsandpublictions_publications.html
[*]http://www.ebusinessreview.cn/
[*]http://www.ey.com/CN/ZH/home/library
[*]http://www.bain.cn/news.php
[*]https://china.mckinseyquarterly.com/home.aspx
[*]http://www.pwccn.com/home/eng/libraryindex.html
[*]http://www2.hewittassociates.com/Intl/AP/zh-CHT/Default.aspx
[*]http://www.booz.com/global/home/what_we_think/cds_home/m_and_a/cds_our-leading-research-on-ma
05 政府部门
政府部门是国内公开数据的来源,查询权威的数据可以到政府相关部门网站,以下介绍国内的主要发布相关数据的政府部门。
1. 国家统计局
http://www.stats.gov.cn/
这个不用多说,大家很多人浏览过。
2. 工业和信息化部
http://www.miit.gov.cn
较多数据在此发布,尤其是有关工业运行及信息化相关数据。
3. 中国人民银行
http://www.pbc.gov.cn/
中国金融市场政策及运行相关数据。
4. 银监会
http://www.cbrc.gov.cn
银行金融相关数据。
5. 中国海关
http://www.customs.gov.cn
中国进出口相关数据。
6. 国家知识产权局
http://www.sipo.gov.cn
专利相关查询。
7. 中国证监会
http://www.csrc.gov.cn
相关政策及招股书披露平台,以及拟上市公司排队每周披露。
8. 巨潮信息网
http://www.cninfo.com.cn/
中国资本市场指定披露平台,上市公司相关年报、季报及公告披露信息。
06 证券交易所
1. 上海证券交易所
http://www.sse.com.cn/
其中研究出版栏目中有些研究报告。
2. 深圳证券交易所
http://www.szse.cn/
其中研究/刊物中有研究报告。
3. 全国中小企业股份转让系统(新三板)
http://www.neeq.com.cn/
新三板挂牌公司的转让及信息披露。
4. 香港证券交易所
http://www.hkexnews.hk/index_c.htm
5. 台湾证券交易所
http://www.tse.com.tw/ch/index.php
6. 新加坡证券交易所
http://www.sgx.com/
7. 纽约证券交易所
http://www.nyse.com
8. 纳斯达克证券交易所
http://www.nasdaq.com
07 如何寻找国外数据
1. 搜集美国相关数据
由位于华盛顿的美国政府印刷办公室出版、经济顾问委员会撰写的《总统经济报告》(Economic Report of President),提供了有关美国当前经济形势的描述和主要宏观经济变量数据。相当多的数据都可以追溯到1959年,甚至个别的可追溯到1929年。
可能你已经留意到了,好多有关美国的图形,都是采用《总统经济报告》(2005)所附数据生成的。这些数据可以免费下载,网址:
http://www.access.gpo.gov/eop/
如果想获得最近数据的详细资料,一个不错的选择是,美国商务经济分析局每月出版的《当代商业纵览》(Survey of Current Business)。网址:
http://www.bea.doc.gov/
2. 如何搜集国外其他经济体数据
对富裕国家来说,最有用的资料来源于经济合作与发展组织(Organization of Economic Cooperation and Development,简称OECD)。
经济合作与发展组织的成员包括:奥地利、澳大利亚、比利时、加拿大、捷克共和国、丹麦、芬兰、法国、德国、希腊、匈牙利、冰岛、意大利、日本、卢森堡、墨西哥、荷兰、新西兰、挪威、波兰、葡萄牙、韩国、西班牙、瑞典、瑞士、土耳其、英国和美国。看来,世界上的富裕国家大都属于该组织,其产出占世界产出的70%左右。
OECD的网址:
http://www.oecd.org/
提供三种极为有用的数据:
[*]《OECD经济展望》(OECD Economic Outlook),每年出版两次,提供许多跨国宏观经济数据。这些数据一般都上溯到20世纪70年代,而且具有很好的一致性。
[*]《OECD就业展望》(OECD Employment Outlook),每年出版一次,专门提供劳动力市场的数据。
[*]《OECD历史统计》(OECD Historical Statistics),不定期出版,将当期数据和过去数据放在一起。
对于不是OECD成员的国家和地区,可以从其它国际组织那里获得相关数据,比如国际货币基金组织(International Monetary Fund,简称IMF),网址:
https://www.imf.org/
IMF提供《国际金融统计年鉴》(InternationalFinancial Statistics Yearbook),它主要提供成员国的金融数据,但也包括一些总体数据,比如GDP、失业和通货膨胀等。
至于若干国家长期的统计数据,两个不可多得的数据来源是,Heston-Summers数据库和Madison数据库。
Heston-Summers数据库提供168经济体在1950-2000年间的跨国可比数据,在宾夕法尼亚大学国际比较中心(Center for International Comparisons at the University ofPennsylvania)网站上可以下载:
http://pwt.econ.upenn.edu/
Madison数据库提供了自1820年以来56个经济体的数据。
最后,如果还没有找到你要的数据,不妨登陆下面的两个网站,也许是根稻草。哈佛商学院的宏观经济学资源网站提供了大量连接:
https://www.hbs.edu/faculty/units/bgie/Pages/default.aspx
由密西西比大学BillGoffe维护的一个网站:
http://rfe.wustl.edu
不仅列出了数据来源,而且还列出了有关经济的其他信息来源。
08 分行业网站
1. 互联网及传媒
1)资讯类
[*]新浪科技
[*]http://tech.sina.com.cn/
[*]腾讯科技
[*]http://tech.qq.com/
[*]艾瑞网
[*]http://www.iresearch.cn/
[*]艺恩网
[*]http://www.entgroup.cn/
[*]虎嗅网
[*]http://wwww.huxiu.com/
[*]36kr
[*]http://36kr.com/
[*]钛媒体
[*]http://www.tmtpost.com/
[*]游戏大观
[*]http://www.gamelook.com.cn/
[*]亿欧网
[*]http://www.iyiou.com/
[*]媒介36
[*]http://www.chinamedia360.com/main
2)数据类
[*]中国票房
[*]http://www.cbooo.cn/
[*]中国互联网络信息中心
[*]http://www.cnnic.net.cn/
[*]艾瑞网
[*]http://www.iresearch.com.cn/report/viewlist.aspx
[*]易观智库
[*]http://www.analysys.cn/
[*]游戏产业网
[*]http://www.cgigc.com.cn/list/79644663134.html
[*]百度指数
[*]http://index.baidu.com/
[*]大数据导航
[*]http://hao.199it.com/
[*]CSM(电视收视率)
[*]http://www.csm.com.cn/
[*]微排片
[*]http://www.weipaipian.com
2. 银行业
1)新闻资讯
[*]中证网
[*]http://www.cs.com.cn/xwzx/hg/
[*]一财网
[*]http://www.yicai.com/economy/
[*]财新网
[*]http://finance.caixin.com/bank/
[*]华尔街见闻
[*]http://wallstreetcn.com/news?cid=19
[*]新浪财经
[*]http://finance.sina.com.cn/
[*]证券时报网
[*]http://www.stcn.com/
[*]中国金融新闻网
[*]http://www.financialnews.com.cn/yh/xw/
2)公告、数据查找
[*]中国货币网
[*]http://www.chinamoney.com.cn/index.html
[*]巨潮网
[*]http://www.cninfo.com.cn/
[*]统计局
[*]http://www.stats.gov.cn/
[*]中国人民银行
[*]http://www.pbc.gov.cn/
[*]银监会
[*]http://www.cbrc.gov.cn/index.html
[*]上海证券交易所
[*]http://www.sse.com.cn/
[*]深圳证券交易所
[*]http://www.szse.cn/
3. 有色金属
1)日报网站
[*]宏观新闻:央行快讯
[*]http://t.news.fx168.com/bank/
[*]行业新闻:中国金属网
[*]http://www.metalchina.com
[*]上海有色网
[*]http://www.smm.cn/index_2015.html
[*]百川咨询
[*]http://www.baiinfo.com
[*]公司公告:巨潮
[*]http://www.cninfo.com.cn
2)其他常用站
[*]高工锂电
[*]http://www.gg-lb.com/default_index_new.php
[*]真锂研究
[*]http://www.realli.net
[*]深交所互动易(查看投资者互动资料)
[*]http://irm.cninfo.com.cn/szse/
[*]中金网(有色金属)
[*]http://www.metalsinfo.com/news/
[*]银
[*]https://www.silverinstitute.org/site/publications/
[*]新三板咨讯
[*]http://www.sanban18.com
[*]格隆汇港股
[*]http://www.gelonghui.com/portal.php
09 其他
除以上介绍的几种资料搜集渠道外,我们也结合近年it科技的发展,在博客、微博、空间等去搜索。
1. 行业协会网站
每个行业协会基本都会有网站,在该网站上能够查找一些对本行业的描述、相关数据等。
2. 博客
国内有网易、新浪、搜狐、百度空间、和讯等博客网站,有些数据也可以从搜索博客中找到。
3. 微博
新浪微博及腾讯微博,用数量极大,其中有些数据可以通过搜索查询到。
4. 微信
微信用户已经超过4亿,每个人都是新闻的发布者,其中数据资源丰富,但目前还未提供全文搜索功能,只能通过关注相关公共账号或关注朋友圈获取。
5. QQ空间
有些企业或机构QQ空间会有些报告及数据发布。
6. 全景网
http://www.p5w.net/
注:本文中提到的部分网站需科学上网才能访问,另由于信息更新不及时等原因,部分链接可能已失效。欢迎大家一起查bug。
作者:王术,发表于知乎
来源:http://zhihu.com/question/22698541/answer/22367802
部分内容来自网络 想要分析的时候,没有数据,就是巧妇难为无米之炊。以前想找一个数据需要费尽心思在网上去搜,最终还找不到自己想要的数据。通过编程爬虫数据,学习成本又太高,毕竟你的目标不是想要成为爬虫工程师,只是想要拿到数据来分析。那有没有傻瓜式的获取数据方法呢?
下面介绍4种获取数据的方法,选择一种适合你自己的方法就可以。
[*]方法一:直接获取10大行业免费数据
1)如何选择行业?
不知道如何选择行业的,可以在下面网站里看到各个行业的分析报告:
如何选择入职行业 :https://www.zhihu.com/question/24995484/answer/516813008
艾瑞研究-艾瑞网(行业报告):http://report.iresearch.cn
Talkingdata报告(行业报告):http://mi.talkingdata.com
199IT互联网数据中心(行业报告,内容多,支持搜索):http://www.199it.com
2)10大行业免费数据汇总
【优点】直接拿来使用
【缺点】数据有限
根据你确定的行业,选择一个自己感兴趣的数据。比如你确定了电商行业,然后就找一个电商行业的数据。
在《数据分析思维》中汇聚了10多个行业的数据以及分析案例
《数据分析思维》12大行业案例数据
更多行业数据:
<a href="http://zhuanlan.zhihu.com/p/48413088" class="internal">10大行业公开数据集免费下载:电商零售行业
10大行业公开数据集免费下载:金融行业
10大行业公开数据集免费下载:游戏行业
10大行业公开数据集免费下载:教育行业
10大行业公开数据集免费下载:旅游行业
10大行业公开数据集免费下载:文化娱乐行业(电影,音乐等)
10大行业公开数据集免费下载:医疗行业
10大行业公开数据集免费下载:汽车及出行
10大行业公开数据集免费下载:房产行业
10大行业公开数据集免费下载:自媒体等行业
[*]方法二:从数据平台获取
1.国内中文平台:
1)阿里云天池,官网网址:https://tianchi.aliyun.com/dataset/
数据下载办法:
2)DataFountain,官网地址:https://www.datafountain.cn/dataSets
有的文件下载后会显示后缀是.zip, .zip是个压缩包,下载后需要减压后才能看到压缩包里的excel文件
2.国外英文平台
Kaggle,官网地址和如何下载数据:如何在Kaggle上查找数据
[*]方法三:傻瓜式爬虫工具(不需要编程)
【优点】在网站上爬取你感兴趣领域网站的数据,可以获取到自己想要的领域数据
【缺点】需要看官网教程来学习,有一定门槛
1)工具: 后羿,同时有mac,windows版本
网址:http://www.houyicaiji.com/
打开官网后点击下图“教程”的地方有入门教程。
2)工具:集搜客,只有windows版本
操作指南只需要看下面红框中的内容就可以,操作指南地址:
https://www.gooseeker.com/tuto/tutorial.html
爬取多少数据?
数据量少一般说明不了什么问题,起码的超过几万条数据。
多尝试、思维逻辑要清晰,一定要知道自己做什么,爬取什么样的数据,提前规划好了,整个过程就不会走太多的弯路。
案例:https://zhuanlan.zhihu.com/p/39733403
欢迎留言补充更多行业数据。
上面提到3种获取数据的方法,选择一种适合你自己方法。获取数据后分析,可以使用这个里面的方法来分析:
如何分析数据? 不请自来。
二手研究:基于其它个人团体或机构以前进行的研究的信息。
一手研究:为公司的具体需求直接参与信息收集。包括焦点小组、问卷调查、个人访谈等。
欣旋咨询:项目管理培训专家,欣然学习,凯旋而归! 是时候拿出之前总结的干货了!!!
真实可用的公开数据集:
亚马逊AWS开放数据登记册
Registry of Open Data on AWS阿帕奇数据集(得在linux操作系统上才能正常登陆)
http://archive.ics.uci.edu/ml/datasets.htmlkaggle比赛用数据集
Competitions | KaggleKDnugget之家数据集
Datasets for Data Mining and Data Science搜狗实验室
搜狗实验室(Sogou Labs)阿里云天池比赛数据集
天池数据集DC竞赛数据集
DC竞赛-大数据竞赛平台题主拿去,不谢。
欢迎订阅微信公众号:IT知识库小姐姐
获取更多免费学习资料、行业资讯,转行疑惑解答。
另有转行IT疑惑,或者不知道自己适合学什么的,可以评论区留言或者私信,我将一一回复解答。
觉得这个回答有帮助的,别光记得收藏,点个赞让更多的小伙伴看到,谢谢(*°∀°)=3
页:
1
[2]