新闻中心/
你知道你用的数据有多“脏”吗?
你知道你用的数据有多“脏”吗?
2020-12-19
知城新闻
知城科普
你知道你用的数据有多“脏”吗?
报告作者:
知城酱
图表设计:
知城酱

数据分析中哪个环节最重要?

可能很多小伙伴第一个想到的是数据采集或者建立模型。

但资深数据打工人都会沧桑一笑:数据清洗。

洗数据到底有多重要?

举个栗子,一家健身房想进驻有阿迪达斯门店的商圈。如果不做数据清洗,直接分析原始数据,它最后选到的邻居可能不是阿迪达斯的品牌店,而是阿迪王、三叶草奶茶铺和三叶草养身推拿。

真是一顿分析猛如虎,数据不洗白辛苦。

那洗数据费时吗?

据不完全统计,数据分析师一半以上的时间都是在洗数据,可以说是数据界最勤奋的清道夫了。

为什么要洗数据,从原始数据到知城出品又要经历哪些工艺?

带着这个问题,知城酱对知城的数据挖掘师大象进行了一次采访。


知城酱:大象啊,把您放到冰箱里……不,把数据放到知城上到底分几步?

大象老师:简单说就是分3步:数据清洗—数据加工-数据入库。但是每个环节拆分开又有一套独立的处理流程,比如数据清洗分机洗和手洗,数据加工也有简单加工和深加工。数据入库并不是简单的数据搬运,每一条数据都要经历十八道处理工序。

知城酱:那先讲讲数据清洗吧。我们经常听到数据很“脏”这个说法,到底什么是脏数据?

大象老师 :干净的数据整齐划一,脏数据各有各的脏乱差。一般脏数据分4种:缺失数据、不规则的异常数据、重复数据和不一致数据。具体来说:

缺失数据很好懂,就是一条数据里,该填的字段是空的。

异常值就是有数据中有个别值明显地偏离了其他小伙伴,或者是明显不符合常识的,比如年龄500岁。

重复数据主要是因为反复录入同一条数据导致的,也是需要清洗的数据。

不一致数据是指格式和内容不一致的数据。比如服装店记录客人的信息,一条用公斤单位记录体重,另外一条用斤记录,这种数据就需要统一单位。

反过来验证一个数据是否干净也是4个标准:完整性、全面性、合法性和唯一性。

知城酱:原来数据还有不同的脏法……那不同的脏数据要怎么清洗呢?

大象老师 :我们有一套完整的清洗流程。不过干说有点枯燥,拿做饼来举例吧。

做饼的第一步是准备原料。数据清洗也一样。基础数据清理就像筛面粉,把错行、重复、不一致的数据都筛掉,留下整齐统一的数据。

面粉筛好之后,下一步就是要把水和面搅匀。数据清洗也一样,因为我们采集数据的渠道和方式很多,在数据清洗时就要把各种渠道的数据建立对应关系,把多源数据合并。同时通过交叉比对,也能验证数据的有效性。

在和面的时候,你会发现水和面最适合的混合比例,还有适合发面的力度和时间等等。在数据清洗中,我们也会建立关联关系,包括索引表、关键词表、数据规范等等,这样数据清洗也会更精准。

洗数据的每一步都需要机器清洗(机洗)+人工校验(手洗)。就像是机打和手打要交替进行一样。

知城酱:数据清洗真是一项手艺活儿!那数据洗干净之后,应该如何加工呢?

大象老师 :我们继续拿做饼举例。面团活儿好之后,我们要对饼进行基础加工和深加工。

比如做一个最古早味的饼,做最基本的加工就可以了。就像对数据做基础的求和、百分比分析一样。

如果要计算商业区实力,生活便利度,就会用到核密度分析、空间连接等空间统计法。

如果要计算城市交通枢纽性,那就要用到复杂网络分析法。

如果要计算商业资源区域中心度,要用到企业关联网络法。

知城酱:明白了,就像卷饼、蛋饼、烙饼一样,同样的面团,不同的工艺。(吞口水)

大象老师 是这个道理。最后我们再把数据规范和关联结果入库,这批数据就算正式入库了。

-end-

为了让大家用上干净放心的数据,知城手艺人真的付出了很多。在此认真地感谢象师傅、伏师傅、陈师傅的辛勤付出!

知城开放平台上线以来,知城酱也收到了很多对API数据的问询(还在爬爬爬数据?我们打包了337个城市数据,并发送了一个接收请求 ),感受到了大家对数据的热情。但在知城下载数据还有其他方法,大家可以按需使用:

① 开通会员

如果是个人用途,比如写论文或者做研究需要调用数据,可以直接购买知城会员,下载你所需要的数据。知城的使用说明,可以看这篇复习→我们做了个能帮你“看透”一座城市的数据平台 | 知城正式上线

② 数据采购

如果项目需要大批量的数据下载,可以联系知城进行定向采购。尤其是一些知城上没有体现的数据,可以提出需求,开启隐藏点单功能。

③ API接入

如果是有中台能力的企业方,那选择api接入数据就更加合适。

上知城,用数据更放心

咨询电话

021-22004339 (周一至周五10:00~18:00)

联系邮箱

xinyixian@yicai.com

联系地址

上海市静安区南京西路651号广电大厦(200041)

 

填写信息即可获得 5 天免费试用
相关文章推荐
更多
联系我们