⑴ 数据也会说谎 常见的数据造假三种形态
数据也会说谎:常见的数据造假三种形态
日常生活工作中,处处都会与数据打交道,但你知道数据是会“说谎”的,即你看到的数据结果并不是事实。本文介绍一些常见的说谎场景以及如何避免。
一、图表欺骗
图表通常用来增强需要文字和数据的说服力,通过可视化的图表更容易让受众接受信息。但图表有时候会表现的不是数据的本质:
1.图表拉伸
如果没有特殊用途,通常图表的长(横轴)与高(纵轴)的比例为1:1到1:2之间,如果在这个范围之外,数据现实的结果会过于异常。比如:
2.坐标轴特殊处理
在很多场合下,如果两列数据的取值范围差异性过大,通常在显示时会取对数,这时原来柱状图间的巨大差异会被故意缩小。通常,严谨的分析师在讲解之前会进行告知。比如:
3.数据标准化
数据标准化也是一个让数据落在相同区间内常用的方法,常用Z标准化或0-1标准化,如果不提前告知,可能会误以为两列数据取值异常接近,不符合实际业务场景,比如:
隐秘层次:★★☆☆☆
破解方法:询问分析师的图表各个含义,了解基本图表查看常识。
二、数据处理欺骗
数据处理中的欺骗方法通常包括抽样方法欺骗、样本量不同、异常值处理欺骗等。
1.抽样方法欺骗
整体样本的维度,粒度和取数逻辑相同的情况下,不用的样本抽样规则会使数据看来更符合或不符合“预期”。比如在做用户挽回中,假如做的两次活动的抽样样本分别是最近6个月未购物和最近6个月未购物但有登陆行为的用户,不用做什么测试,基本上可以确定后者的挽回效果更佳。要识破这个“骗局”只需要询问数据取样方法即可,需要细到具体的SQL逻辑。
2.样本量不同
严格来说样本量不同并不一定是故意欺骗,实践中确实存在这种情况。(遇到这种情况可以用欠抽样和过抽样进行样本平衡)样本量不同分为两种情况:
样本量数量不同。比如要做效果差异对比,第一步是做效果比对,假如两个数据样本量分别是几千和几万的级别,可比性就很小。尤其是对于样本分布不均的情况下,数据结果可信度低。
样本主体不同。这是非常严重的数据引导错误,通常存在于为了达到某种结果而故意选择对结果有利的样本。比如做品类推广,一部分用户推广渠道为广告,另一部分是CPS可以遇见相同费用下后者的效果必然更好。
相同样本不同的客观环境。比如做站内用户体验分析,除了用随机A/B测试以外,其他所有测试方法都没有完全相同的客观环境,因此即使选的是相同样本,不同时间由于用户,网站本身等影响,可信度较低。
3.异常值处理欺骗
通常面对样本时需要做整体数据观察,以确认样本数量、均值、极值、方差、标准差以及数据范围等。其中的极值很可能是异常值,此时如何处理异常值会直接影响数据结果。比如某天的销售数据中,可能存在异常下单或行单,导致品类销售额和转化率异常高。如果忽视该情况,结论就是利好的,但实际并非如此。通常我们会把异常值拿出来,单独做文字说明,甚至会说明没有异常值下的真实情况。
隐秘层次:★★★☆☆
破解方法:在跟数据分析师沟通中,多询问他们在数据选取规则,处理方法上的方法,如果他们吞吞吐吐或答不上来,那很有可能是故意为之。同时,业务人员也要增强基本数据意识,不能被这种不可见的底层错误欺骗。
三、 意识上的欺骗
这种欺骗是等级最高也是最严重的欺骗和错误,通常存在于数据分析师在做数据之前就已经下结论,分析过程中只选取有利于证明其论断的方法和材料,因此会在从数据选择,处理,数据表现等各个方面进行事实上的扭曲,是严重的误导行为!数据分析师需要有中立的立场,客观的态度,任何有立场的分析师的结论都会失之偏颇。
隐秘层次:★★★★★
破解方法:在跟该分析师沟通中,查看其是否有明显立场或态度,如果有,那么该警惕;然后通过上面的方法逐一验证。
综上,当你遇到以下数据情形,就需要警惕数据的真实性了:
数据报告从来不注明数据出处,数据时间,数据取样规则,数据取得方法等。现在市场上很多报告都属于这一类。
数据报告在做市场调研中说明全样本共1000,其中北京可能只有100,基于这100个样本出来的结论显然不可信。事实上很多市场研究报告就是这样出来的。
数据报告中存在明显的观点,对于事物的分析只讲其优势或劣势,不全面也不客观。现在很多互联网分析师就是属于这类,大家注意辨别。
以上是小编为大家分享的关于数据也会说谎 常见的数据造假三种形态的相关内容,更多信息可以关注环球青藤分享更多干货
⑵ 数据安全防护措施有哪些呢
一、加强安全意识培训
一系列企业泄密事件的发生,根本原因还在于安全意识的严重缺失,加强安全意识的培训刻不容缓。
1、定期进行安全意识的宣导,强化员工对信息安全的认知,引导员工积极执行企业保密制度。
2、在信息安全培训的同时,不定期进行安全制度考核,激励员工积极关注企业数据安全。
二、建立文件保密制度
1、对企业文件实行分级管理,按照文件的重要性进行分类,将其限制在指定的管理层级范围内,避免核心资料的随意传播。
2、与核心人员签订竞业协议或保密协议,以合同的法律效应,有效防止核心机密的泄露。
3、与离职员工做好工作交接,按照制度流程,全面妥善接收工作资料,避免企业信息外泄。
4、严格控制便签、笔记本、文件袋等办公用品的摆放,及时清理和归档,避免因此造成的泄密。
5、加强对办公设备的监管,必须设置登录密码并定期更换,离席必须锁屏。
6、重视对过期文件的销毁工作,最好进行粉碎处理,切不可随意扔进垃圾桶完事。
7、推行无纸化办公,尽量减少文件的打印,避免文件随意打印造成的信息泄露。
8、设置防护措施,限制通过U盘、硬盘的拷贝行为及网络传送行为,避免信息外泄。
9、定期进行信息安全检查,全员参与查漏补缺,逐步完善企业保密制度。
三、弥补系统漏洞
定期全面检查企业现行办公系统和应用,发现漏洞后,及时进行系统修复,避免漏洞被黑客利用造成机密泄露。
1、办公操作系统尽可能使用正版,并定期更新,安装补丁程序。
2、数据库系统需要经常排查潜在风险,依据评估预测,积极做好系统升级。
四、密切监管重点岗位的核心数据
企业日常的办公数据数以亿计,全面监控难度极大,对核心数据的监控切实可行且十分必要。
监控核心数据的同时,需要密切关注接触这类数据的重点人员的操作行为是否符合制度规范。
五、部署文档安全管理系统
如KernelSec等文档安全管理系统。对企业计算机进行安全部署,确保数据在企业内已经得到加密,即使流传到外部,在未授权的设备上无法进行操作,保证了数据的安全性。
(2)为防止数据造假有哪些行为扩展阅读:
威胁数据安全的因素有很多,主要有以下几个比较常见:
1、硬盘驱动器损坏:一个硬盘驱动器的物理损坏意味着数据丢失。设备的运行损耗、存储介质失效、运行环境以及人为的破坏等,都能造成硬盘驱动器设备造成影响。
2、人为错误:由于操作失误,使用者可能会误删除系统的重要文件,或者修改影响系统运行的参数,以及没有按照规定要求或操作不当导致的系统宕机。
3、黑客:入侵者借助系统漏洞、监管不力等通过网络远程入侵系统。
4、病毒:计算机感染病毒而招致破坏,甚至造成的重大经济损失,计算机病毒的复制能力强,感染性强,特别是网络环境下,传播性更快。
5、信息窃取:从计算机上复制、删除信息或干脆把计算机偷走。