导航:首页 > 数据处理 > 数据采集认识上存在哪些误区

数据采集认识上存在哪些误区

发布时间:2023-09-18 21:19:05

Ⅰ 关于数据分析的两大误区

关于数据分析的两大误区

平时无论是进行用户调研、产品运营还是竞品分析,都少不了对于数据的分析,如果项目中出现某些分歧谁也无法说服谁时,很多时候也都是拿数据说话,可见在开发产品的时候,对数据的统计与分析十分重要。大家都说数据是客观的,但其实数据受背景环境、统计者、统计方法、分析者看法等多重因素影响,以致我们在统计和分析时却常常陷入误区,得不到正确的答案。下面简单说一下关于数据的两个常见误区。

误区一:把某一类型数据当做全部数据导致分析结果错误

先说个小故事:二战时英国空军希望增加飞机的装甲厚度,但如果全部装甲加厚则会降低灵活性,所以最终决定只增加受攻击最多部位的装甲。后来工作人员经过对中弹飞机的统计,发现大部分飞机的机翼弹孔较多,所以决定增加机翼的装甲厚度。后来一个专家说:“可是机头中弹的那些飞机就没有飞回来”。

这个故事里本应是对全部飞机进行分析,但统计样本没有包含已经损毁的飞机,所以得出的结论只是根据部分数据,或者说是根据具有同样特征(受伤)的某一类数据推论出的,并不能代表全部类型的数据,所以得出的结果很可能是错误的。

再看一个例子:前一阵我为了分析人人网,想看看人人网现在的用户访问量是什么状态,于是选择了PV作为观测指标,通过alexa来看人人网的PV在过去一年中呈明显的下降态势,这也印证了我的预期,于是就以此为论据进行了分析。可是后来发现,alexa仅仅统计通过WEB的访问量,而用户移动端的登录并不在统计范围之内!这两年智能手机普及迅速,移动端登录也非常普遍,缺失这部分数据意味着前面统计的数据基本没有意义,因为WEB端访问量的下降有可能是用户访问人人网次数降低,同时也有可能是由PC端向移动端迁移,这个统计就不能作为论据出现了。

从上面这个例子可以看到,我只统计了WEB端的访问情况,认为这就是人人网全部访问量,而忽略了移动端,从而推出了错误的结果。另一个问题就是由于我已经有预期(人人网访问量下降),那么我在为这个结论找寻相关的论据,当找到符合我结论的论据时很容易不去做更多判断就选择有利于自己的数据,这也是数据统计人员常见的问题。

用某一类型数据代替全部数据会误导我们做出错误的判断,在统计时一定要注意这点。这一方面需要意识,在统计、分析数据时要时刻想着还有没有其他的情况,还有没有我们没有想到的数据类型,这些数据是不是能代表全部类型,尝试站在更高的角度去解读这些数据,而不是拿到数据后立刻就盲目分析。另一方面需要知识的累积,比如你知道alexa是如何进行统计的,那么很轻易就会想到还要考虑移动端的情况。知识的累积有助于我们做出准确的判断,这些知识与经验都是从阅读或实践中得来的,平时多做,慢慢累积,时间久了自然会看得更全面。

误区二: 鲜明事件让我们夸大了偶然因素

鲜明的事件更容易占据我们的视线,从而让我们高估事件发生的概率。

比如从年度统计中看到,某基金近两年的收益率达到100%,有某某明星操盘手等等,人们就会争相去购买该基金,同时也会让人们认为买基金就是可以赚钱的。而实际上,绝少有基金可以常年保持这样的收益率,近两年收益前五名的基金很可能在五年后收益率就排行倒数,而世面上大部分基金也无法跑赢大盘,不过人们在记忆中依然会认为买基金确实很赚钱,当年XXX两年益100%呢。两年收益达到100%只是偶然情况,但却由于事件太过鲜明而长久驻扎在人们的心智中。

类似的事还有很多。比如富士康N连跳,大家都觉得这么多人跳楼,富士康肯定太黑暗了,但大家却没有注意富士康员工大概有37万人,按12连跳的话自杀率不到十万分之四,而全国的平均自杀率为十万分之十五, N连跳自杀率远低于全国自杀率,可见富士康12连跳实际上是一个社会问题,而不仅仅是一个企业的问题,我们太过注重鲜明的事实却忽略了背后整体的概率。还有前两天美国波士顿爆炸案死亡3人,微博上各种祈福,可是阿富汗、伊拉克等国家几乎每天都面临着这些问题,只是由于媒体不会整天报道那里的消息,而天天出现的袭击也麻痹了人们的神经,所以我们只会关注鲜明的波士顿爆炸,而对其他地区天天发生的事情无动于衷。另外比如你周围有人买股票赚了好多钱,可能你也会很想投身股市一试运气,而忽略了散户8赔1平1赚的整体概率。你看到了各种创业成功者的报道,认为自己也可以尝试创业,毕竟成功概率好像也不低。但你不知道那些不成功的人基本没有被报道的机会,而实际上创业成功的人可能不到1%。

说了这么多,其实就是太过鲜明的偶然事件会让我们忽略背后一直存在的整体概率。看到这种数据的时候,不要太过情绪化,你所看到的数据或事件可能只是个例,并不能代表大多数,可以去查查历史情况或平均情况,去找找沉默的用户或数据,切忌轻易就做出判断和决定。要理性看待这些偶然事件,既不盲目跟随,也不对此嗤之以鼻,在明确整体概率的情况下,剔除偶然因素,分析这些偶然事件背后是否存在着某些值得借鉴的地方,从而吸收到自己产品或项目中,以便使自己的产品或要处理的事情有可能成为市场中下一个“偶然事件”。

以上是小编为大家分享的关于关于数据分析的两大误区的相关内容,更多信息可以关注环球青藤分享更多干货

Ⅱ 数据分析的误区有哪些

1、数据分析需要大量投资

如今,似乎对每一项新技术的投入都必须通过严格的财务支出的筛选过程。“它需要多少费用?”——是IT和业务经理在提议启动项目或部署新工具时需要首先考虑的问题之一。


有些人认为数据分析本质上是一项代价高昂的工作,因此仅限于拥有大量预算或大量内部资源的企业机构。但是事实并非如此,现在市场上有很多开源工具和其他工具能够帮助展示数据分析的价值;并且基于云系统的大数据架构,也会比传统的数据仓库便宜得多。你只需要明确内部数据存储以及要解决的问题,就可以轻松的在云上使用分析来解决业务问题。


此外,数据分析通常用于实现三个结果:提高流程效率、实现收入增长和主动进行风险管理,总的来说,数据分析在任何公司的应用中都带来了巨大的成本效益。


2、你需要“大数据”才能执行分析


对于许多人来说,大数据和分析的概念是相辅相成的,企业需要在执行分析之前收集大量数据,以便生成业务洞察,改进决策制定等。


当然,大数据分析的优势也很明确,拥有这些资源的公司利用大数据存储作为促进分析工作的一部分,获得了显着的竞争优势。但是大数据却并不是分析必不可少的搭配。


分析师需要特定的数据,而不是更多的数据。要想更好地支持决策和提高绩效,企业必须更多的考虑业务用户,确定他们需要访问哪些数据,如何呈现数据,而不是关注更多的数据。95%以上的用户会寻找和他们工作相关的信息来支持他们进行决策,来提高业务表现,所以企业需要以最简单的格式向他们提供这些信息,帮助他们快速定位重要信息。


3、分析消除了人类的偏见


自动化系统执行的方式不应该存在偏见,但技术是由人类建立的,因此消除所有偏见几乎是不可能的。


有些人认为分析和机器学习消除了人类的偏见,不幸的是,这并没有实现。算法和分析使用“训练数据”进行调整,并将重现“训练数据”所具有的任何特征,在某些情况下,这会在分析过程中引入良性偏见,但也有可能带来更严重的偏见——因为“算法这么说”并不意味着答案是公平的或者有用的。


4、最好的算法意味着绝对的胜利


事实证明,有了足够的数据,有时算法无关紧要。谷歌的工程师认为,数据有着不合理有效性 ,简单的统计模型,加上极大量的数据,比包含大量特征和总结的“智能优越模型”能输出更优质的结果。


因此,在某些情况下,只需处理更大量的数据就可以获得最佳效果。


5、算法是安全的


人们固执地信任统计模型和算法,并且随着分析程序的组织构建,他们会越来越依赖复杂的模型来支持决策。这或许是因为用户并不觉得他们有能力挑战模型,因此他们必须相信构建它们的“聪明人”。


比如,在过去的50到60年里,我们反复听到“人工智能将在20年内接管人类工作”的言论,现在也还是有人反复强调这种观点。在我们可以完全信任机器学习和它们输出的结果之前,还有很多事情要做。在那之前,我们需要挑战构建算法和模型的人,让他们解释如何得到答案。这并不是说我们不能依赖于结果,而是说我们需要透明度,这样我们才可以信任和验证分析结果。

Ⅲ 大数据有哪些分析误区

1.数据样本量不够


我们在分析某些特定的业务或用户行为时,可能存在相对关注度较小,用户使用很少的情况,或者是在提取数据的过程中,增加了很多的限制条件或者多种用户行为或属性进行交叉后,得到很少的用户样本。


对于这种数量小的数据样本得出的结果很有可能会出错,但是样本量多少才算够多呢?这个没有一个特定的数值,通常只能结合具体的场景进行分析。


建议:可以把时间线拉长,或者把不重要的限定条件去掉,来获得足量的样本。


2.存在选择性偏见或者幸存者偏见


统计学的另一大理论基石,便是中心极限定理。


简单描述下就是,总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。


通常我们会按照这个原理,用随机抽样的方式,通过对样本的分析来估计整体。当然得出的结论会比较接近真实情况的。可是有一个问题是,我们在采集数据的过程中是否是真的随机。


举个实际业务场景的例子,在软件应用升级期间,通过衡量用户的日活、人均播放量、人均播放时长等指标,来判断新版本的欢迎度是否优于老版本。听起来好像没有什么问题,其实这里就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户。这批用户在这些指标上,本来表现就是优于一般用户的,因此指标数据更高并不能说明更好。


3.混入脏数据


脏数据是指严重不合理或对于实际业务毫无意义的数据,通常是由程序bug、第三方攻击、网络传输异常等原因造成的。


这种数据的破坏性比较大,可能引发程序报错,对指标的准确度影响也较大。


关于大数据有哪些分析误区,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

Ⅳ .在计算机数据采集、数字化处理的过程中主要存在哪些问题如何避免这些问题

一是每一个数据点的时间。另一个就是采样率设置的问题。
第一是每一个数据点的时间,在NI的数据采集中是通过T0和dt来确定的,T0就是开始数据采集的初始时间,是任务开始时,数据次啊及卡读取的计算机时间,dt二个数据点之间间隔的时间,是采样率的倒数,比如1K采样率,dt就是1/1000=0.001=1毫秒。在施工DAQmxRead.vi的时候要选择波形输出而不是DBL输出,波形输出就带有这些信息,而DBL就只有数据而没有时间信息了。
另一个就是采样率设置的问题。数据采集卡的采样脉冲一般是由它的内部时钟源进行分频后得到的,所以采样率是不是非常准确,得看时钟源是否能被整数倍地分频到指定的采样率。

阅读全文

与数据采集认识上存在哪些误区相关的资料

热点内容
为什么花生代理老是断连接 浏览:353
欧弗兰怎么代理 浏览:786
如何规范数据信息被非法获取 浏览:309
新家具收购哪个市场好 浏览:13
菏泽什么地方有旧货市场 浏览:116
云技术公司怎么做 浏览:333
山东市场怎么开发 浏览:951
江苏扬州对口高考技术占多少分 浏览:603
如何制造情怀产品 浏览:904
委托加盟代理怎么做 浏览:342
智慧消防合作代理怎么办 浏览:615
余额宝为什么没有类似产品储存 浏览:449
什么是月份信息 浏览:919
技术保障是如何保障生产的 浏览:724
制作直方图数据要多少 浏览:678
大数据需要什么学科 浏览:442
怎么查货代是一级代理吗 浏览:319
又木黑糖姜茶怎么代理 浏览:574
文科和技术工哪个好 浏览:166
牛市怎么交易最好 浏览:444