㈠ 大数据时代,为什么要对数据进行清洗
数据意味着什么
在计算机这门科学中被经常谈论到的是对资源的管理。最典型的资源就是时间、空间、能量。数据在以前并没有被认为是一种资源,而是被认为成一种使用资源的事物。现在观念中,数据已被广泛认为是一种资源,是我们可以利用并从中获得价值和知识的一种资源。将数据资源进行分析挖掘,从而使我们做出适时的、节约成本、高质量的决定和结论。
为什么要整理数据
企业认识了数据的价值,但是数据本身存在的一些特点,使得每个企业又对其头疼不已。这里想提到的其中一个特点Variety(杂)- 数据来源多种多样,数据的形式更是千奇百怪。
当与各种数据打交道的时候,通常会发现,数据本身真的不是那么友好。打个比方,如果企业想直接从业务数据库提取数据用来分析,会面临的问题是,业务数据库通常是根据业务操作的需要进行设计的,遵循3NF范式,尽可能减少数据冗余,但同时也带来的负担是,表与表之间关系错综复杂。
在分析业务状况时,储存业务数据的表,与储存想要分析的角度表,很可能不会直接关联,而是需要通过多层关联来达到,这为分析增加了很大的复杂度,同时因为业务数据库会接受大量用户的输入,如果业务系统没有做好足够的数据校验,就会产生一些错误数据,比如不合法的身份证号,或者不应存在的Null值,空字符串等。
此外,随着NoSQL数据库的进一步发展,有许多数据储存在诸如MongoDB等NoSQL数据库中,多种多样的数据储存方式,也给取数带来了困难,没法简单地用一条SQL完成数据查询。就更别提机器的源日志和靠爬虫扒到的数据了。
所以整理数据的目的就是从以上大量的、结构复杂、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据和数据结构。清洗后、保存下来真正有价值、有条理的数据,为后面做数据分析减少分析障碍。
什么是数据清洗
如何去整理分析数据,其中一个很重要的工作就是数据清洗。数据清洗是指对“脏”数据进行对应方式的处理,脏在这里意味着数据的质量不够好,会掩盖数据的价值,更会对其后的数据分析带来不同程度的影响。有调查称,一个相关项目的进展,80%的时间都可能会花费在这个工作上面。因为清洗必然意味着要对数据有一定的理解,而这个工作是自动化或者说计算机所解决不了的难题,只能靠人脑对数据进行重新审查和校验,找到问题所在,并通过一些方法去对对应的数据源进行重新整理。
MicroStrategy通过长期思考和解决企业面对的众多复杂应用场景,深入开发各种辅助功能帮助用户去深度体验连接数据和整理数据,使其模型可以支持一站式连接各种类型数据资源,包括各类型文本文件,超过 70 个 RDBMS、多维表达式 (MDX) 多维数据集源、Hadoop 系统和云端数据源。MicroStrategy凭借开箱即用数据连接和本机驱动,同时也提供将不同数据源数据进行融合,清除用户和数据源之间的障碍。
㈡ 网络大数据什么时候可以清除
网络大数据不会清除,因为网络大数据是云储存的,即使服务器坏了,仍然有另一个服务器储存着数据,因此大数据只会越来越多,越来越精准。