导航:首页 > 数据处理 > 大数据数据混杂是如何产生的

大数据数据混杂是如何产生的

发布时间：2024-06-25 22:34:40

⑴ 理解大数据时代的数字鸿沟

理解大数据时代的数字鸿沟
大数据是近几年来炙手可热的话题，大数据的优势以及大数据所带来的新思潮形成研究热潮。从随机抽样到全体样本，从要求精确到应对混杂，从追求因果到发现关联，大数据时代改变着我们的信息环境与信息处理思维模式。但是，并非所有的人都能同时走入大数据时代，如同媒介技术的每一次创新与扩散一样，敏感的企业和组织是大数据的先行者和实践者，也是最早的大数据受益者；而普通的个体则在面对大数据时呈现差异，有的在时间上跟进迟缓，有的在数据分析能力上存在欠缺，有的不知道如何寻找开放数据，有的在数据噪音前不知所措。传统互联网时代的数字鸿沟尚未完全填平，而在大数据时代新的数字鸿沟又在形成并不断影响与改变着人们的政治经济地位。
讨论大数据时代的数字鸿沟，需要明确区分“数字差异”与“数字鸿沟”.从词源上看，两者意义接近，都是由“Digital Divide”翻译而来。但从传播效果或情感色彩上看，数字鸿沟比数字差异更能引起人们的警示。在大数据时代，人们创造数据并被数据所包围，囿于人的视野及精力，人们在面向数据并做出选择时必然会出现差异。比如，互联网提供的个性化的搜索引擎，个性化藏夹等都会导致信息浏览的个人化，大数据时代的数字差异不可避免。数字鸿沟比数字差异更能引起人们的警惕，数字鸿沟更强调在认识和机会上的差异。数字差异是知道有机会而不为，数字鸿沟则是想为而没有能力或机会。同在大数据背景之下，数字鸿沟可能会在拥有数据、分析数据和数据思维三个层面存在数字鸿沟。
三个不同的分析维度
（一）拥有数据的数字鸿沟
大数据时代，“全新”“、革命”“、颠覆性”等术语频繁出现，但“大数据”这一标签下所指涉的问题却由来已久。伴随着互联网的勃兴，数据的指数增长、信息超载和数据处理问题等一直是人们不得不面对的问题。在大数据时代，数据的掘取、存储、处理与应用方面的技术有了快速的发展，但是在谁拥有数据这个造成数字鸿沟最基本的问题上，当下关于大数据的讨论并未给出让人满意的答案。
1.数据开放
对于企业和政府来讲，大数据是一笔宝贵的财富，“对大数据的掌握可以转化为经济价值的来源”也可以从更为准确的角度了解社会，并进行管理。因此，企业和政府需要从普通公众那里搜集数据，数据的传播是一种自下而上的过程，最先拥有和掌控大数据的也是来自企业和政府的“数字先锋”.但是，消弭数字鸿沟恰恰需要另一种形式的数据流动，即开放数据---让数据从企业和政府所有而变成被公众所共享，这是一个自上而下的过程。在现实生活中，这种自上而下的信息流动处处面临着阻力：一方面企业把数据当做核心竞争力或者核心机密，并且花费了大量的人力、物力、财力去做数据分析，因此很难实现数据的共享；另一方面政府的数据公开步伐还比较缓慢，公众获得有价值的信息依然有难度。
数据开放所形成的数字差异需要开放数据来解决。哪些数据能够开放，以何种形式向公众开放，具体的实施者是谁，谁又能为数据开放过程中的“搭便车”行为买单都是需要思考的问题。大数据既可以产生商业价值，同时又兼具公共性的特质，在此过程中，和公众利益密切相关的数据需要开放，我国早在 2007 年 1 月 17 日就通过了《中华人民共和国信息公开条例》，明确规定原则、范围、方式、程序和监督保障制度。在大数据时代，政府开放数据的力度应该进一步加大，同时对公众进行获取数据的素养教育，实现数据的民有和民享。作为一种公共资源，数据分配的公平性和财富分配的公平性一样，都会对社会结构产生非常大的影响，政府和企业可以依靠数据存储与分析技术的发展做“数据银行”业务，让每个公民都有机会在“数据银行”存储和提取自己想要的数据。国内学者涂子沛在《大数据》一书中，把开放数据放在数据民主的角度去思考，指出开放数据运动会推动“开放政治、开放政府、开放媒体、开放城市等等一系列的运动和口号”.这对消除数据所有权所形成的数字鸿沟，建设一个数据公平的美丽新世界提供了一条可行之路。
2.数据搜集
大数据时代的基础在于海量数据，究竟多大才是大数据呢？“麦肯锡全球研究所”的最新报告对大数据下了一个定义：“大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群”而且，大数据的标准随着数据的指数增长也在不断发生变化。今天，我们在谈论大数据时往往以 pb 为单位，海量数据提供了更为详细的信息，但是也存在一些隐忧，即数据的价值密度太小，因而搜集数据以及在海量数据中寻找有价值信息的成本太高。舍恩伯格在接受《中国经济周刊》记者谢玮专访时说：“在许多方面，我们仍然生活在一个‘小数据’时代，在这个时代收集数据非常耗时、昂贵和困难。”大数据时代的数据搜集是一项庞大的工程，而且，大数据还远远未达到普通人能够支付得起的阶段。
搜集数据的数字鸿沟在大数据时代似乎没有减少，反而随着大数据处理技术的发展而在逐步扩大。对于媒体和企业来讲，搜集数据和处理数据都并非易事，着名的《哈佛商业评论》杂志对全球财富1000强的企业应用大数据的情况做了一项科学调研，发现“大多数企业还处于大数据的入门阶段，还小具备真正挖掘大数据的能力”,而且，“只有巧%的受访者认为所在企业的数据可访问性够好或者达到世界级水平，只有21%的受访者认为所在企业的分析能力够好或者达到世界水平”.显然，对于普通公众来说，搜集数据、挖掘数据的难度更大，差异也更大。在搜索引擎主宰信息流向的时代，公众就因为使用不同的搜索引擎而产生数字鸿沟，使用普通的搜索引擎与使用较为专业的搜索引擎和数据库之间存在着差异。在大数据时代，公众不仅要知道如何利用专业的搜索引擎，还需要在海量的信息中迅速寻找最有价值的信息，囿于公众能力的差异，在搜集阶段产生的数字鸿沟将难以避免。而且，互联网下的数据处于不断更新的状态，时效性是非常重要和关键的。在对“知识鸿沟”的研究中，西方学者 J.S.艾蒂玛和 F.G.克莱因曾经提到“上限效果”,指的是随着时间的推移，知识鸿沟会逐渐减少。但是在互联网时代，信息的价值和及时性有密切的关系，即使随着时间的推移公众在搜集数据上的“鸿沟”逐渐缩小，但是后来者所拥有的数据价值也会大打折扣。媒介环境学派的代表性人物莱文森对信息超载的论述可能会对缓解大数据时代数据搜集所产生的差异提供帮助，他认为建立信息分类法则可以解决信息超载的困扰，比如在图书上建立图书分类法则并依据这一法则运作，就能够解决图书馆的信息超载问题，这一思想对解决长期困扰人类的信息超载具有普遍的启示意义。
（二）分析数据的数字鸿沟
谁拥有数据会产生差异，而在同等拥有数据的情况下，公众利用数据的能力不同，也会产生差异。大数据既包含以数量关系为基础的结构化数据，也包含以定性描述为主的非结构化数据，而且，非结构化数据往往占有很大的比例。因此，在大数据时代，同样拥有数据并不代表着同样能够利用数据，分析数据和掘取价值上的数字鸿沟依然需要引起我们的警惕。
1.数据删除
大数据时代是一个信息高度碎片化的时代，信息中的重复、噪音、冗余和信息中的人为因素（网络水军）等，都影响到人们对数据的分析与利用，此时，删除数据与收集数据同样重要。除《大数据时代：生活工作与思维的大变革》之外，舍恩伯格还有一部影响深刻的着作-《删除：大数据取舍之道》。在这部着作中，舍恩伯格提醒人们在大数据时代“记忆成为常态，而遗忘成为例外”,因此要注意信息取舍之道；在这个“没有遗忘的世界里”,遗忘恰恰成为一种宝贵的信息处理方式与权利数据删除是一个人性化的问题，随着“电脑原生代”的成
长，每个人都有着青涩的、尴尬的、甚至小堪回首的过去，互联网之前人们会尝试遗忘这些小愉快的过去，但是互联网的记忆让每个人小得小而对这样一个现实：人们可能会为若十年前犯过的错误买单。
删除同样是一个技术性的问题，在互联网时代，历史悠久的数据会逐渐成为“数据垃圾”,不但占用大量的存储资源，而且也会影响对当下数据的分析，评估数据与删除数据成为大数据时代必不可少的数据处理方式。但是具体到个人就会产生一个问题，人不可能像机器一样去评估和处理，只能按照过往的经验来处理信息。另一位国外学者蒂奇诺在分析“知识鸿沟”所形成的原因时提到，个人的信息储备也会产生“知识鸿沟”,即“正规教育和从大众媒体中获得的信息会帮助受教育程度较高的人提供理解知识的背景”.大数据时代并未改变人们接受信息的习惯，因此，在大数据时代依然是受教育程度较高的人先学会接受和删除信息。删除还有一个颇具哲学意味的意义，在大数据时代，选择即删除。人对数据的接受具有零和效果“,朝向一组数据的同时意味着放弃另外的数据，这也是另外一种意义上的删除，处理掉低质量的过时数据是发现大数据意义的前提。知名学者马修·E·梅所着的《精简：大数据时代的商业致胜法则》，同样也提到大数据时代的信息删除与精简问题。在大数据时代，能够快速在第一时间获得最有价值数据的企业会逐渐发展起来，而不懂大数据或沉迷于大数据的企业会逐渐落伍。
2.数据可用
大数据时代提供了一个多元、详细且复杂的数据环境，在大数据时代，一切现实都可以量化为数据。但是如果用大数据来创造价值就需要从海量数据中找出有价值的数据，并把数据还原为现实。因为”,拥有一个数据集，无论它们多大或者多小，其自身都不会带来任何价值。“大数据的最终价值还是体现在数据的”可用“之上。与此同时，关于数字鸿沟的问题也出现在数据的”可用“上，大数据如同提供了一个美味的坚果，不借助工具很难打开它，而大数据所使用的”云存储、云计算“又不是任何公众都能轻易掌握的。少部分人掌握了分析数据与应用数据的能力，还有相当多的大众面对浩如烟海的大数据不知所措，最终陷入信息超载的焦虑之中。
弥补数据可用的”数字鸿沟“需要让数据变得直观而可视，这仍然是一个涉及公共性的话题。把数据还原为现实既需要数据分析的人工智能技术，也需要人的敏锐的分析与判断能力，更为关键的是，需要把对数据所提示的环境真实地传达给公众。政府和媒体要做的依然很多，首先需要数据处理技术的普及，把解读关于公共事务的大数据当做一个公共事业，如在 20世纪 60 年代，被称为”人工智能之父“的约翰·麦卡锡曾预言”有朝一日，计算可能变成公共设施“.其次，媒体要做好数据与现实之间”摆渡人“的角色，不仅要用大数据来分析受众获得收益，更要体现媒体的公共性，让受众能够读懂大数据并受用于大数据。比如，美国记者在报道龙卷风时”将龙卷风破坏房屋的损毁数据，与地图相重叠，制成大数据地图。“这样，受众既能够比较精确地了解龙卷风带来灾害的大体区域，又能够精确理解某个区域龙卷风造成损失的具体情况。
（三）数据思维的数字鸿沟
大数据热所带来的重要变化是关于数据思维的变化，关于大数据的讨论有很多，但并非有了”大数据“这样一个概念我们的信息环境就自然而然发生了质的变化，而是在互联网逐渐走向海量数据的今天，从”数字化生存“转向”数据化生存“的大数据思维让人们多了一个认识世界的视角。在大数据技术之外的数字鸿沟来自于人们的思维层面，即人们对待数据的思维存在差异。
1.超越大数据
大数据时代的思维之一是要超越”数据迷思“,把数据当成一种工具而不是一种数据霸权。舍恩伯格在《大数据时代》一书中指出大数据带来的三种变化：不是随机样本，而是全体数据；不是精确性，而是混杂性；不是因果关系，而是相关关系。这些变化对于传统的定量研究方法有极大的影响，可是定量方法的改进并不能取代定性的研究，必须超越数据才能发现数据背后的意义与价值。于是，大数据思维包含了三个层次。第一个层次是发现海量数据，了解海量数据的潜在价值，但并不能很好的利用数据；第二个层次是能够较好的利用数据，但是往往陷入数据崇拜，解决不了关于意义的问题；第三个层次是能够利用数据，但是也能够同时超越数据，发现价值。这三个层次在大数据的发展过程中既是一个历时的过程，也是一个共识的过程。大数据概念的兴起与扩散还需时日，因此在数据思维上三个层次的”数字鸿沟“仍将长期存在。
2.大数据素养
数字鸿沟的减小也需要在硬件与软件两个方向上作出努力，在大数据时代仍然如此。从最近几年的中国互联网络统计报告来看，硬件的数字鸿沟在逐渐缩小，而软件的数字鸿沟仍在扩大。消弭数字鸿沟需要政府、企业等开放公共数据并提供利用公共数据的方法，还需要提升全体公民的大数据素养，实现大数据的民有与民享。数据素养也被称为数据信息素养，主要指人们在科学数据的采集、组织和管理、处理和分析、共享与协同创新利用等方面的能力，以及在数据的生产、管理和发布过程中的道德与行为规范。全面提高全民的数据素养，我们才能自信地迎接大数据时代的到来，并利用大数据为人类创造新的福祉。

⑵ 大数据时代是什么意思大数据是在什么背景下提出的

大数据（Big data）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapRece一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据产生背景：

进入2012年，大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。

它已经上过《纽约时报》《华尔街日报》的专栏封面，进入美国白宫官网的新闻，现身在国内一些互联网主题的讲座沙龙中，甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。

数据正在迅速膨胀并变大，它决定着企业的未来发展，虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患，但是随着时间的推移，人们将越来越多的意识到数据对企业的重要性。

正如《纽约时报》2012年2月的一篇专栏中所称，“大数据”时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析而作出，而并非基于经验和直觉。

哈佛大学社会学教授加里·金说：“这是一场革命，庞大的数据资源使得各个领域开始了量化进程，无论学术界、商界还是政府，所有领域都将开始这种进程。

(2)大数据数据混杂是如何产生的扩展阅读

大数据时代的特征

1、数据量大（Volume）

第一个特征是数据量大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。

2、类型繁多（Variety）

第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。

3、价值密度低（Value）

第三个特征是数据价值密度相对较低。如随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。

参考资料来源：网络-大数据时代

⑶ 如何看待大数据的精确性和混杂性

在大数据时代，使用所有能获得的全体数据已经逐渐成为可能，然而数据量的大幅度增加会导致结果的不准确，与此同时。有些错误的数据也会随着大量的数据混入数据库。

其中的某些错误是我们能够通过我们的努力去避免的，去改变的，但是，有些错误我们需要去慢慢接受它们。去尝试着，接收混乱，拥抱错误。

接收混乱是小数据和大数据时代主要的区别之一。由于少量的数据，使得我们努力追求更加精密的结果，但是不妨多想想，低随机性和小数据又怎么可能将事物的本质全面的还原出来呢？错失的95%的非结构化数据中包含着无限的可能，或许我们想要的正是我们曾经所丢弃的。

(3)大数据数据混杂是如何产生的扩展阅读：

注意事项

纷繁的数据越多越好，大数据时代要求我们重新审视对于精确性的定义。在如今的信息时代，我们掌握的数据越来越全面，而且数据的存在并不是独立的，数据之间的交互连接多变且无序，组合与组合之间更是能产生无穷的化学作用，奇妙无穷。

大数据要求我们有所改变，接收混乱和不确定性。精确性不会在成为我们生活中的支柱，每个问题只有一个答案的想法在信息时代是靠不住的，不管我们承认与否。但当我们学会接受混乱和拥抱混杂之后，我们会发现我们离事情的真相有进了一步。

⑷ 大数据的特点有哪些

根据《大数据时代》大数据的特点主要分为以下四点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）
一、Volume（大量）
大数据的特征其实是我们现在理解的海量数据。“大数据”在互联网行业是必备项：互联网公司在日常运营中生成、累积的用户网络行为的数据。比如社交电商平台每天的产生订单，各个短视频、论坛、社区发布的帖子、评论及小视频，每天发送的电子邮件，以及上传的图片、视频与音乐，等等，这些无数个体产生的数据规模很庞大，数据体量早已达到了PB级别以上，大数据的大量就是我们说的海量数据。
二、Velocity（高速）
随着网络传输速率不断攀升，从传统的百兆到千兆万兆网络，移动网络也已经逐步升级到了5G时代，数据的产生和传输都越来越高速。所以客户越来越强调实时反馈，就是无论是在线看电影还是在线直播、刷视频都要求低延时，对于传输、存储、播放都要求高度，人们和企业都越来越依赖互联网，网上的实时交易、在线培训、社交等都与每个人息息相关，云计算平台大数据平台担负着高质量的服务功能，运营方还是服务商对于海量数据，谁能提供更快的速度，谁就能获得更多的用户和订单！
三、Variety（多样）
数据多样性其种类包括文字、图片、视频、语音、地图定位信息、网络日志信息等等，正是多样化的数据形式决定了大数据的更高价值。对于数据挖掘和数据资产越来越受到企业的重视，多类型的数据对数据的存储和处理能力都提出了更高的要求。目前应用最广泛的就是智能推荐系统，如今日头条，网络、抖音等，这些平台都会通过对用户的行为进行分析，从而智能地推荐用户喜欢的内容页面。
四、Value（低价值密度）
随着物联网的广泛应用，往往人们需要从海量的数据中提取相关联的有用的信息，所以对于大数据的机器学习深度学习算法可以发挥巨大作用。大数据最大的价值在于通过从大量不相关的各种类型的数据中，挖掘出对未来趋势与模式预测分析有价值的数据，并通过机器学习方法、人工智能方法或数据挖掘方法深度分析，发现新规律和新知识。

阅读全文

与大数据数据混杂是如何产生的相关的资料

热点内容

法律服务代理制是什么发布：2025-03-11 10:13:16 浏览：594

新能源汽车哪个市场最好发布：2025-03-11 09:59:58 浏览：747

自产农产品怎么界定自产发布：2025-03-11 09:49:29 浏览：348

电影特殊交易讲的什么发布：2025-03-11 09:12:34 浏览：618

医夫子的产品怎么样发布：2025-03-11 09:01:54 浏览：656

中国银行扣款信息在哪里设置发布：2025-03-11 08:33:59 浏览：583

耐克回收什么产品发布：2025-03-11 08:31:50 浏览：816

猫吐虫了买什么产品发布：2025-03-11 08:27:11 浏览：270

文案推广产品怎么写发布：2025-03-11 08:27:09 浏览：574

舒畅医用冷敷凝胶怎么代理发布：2025-03-11 08:25:49 浏览：950

打工学什么比较有点技术发布：2025-03-11 08:25:00 浏览：363

苹果为什么重视中国市场发布：2025-03-11 08:00:45 浏览：133

注射新冠疫苗多久能查询到信息发布：2025-03-11 07:57:21 浏览：330

鲁证期货交易如何查周单发布：2025-03-11 07:51:28 浏览：197

如何建立产品网页发布：2025-03-11 07:45:53 浏览：795

紫色面膜代理需要多少钱发布：2025-03-11 07:37:25 浏览：424

变频器数据如何传输发布：2025-03-11 07:35:12 浏览：570

唐山能学什么技术发布：2025-03-11 07:35:04 浏览：8

宁波菜市场搬迁到哪里发布：2025-03-11 07:34:18 浏览：784

产品顾问有什么意思发布：2025-03-11 07:32:13 浏览：929