① 大数据时代:如何守护我们的数据安全
大数据时代:如何守护我们的数据安全
不管你承认不承认,我们已经全面进入了大数据时代。无时无刻,我们的很多信息都被通过各种途径传播出去,这就必然导致安全问题的产生。
大数据的安全问题有多严重?在此前举办的“2016中国大数据产业峰会”上发生的一个实例,就可见一斑。
在360展区,市民严女士随手将钱包、手机放到安检筐里,空手走过安检门。她通过安检门,突然发现大屏幕上显示出自己银行卡的姓名拼音、身份证号、银行卡号、卡片有效期、最近10次的消费时间、消费地点、取现记录、转账记录等等。严女士惊呼:“遇到了魔术师”。
360安全专家刘洋解释,实际上,存放手机钱包的安检筐里存有一张具有NFC(近距离通信)功能的无线读卡器,旁边还有配套的信号接收器和电脑等设备,就像公交车刷卡器,只要银行卡靠近读卡器,卡片的信息就显示出来,安检门其实就是“安全魔术师”手中的障眼法。就在严女士将钱包放进安检筐的那一刻,严女士的个人信息就已经泄露了。
那么,我们靠什么来保障我们的数据安全呢?难道我们只能看着个人的数据和隐私到处泄露吗?
数据安全事件日益高发
近来,大数据安全事件呈高发之势。日前,广东警方破获一起高科技经济犯罪案件,17岁的“黑客”叶世广,攻破了多个商业银行网站,窃取了储户的身份证号、银行卡号、支付密码等数据,带领一批人在网上大肆盗刷别人的信用卡,涉案金额近15亿元,涉及银行49家。
今年2月,发生了世界上有史以来规模最大的网络盗窃案。黑客入侵了孟加拉国央行在纽约联邦储备银行的账户,盗走了8100万美元,后来孟加拉国官方表示,黑客出现了一个拼写错误,否则随后还将进行一笔近10亿美元的转账。
今年3月,与叙利亚有关联的激进黑客组织对一个自来水厂发起网络攻击。黑客操纵系统改变了进入到自来水中的化学物含量,阻碍净水过程。
类似的案例不胜枚举。
360公司总裁齐向东向《中国科学报》记者表示,接入互联网的设备越多,网络攻击的发生几率就越高,网络攻击首先瞄准大数据,攻击造成大数据丢失、情报泄密和破坏网络安全运行。大数据技术是一把双刃剑,既可以造福社会、造福人民,又可以被一些人用来损害社会公共利益和民众利益。
大数据安全体系构建势在必行
“在互联网乃至物联网时代,如果我们不能很好地解决安全问题,就会影响社会各方面的发展。因此,各级政府在鼓励发展大数据的同时,要同步考虑构建大数据安全体系。”齐向东表示。
值得注意的是,传统的网络安全思路已经无法保障大数据时代的安全。刘洋向记者介绍,传统网络安全的防护思路是划分边界,将内网、外网分开,业务网和公众网分离,用终端设备将潜在风险隔离。通过在每个边界设立网关设备和网络流量设备,来守住“边界”,以期解决安全问题。但随着移动互联网、云服务的出现,移动终端在4G信号、Wi-Fi信号、电缆之间穿梭,网络边界实际上已经消亡。
“很多传统的大企业认为,只要自己购买服务器并搭建独立的机房,安排专门的技术人员就能够保护企业的数据不被泄露,能够保护企业的信息安全。但实际上,在如今的互联网时代,这种传统的方法更加容易被不法分子所攻破。”阿里云安全资深总监肖力向《中国科学报》记者介绍,这是因为从技术实力来看,绝大部分企业并不是专门做网络安全、数据安全,其设置的技术壁垒难以阻挡专业的黑客。
齐向东介绍,360安全中心每天发现木马样本近千万个,每天发现的各种软硬件漏洞、网站漏洞超过120个,“每一个木马每一个漏洞,都可能攻破预先部署的安全设备和安全软件”。这种情况下,企业的传统防护的确难以奏效。
云平台和大数据需“双剑合璧”
在采访中,有专家认为,对付大数据时代的数据安全问题,防止信息泄露,除了完善相关法制法规,更加需要云平台的防护技术,结合大数据技术来应对数据安全。
“在云计算不断深入发展的当下,将数据存储在云平台上,或许比传统的企业信息防护更加安全。”肖力介绍,以阿里云为例,阿里云在架构设计之初就同步考虑了安全架构,不仅将安全的基因植入到整个云平台和各个云产品中,也将数据安全要求嵌入产品开发生命周期的各个环节。依靠专业的云计算平台,强大的技术团队能够更好地应付来自黑客的攻击。
不同用户之间,无论是CPU、内存,还是存储和网络,都默认相互隔离,既看不到对方的数据,也不会相互影响。“就像一间五星级酒店被分割成多个房间,他们之间是相互独立和封闭的,从而确保不同租户互不干扰和数据隔离。”肖力表示。
据介绍,目前全国35%的网站的数据安全防护都依托于阿里云平台的防护。阿里云的云盾,涵盖网络安全、服务器安全、数据安全、业务安全和移动安全这五个安全领域,来保护数据安全。
360也有自己的云安全管理平台。刘洋介绍,该平台将360独有的云安全漏洞挖掘能力输出给广大用户,通过统一管理、安全可见以及网络、主机、应用、数据的分层纵深防御,为用户全面解决云安全问题。
“用大数据技术来解决大数据时代的安全问题十分必要。”齐向东进一步指出,必须建立“数据驱动安全”的思维,搭建全新的互联网安全体系—“传统安全+互联网+大数据”。也就是说,要利用漏洞挖掘技术、网络攻击技术、软件样行为分析技术以及由网络地址解析数据库、网络访问日志数据库、文件黑白名单数据库等组成大数据系统与分析技术,构建全天候全方位感知网络安全态势。“要基于强大的大数据库、利用先进的大数据技术和广泛的用户覆盖率,提前感知网络威胁态势,为大众提供未知威胁的发现与回溯功能并进行有效防护。”齐向东说。
“未来还应当联合各方力量,共建互联网安全产业链生态,来应对大数据时代的安全风险。”肖力表示。
② 大数据如何创新应用在社会治理、民生服务、产业升级等领域
大数据促进我国经济社会创新发展
本文作者:工信部赛迪研究院互联网研究所 陆峰博士
近日,国务院印发《“十三五”国家信息化规划》,明确提出要建立统一开放的大数据体系,加强数据资源规划建设,构建统一高效、互联互通、安全可靠的国家数据资源体系,推动数据应用,强化数据资源管理,注重数据安全保护。
数据与煤炭、石油等能源资源一样,是国家基础性和战略性资源。近两年来,我国大数据产业生态体系不断完善,管理服务应用创新层出不穷,新服务、新模式、新业态不断涌现,为推进产业转型升级、创新社会治理模式、优化民生保障服务提供了重要保障,成为中国经济社会创新发展的重要驱动力。加快推进大数据在经济社会各领域创新应用,促进产业创新、管理创新、服务创新和治理创新,已经成为落实创新、协调、绿色、开放、共享五大发展理念重要抓手,成为推动中国经济社会创新发展重要途径。
一、大数据促进了产业发展模式创新,推动了产业转型升级和提质增效
一是大数据促进传统产业组织和运行模式创新,让传统产业研发设计、生产制造、物流运输、售后服务更加精准、高效和智能。基于客户需求反馈大数据的研发设计模式,有效解决了研发设计闭门造车问题,让企业研发设计更加具有针对性和导向性。物流大数据有效解决了物流运输信息不对称问题,让物流资源调度更加优化和智能,物流仓储、车辆、人员等物流资源利用更加匹配和高效。生产制造大数据解决了生产数据车间流动问题,让企业生产流线更加柔性化,有效支撑了个性化定制、体验式制造、网络制造等新型制造业态。远程运维、在线监测等大数据有效解决了大型机械装备售后管理和维修问题,加强了产品的全生命周期管理,实现了对产品故障提前智能预警,促进了维修资源的优化配置,显着缩短了维修周期。
二是大数据促进了新型信息服务业态的孵化,各领域大数据分析挖掘行业信息服务快速崛起。营销、征信、互联网金融等领域大数据信息服务的崛起,让产业经济发展更加高效、健康。营销大数据信息服务的发展,指导了企业商业规划,优化商业资源配置,提高商业营销效率,实现了精准营销。征信大数据信息服务的发展,有效解决了交易双方信用信息不对称问题,提高了交易可靠性保障,让商业活动发展更加守信和健康。互联网金融大数据信息服务的发展,缩减了互联网金融运营成本,降低了普惠金融的发展门槛,有效解决了中小企业短期资金缺口问题,对传统金融服务起到了有效补充。
三是大数据倒逼着信息通信技术加速创新,为我国信息通信产业实现后发赶超、由大变强提供了难得历史机遇。大数据技术倒逼着传统单机数据存储和计算分析模式向网络分布式存储和协同计算模式方向发展,对主机存储、网络传输、计算控制提出了新的要求,倒逼了存储、传输、计算等技术升级换代,为我国企业利用互联网产业发展契机,推进存储、传输、计算等技术自主可控提供了历史机遇。
二、大数据促进了社会治理模式创新,加速了国家治理能力和治理体系现代化
一是大数据提升了政府社会管理能力,基于大数据的社会管理模式让社会管理更加主动、精准、高效。城市管网、园林绿化、市容市貌等市政管理大数据的采集、挖掘和利用,加强了对城市基础运行部件的实时监控和智能管理,优化了市政管理资源的配置,促进了城市绿色、清洁、高效、安全运行。公路、铁路、地铁、水运、航空等交通大数据的采集、挖掘和利用,有效指导了道路交通规划,促进了交通运输资源配置优化,实现了对交通的实时疏导能力,提高了对交通事故的预判能力,更好地满足公众安全、高效出行需要。水灾、火灾、台风等应急救灾大数据的采集、挖掘和利用,提高了对灾难发生的预判能力,优化了救灾资源配置和调度,强化了灾难发展动向科学评估,促进了灾难损失的降低。城市规划大数据的采集、挖掘和利用,让城市居住和产业规划布局更加科学合理,实现了人口早晚合理潮汐流动,降低了城市交通拥堵,促进了城市宜商宜居和产城融合。
二是大数据提升了政府宏观调控能力,让宏观调控更加精准和科学。电子支付、移动支付、互联网金融等金融大数据的采集、挖掘和利用,实现了国家对金融运行精准掌控,提高了国家对金融运行的综合分析能力和金融调控的决策能力。电子商务大数据的采集、挖掘和利用,实现了国家对社会商贸活动运行状态的有效把控,促进了供需调控的精准化,为了推进供给侧改革、促进产业结构调整、优化产业布局提供了科学依据。煤炭、电力、石油等能源大数据的采集、挖掘和利用,实现了国家对全社会经济运行活跃性的有效评估,为推进节能减排、加强环境治理、优化产业政策提供了科学依据。
三是大数据提升了政府市场监管能力,强化线上线下一体化监管,实现事中监管和事前预防有机结合。煤矿、非煤矿山、烟花爆竹、石化冶炼、危化品等企业安全生产大数据的采集、挖掘和利用,提高了重点危险源企业安全生产在线监管水平,实现了对重点危险源风险的科学预判,有效防范了潜在事故和重特大事故发生,降低了安全生产事故发生概率。食品、药品等大数据的采集、挖掘和利用,强化了产品全生命周期监管,提高了产品的溯源能力,保障了涉及民生产品安全。银行、证券、外管等金融大数据的采集、挖掘、利用,强化了对洗钱、诈骗、非法集资、内幕操作等非法金融活动监管,有效防范了金融系统性风险的发生,保障了金融运行的稳定。金融、纳税、环保、行政处罚、刑事处罚等领域信用大数据的采集、挖掘和利用,促进了信用信息“全国一张网”建设,市场主体诚信档案、行业黑名单制度和市场退出机制逐步健全,强化了联合激励与惩戒机制,实现了让“守信者一路绿灯,失信者处处受限”。同时,大数据应用完善了政府市场监管机制,实现了让权力运行处处留痕,把执法权力关进了“数据铁笼”。
四是大数据提升了政府网络空间治理能力,网络社会治理更加高效、科学。网络舆情大数据的采集、挖掘和利用,提高了对网络社会关注焦点的即时发现能力,加强了对物理社会潜在燃点的研判,倒逼社会重要问题解决,为解决社会问题提供了有效的决策数据支撑和赢得宝贵时间窗口期。网络安全大数据的采集、挖掘和利用,强化了对网络安全态势的全面感知,提高了网络黑客攻击发现能力,完善了网络安全保障体系,提升了对网络空间的管控能力。
三、大数据促进了民生服务模式创新,提升了民生保障便民、利民和惠民水平
一是大数据促进了民生服务资源优化配置,以人为本发展理念得到更加充分落实。大众出行大数据的采集、挖掘和利用,促进了公共交通运输资源配置,提升对道路交通的实时诱导,实现让大众出行道路更加顺畅和换乘更加衔接。电、水、热、气、通信等服务大数据的采集、挖掘和利用,促进了服务资源的优化调度配置,让服务更加均衡协调。流动人口、老年人口、学前儿童、居住人口等大数据的采集、挖掘和利用,完善了流动人口计划生育、子女入学、医疗保障等服务,促进了医养、学前教育、生活服务等资源优化配置。
二是大数据提高了大众医疗卫生保障水平,构建起了人类生命新守护环。电子病历、居民健康档案、可穿戴智能健康设备数据等医疗卫生大数据的采集、挖掘和利用,提高医疗机构临床决策智能化水平和远程病人监控精准化水平,提升了卫生部门公共卫生和公众健康监控的效率,缩短科研机构医疗药品研发周期,为全社会防控大规模疫情发生、优化医疗资源配置、提高人的健康保障提供了有效的决策依据。
大数据正在深刻影响和改变世界发展,对产业发展、社会治理、民生服务带来影响才刚刚开始,应用前景非常宽广。牢牢把握科技革命历史机遇,率先抢占大数据发展先机,大力发展数据产业,推进大数据在经济社会各领域深入应用,完善大数据采集挖掘、存储传输、流通交易、安全保障等相关制度,充分释放数据资源红利,必将为中国经济社会创新发展注入新的发展动力,推动中国经济社会发展迈上新的发展台阶、开启发展新方位。
(联系邮箱:[email protected])
③ 大数据怎么发挥大价值
1 大数据兴起预示逗信息时代地进入新阶段
1.1 看待大数据要有历史性的眼光
信息时代是相对于农业和工业时代而言的一段相当长的时间。不同时代的生产要素和社会发展驱动力有明显差别。信息时代的标志性技术发明是数字计算机、集成电路、光纤通信和互联网(万维网)。尽管媒体上大量出现逗大数据时代地的说法,但大数据、云计算等新技术目前还没有出现与上述划时代的技术发明可媲美的技术突破,难以构成一个超越信息时代的新时代。信息时代可以分成若干阶段,大数据等新技术的应用标志着信息社会将进入一个新阶段。
考察分析100年以上的历史长河可以发现,信息时代与工业时代的发展规律有许多相似之处。电气化时代与信息时代生产率的提高过程惊人地相似。都是经过20~30年扩散储备之后才有明显提高,分界线分别是1915年和1995年。笔者猜想,信息技术经过几十年的扩散储备后,21世纪的前30年可能是信息技术提高生产率的黄金时期。
1.2 从逗信息时代新阶段地的高度认识逗大数据地
中国已开始进入信息时代,但许多人的思想还停留在工业时代。经济和科技工作中出现的许多问题,其根源是对时代的认识不到位。18-19世纪中国落后挨打,根源是满清政府没有认识到时代变了,我们不能重犯历史性的错误。
中央提出中国进入经济逗新常态地以后,媒体上有很多讨论,但多数是为经济增速降低做解释,很少有从时代改变的角度论述逗新常态地的文章。笔者认为,经济新常态意味着中国进入了以信息化带动新型工业化、城镇化和农业现代化的新阶段,是经济和社会管理的跃迁,不是权宜之计,更不是倒退。
大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构逗第三平台地是信息社会进入新阶段的标志,对整个经济的转型有引领和带动作用。媒体上经常出现的互联网、创客、逗第二次机器革命地、逗工业4.0地等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆,所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。
1.3 大数据可能是中国信息产业从跟踪走向引领的突破口
中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、网络和京东),其他6个Top10 互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入Top10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。
但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。
2 理解大数据需要上升到文化和认识论的高度
2.1 数据文化是一种先进文化
数据文化的本质是尊重客观世界的实事求是精神,数据就是事实。重视数据就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。目前许多城市在开展政府数据开放共享工作,但是发现多数老百姓对政府要开放的数据并不感兴趣。要让大数据走上健康的发展轨道,首先要大力弘扬数据文化。本文讲的数据文化不只是大数据用于文艺、出版等文化产业,而是指全民的数据意识。全社会应认识到:信息化的核心是数据,只有政府和大众都关注数据时,才能真正理解信息化的实质;数据是一种新的生产要素,大数据的利用可以改变资本和土地等传统要素在经济中的权重。
有人将逗上帝与数据共舞地归纳为美国文化的特点之一,说的是美国人既有对神的诚意,又有通过数据求真的理性。美国从镀金时代到进步主义时期完成了数据文化的思维转变,南北战争之后人口普查的方法被应用到很多领域,形成了数据预测分析的思维方式。近百年来美国和西方各国的现代化与数据文化的传播渗透有密切关系,我国要实现现代化也必须强调数据文化。
提高数据意识的关键是要理解大数据的战略意义。数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,数据技术与数据产业的落后将使我们像错过工业革命机会一样延误一个时代。
2.2 理解大数据需要有正确的认识论
历史上科学研究是从逻辑演绎开始的,欧几里得几何的所有定理可从几条公理推导出来。从伽利略和牛顿开始,科学研究更加重视自然观察和实验观察,在观察基础上通过归纳方法提炼出科学理论,逗科学始于观察地成为科学研究和认识论的主流。经验论和唯理论这两大流派都对科学的发展做出过重大贡献,但也暴露出明显的问题,甚至走入极端。理性主义走向极端就成为康德所批判的独断主义,经验主义走入极端就变成怀疑论和不可知论。
20世纪30年代,德国哲学家波普尔提出了被后人称为逗证伪主义地的认识论观点,他认为科学理论不能用归纳法证实,只能被试验发现的反例逗证伪地,因而他否定科学始于观察,提出逗科学始于问题地的着名观点[3]。证伪主义有其局限性,如果严格遵守证伪法则,万有引力定律、原子论等重要理论都可能被早期的所谓反例扼杀。但逗科学始于问题地的观点对当前大数据技术的发展有指导意义。
大数据的兴起引发了新的科学研究模式:逗科学始于数据地。从认识论的角度看,大数据分析方法与逗科学始于观察地的经验论较为接近,但我们要牢记历史的教训,避免滑入否定理论作用的经验主义泥坑。在强调逗相关性地的时候不要怀疑逗因果性地的存在;在宣称大数据的客观性、中立性的时候,不要忘了不管数据的规模如何,大数据总会受制于自身的局限性和人的偏见。不要相信这样的预言:逗采用大数据挖掘,你不需要对数据提出任何问题,数据就会自动产生知识地。面对像大海一样的巨量数据,从事数据挖掘的科技人员最大的困惑是,我们想捞的逗针地是什么看这海里究竟有没有逗针地看也就是说,我们需要知道要解决的问题是什么。从这个意义上讲,逗科学始于数据地与逗科学始于问题地应有机地结合起来。
对逗原因地的追求是科学发展的永恒动力。但是,原因是追求不完的,人类在有限的时间内不可能找到逗终极真理地。在科学的探索途中,人们往往用逗这是客观规律地解释世界,并不立即追问为什么有这样的客观规律。也就是说,传统科学并非只追寻因果性,也可以用客观规律作为结论。大数据研究的结果多半是一些新的知识或新的模型,这些知识和模型也可以用来预测未来,可以认为是一类局部性的客观规律。科学史上通过小数据模型发现一般性规律的例子不少,比如开普勒归纳的天体运动规律等;而大数据模型多半是发现一些特殊性的规律。物理学中的定律一般具有必然性,但大数据模型不一定具有必然性,也不一定具有可演绎性。大数据研究的对象往往是人的心理和社会,在知识阶梯上位于较高层,其自然边界是模糊的,但有更多的实践特征。大数据研究者更重视知行合一,相信实践论。大数据认识论有许多与传统认识论不同的特点,我们不能因其特点不同就否定大数据方法的科学性。大数据研究挑战了传统认识论对因果性的偏爱,用数据规律补充了单一的因果规律,实现了唯理论和经验论的数据化统一,一种全新的大数据认识论正在形成。
3 正确认识大数据的价值和效益
3.1 大数据的价值主要体现为它的驱动效应
人们总是期望从大数据中挖掘出意想不到的逗大价值地。实际上大数据的价值主要体现在它的驱动效应,即带动有关的科研和产业发展,提高各行各业通过数据分析解决困难问题和增值的能力。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用逗蜜蜂模型地:蜜蜂的效益主要不是自己酿的蜂蜜,而是蜜蜂传粉对农业的贡献。
电子计算机的创始人之一冯·诺依曼曾指出:逗在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。地我们不必天天期盼奇迹出现,多做一些逗颇为朴实地的事情,实际的进步就在扎扎实实的努力之中。媒体喜欢宣传一些令人惊奇的大数据成功案例,对这些案例我们应保持清醒的头脑。据Intel中国研究院首席工程师吴甘沙在一次报告中透露,所谓逗啤酒加尿布地的数据挖掘经典案例,其实是Teradata公司一位经理编出来的逗故事地,历史上并没有发生过[4]。即使有这个案例,也不说明大数据分析本身有什么神奇,大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是,关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值。
有一个家喻户晓的寓言可以从一个角度说明大数据的价值:一位老农民临终前告诉他的3个儿子,他在他家的地中埋藏了一罐金子,但没有讲埋在哪里。
他的儿子们把他家所有的地都深挖了一遍,没有挖到金子,但由于深挖了土地,从此庄稼收成特别好。数据收集、分析的能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,大数据的价值也已逐步体现。
3.2 大数据的力量来自逗大成智慧地
每一种数据来源都有一定的局限性和片面性,只有融合、集成各方面的原始数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。不同的数据可能描述同一实体,但角度不同。对同一个问题,不同的数据能提供互补信息,可对问题有更深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。
数据科学是数学(统计、代数、拓扑等)、计算机科学、基础科学和各种应用科学融合的科学,类似钱学森先生提出的逗大成智慧学地[5]。钱老指出:逗必集大成,才能得智慧地。大数据能不能出智慧,关键在于对多种数据源的集成和融合。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调逗无缝智慧(seamless intelligence)地。发展大数据的目标就是要获得协同融合的逗无缝智慧地。单靠一种数据源,即使数据规模很大,也可能出现逗瞎子摸象地一样的片面性。数据的开放共享不是锦上添花的工作,而是决定大数据成败的必要前提。
大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路,重点不是支持单项技术和单个方法的发展,而是强调不同部门、不同学科的协作。数据科学不是垂直的逗烟囱地,而是像环境、能源科学一样的横向集成科学。
3.3 大数据远景灿烂,但近期不能期望太高
交流电问世时主要用作照明,根本想象不到今天无处不在的应用。大数据技术也一样,将来一定会产生许多现在想不到的应用。我们不必担心大数据的未来,但近期要非常务实地工作。人们往往对近期的发展估计过高,而对长期的发展估计不足。Gartner公司预测,大数据技术要在5~10年后才会成为较普遍采用的主流技术,对发展大数据技术要有足够的耐心。
大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数发展的特点是,从一段历史时期衡量(至少30年),前期发展比较慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持逗指数性地增长,一般而言,高技术发展遵循Gartner公司描述的技术成熟度曲线(hype cycle),最后可能进入良性发展的稳定状态或者走向消亡。
需要采用大数据技术来解决的问题往往都是十分复杂的问题,比如社会计算、生命科学、脑科学等,这些问题绝不是几代人的努力就可以解决的。宇宙经过百亿年的演化,才出现生物和人类,其复杂和巧妙堪称绝伦,不要指望在我们这一代人手中就能彻底揭开其奥妙。展望数百万年甚至更长远的未来,大数据技术只是科学技术发展长河中的一朵浪花,对10~20年大数据研究可能取得的科学成就不能抱有不切实际的幻想。
4 从复杂性的角度看大数据研究和应用面临的挑战
大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代,新三论(耗散结构论、协同论、突变论)的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所,提出超越还原论的口号,在科技界掀起了一场复杂性科学运动。虽然雷声很大,但30年来并未取得预期的效果,其原因之一可能是当时还没有出现解决复杂性的技术。
集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养,从事数据科学研究的学者不但要了解20世纪的逗新三论地,可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识,扩大自己的视野,加深对大数据机理的理解。
大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。
4.1 数据复杂性引起的挑战
图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难,其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式,数据本身具有很高的复杂性。目前,人们对大数据背后的物理意义缺乏理解,对数据之间的关联规律认识不足,对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解,领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标,需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接,大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观逗涌现地规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,从而简化大数据的表征,获取更好的知识抽象。为此,需要建立多模态关联关系下的数据分布理论和模型,理清数据复杂度和计算复杂度之间的内在联系,奠定大数据计算的理论基础。
4.2 计算复杂性引起的挑战
大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大,内在关联密切而复杂,价值密度分布极不均衡,这些特征对建立大数据计算范式提出了挑战。对于PB级的数据,即使只有线性复杂性的计算也难以实现,而且,由于数据分布的稀疏性,可能做了许多无效计算。
传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系,所谓具有多项式复杂性的算法是指当问题的规模增大时,计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是,针对给定规模的问题,如何逗算得快地。而在大数据应用中,尤其是流式计算中,往往对数据处理和分析的时间、空间有明确限制,比如网络服务如果回应时间超过几秒甚至几毫秒,就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下,如何逗算得多地。从逗算得快地到逗算得多地,考虑计算复杂性的思维逻辑有很大的转变。所谓逗算得多地并不是计算的数据量越大越好,需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法。
基于大数据求解困难问题的一条思路是放弃通用解,针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题,但只要数据充分多,在限制条件下可以找到十分满意的解,近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量,需要研究基于自举和采样的局部计算和近似方法,提出不依赖于全量数据的新型算法理论,研究适应大数据的非确定性算法等理论。
4.3 系统复杂性引起的挑战
大数据对计算机系统的运行效率和能耗提出了苛刻要求,大数据处理系统的效能评价与优化问题具有挑战性,不但要求理清大数据的计算复杂性与系统效率、能耗间的关系,还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点,需要研究大数据的分布式存储和处理架构。
大数据应用涉及几乎所有的领域,大数据的优势是能在长尾应用中发现稀疏而珍贵的价值,但一种优化的计算机系统结构很难适应各种不同的需求,碎片化的应用大大增加了信息系统的复杂性,像昆虫种类一样多(500多万种)的大数据和物联网应用如何形成手机一样的巨大市场,这就是所谓逗昆虫纲悖论地[6]。为了化解计算机系统的复杂性,需要研究异构计算系统和可塑计算技术。
大数据应用中,计算机系统的负载发生了本质性变化,计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转,关注的重点不是数据加工,而是数据的搬运;系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力,并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动,必要的数据搬运也应由逗大象搬木头地转变为逗蚂蚁搬大米地。
5 发展大数据应避免的误区
5.1 不要一味追求逗数据规模大地
大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据,要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。
一味追求数据规模大不仅会造成浪费,而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫,重视数据的开放与共享。所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。
发展大数据不能无止境地追求逗更大、更多、更快地,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的逗污染地和侵犯隐私等各种弊端。
5.2 不要逗技术驱动地,要逗应用为先地
新的信息技术层出不穷,信息领域不断冒出新概念、新名词,估计继逗大数据地以后,逗认知计算地、逗可穿戴设备地、逗机器人地等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上逗技术驱动地的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持逗应用为先地的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。
5.3 不能抛弃逗小数据地方法
流行的逗大数据地定义是:无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题,可能导致认识的误区。按照这种定义,人们可能只会重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是逗小数据地问题。我们应重视实际碰到的问题,不管是大数据还是小数据。
统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。
大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。
5.4 要高度关注构建大数据平台的成本
目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2 PB以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要保存多少时间,应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低1 000倍,计划到2024年才能研制出来,用现在的技术构建的巨型系统能耗极高。
我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。