① 大数据时代,谁来保护我们的隐私
“小鸟云”是深圳前海小鸟云计算有限公司旗下云计算品牌,国内领先的企业级云计算服务商。团队拥有多年行业经验,专注云计算技术研发,面向广大开发者、政企用户、金融机构等,提供基于智能云服务器的全方位云计算解决方案,为用户提供可信赖的企业级公有云服务。
每年频发的数据泄露事件总会带来一些教训,其中一条就是,无论何时开始采取数据保护措施永远不会太晚。幸运的是,企业表现出更加关注数据隐私方面的工作,而大数据是他们最关心的领域之一。
就在昨日,五名微软公司的前任员工在接受路透社的采访时表示,微软的漏洞报告数据在2013年时曾遭到过一次非法入侵,但这一事件在当时并没有被曝光出来。
微软的前雇员表示,微软公司用了一个多月的时间修复了被入侵数据库中罗列的所有安全漏洞,因此泄露出去的漏洞信息并不会对Windows产品的用户造成多大的影响。微软公司当时还曾聘请过第三方公司来对此次事件进行调查,以了解网络上是否有攻击者利用泄露的漏洞信息来发动攻击,但该公司并没有发现任何与相关漏洞有联系的攻击事件。
Mary Shacklett是Transworld Data公司的总裁,该公司是一家技术研究和市场开发公司。作为业内人士,她给企业管理层提出一些建议,来确保他们的大数据采用可靠的数据隐私实践。
实现匿名化的一种方法是对个人识别的数据元素进行加密。另一种方法是通过识别具有类似价值的个人的数据,然后将其平均化为一个综合收益值,融入更大的数据分析中。其他方法还包括数据修订或屏蔽。
收集由政府、企业和个人产生的数字化信息,为以知识和信息为基础的决策创造了巨大的机会。在互惠互利的带动下,有需求的各方之间可进行数据交流和发布。然而,在其原来形式的数据中通常包含敏感的个人信息,公布这些数据会侵犯个人隐私。集合型数据发布下的隐私保护是一个重要并富有挑战的难题。大多数现有的技术使用泛化和整体性删除方法,而我们提出了一种部分(局部)删除方法对集合型数据进行匿名化。该方法保证无论攻击者拥有多少数目的先验知识,匿名化后数据中不再出现关于敏感信息的强关联规则。该方法不仅大幅降低了信息损失,同时可根据下游使用场景要求,提供倾向保持原始数据分布或保护可挖掘的有用的关联规则的选择。初步评估显示,我们的方法相比于经典的方法:在保持原始数据分布上优于其它方法100倍以上,保留了更多数目的可挖掘有用的关联规则并只引入了少数虚假的规则,同时信息的损失平均减少了30%左右。
以上只是数据隐私方面工作的一部分,关于数据隐私保护还有更多的方式可循,例如确定公司内部大数据所涉及到的部门,并定期审查这些部门的数据隐私。最后,在制定和实施数据隐私保护措施时,需要以企业的业务需求和发展为基础。
② 大数据挖掘中的三种角色
大数据挖掘中的三种角色_数据分析师考试
我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。不管怎么样,欢迎指教和讨论。
另外,注明一下,这篇文章的标题模仿了一个美剧《权力的游戏:冰与火之歌》。在数据的世界里,我们看到了很多很牛,很强大也很有趣的案例。但是,数据就像一个王座一样,像征着一种权力和征服,但登上去的路途一样令人胆颤。
数据挖掘中的三种角色
在Amazon里从事机器学习的工作时,我注意到了Amazon玩数据的三种角色。
Data Analyzer:数据分析员。这类人的人主要是分析数据的,从数据中找到一些规则,并且为了数据模型的找不同场景的Training Data。另外,这些人也是把一些脏数据洗干净的的人。
Research Scientist:研究科学家。这种角色主要是根据不同的需求来建立数据模型的。他们把自己戏称为不近人间烟火的奇异性物种,就像《生活大爆炸》里的那个Sheldon一样。这些人基本上玩的是数据上的科学
Software Developer:软件开发工程师。主要是把Scientist建立的数据模型给实现出来,交给Data Analyzer去玩。这些人通常更懂的各种机器学习的算法。
我相信其它公司的做数据挖掘或是机器学习的也就这三种工作,或者说这三种人,对于我来说,
最有技术含量的是Scientist,因为数据建模和抽取最有意义的向量,以及选取不同的方法都是这类人来决定的。这类人,我觉得在国内是找不到的。
最苦逼,也最累,但也最重要的是Data Analyzer,他们的活也是这三个角色中最最最重要的(注意:我用了三个最)。因为,无论你的模型你的算法再怎么牛,在一堆烂数据上也只能干出一堆垃圾的活来。正所谓:Garbage In, Garbage Out!但是这个活是最脏最累的活,也是让人最容易退缩的活。
最没技术含量的是Software Developer。现在国内很多玩数据的都以为算法最重要,并且,很多技术人员都在研究机器学习的算法。错了,最重要的是上面两个人,一个是苦逼地洗数据的Data Analyzer,另一个是真正懂得数据建模的Scientist!而像什么K-Means,K Nearest Neighbor,或是别的什么贝叶斯、回归、决策树、随机森林等这些玩法,都很成熟了,而且又不是人工智能,说白了,这些算法在机器学习和数据挖掘中,似乎就像Quick Sort之类的算法在软件设计中基本没什么技术含量。当然,我不是说算法不重要,我只想说这些算法在整个数据处理中是最不重要的。
数据的质量
目前所流行的Buzz Word——大数据是相当误导人的。在我眼中,数据不分大小,只分好坏。
在处理数据的过程中,我第一个感受最大的就是数据质量。下面我分几个案例来说明:
案例一:数据的标准
在Amazon里,所有的商品都有一个唯一的ID,叫ASIN——Amazon Single Identify Number,这个ID是用来标识商品的唯一性的(来自于条形码)。也就是说,无论是你把商品描述成什么样,只要ASIN一样,这就是完完全全一模一样的商品。
这样,就不像淘宝一样,当你搜索一个iPhone,你会出现一堆各种各样的iPhone,有的叫“超值iPhone”,有的叫“苹果iPhone”,有的叫“智能手机iPhone”,有的叫“iPhone白色/黑色”……,这些同一个商品不同的描述是商家为了吸引用户。但是带来的问题有两点:
1)用户体验不好。以商品为中心的业务模型,对于消费者来说,体验明显好于以商家为中心的业务模型。
2)只要你不能正确读懂(识别)数据,你后面的什么算法,什么模型统统没用。
所以,只要你玩数据,你就会发现,如果数据的标准没有建立起来,干什么都没用。数据标准是数据质量的第一道关卡,没这个玩意,你就什么也别玩了。所谓数据的标准,为数据做唯一标识只是其中最最基础的一步,数据的标准还单单只是这个,更重要的是把数据的标准抽象成数学向量,没有数学向量,后面也无法挖掘。
所以,你会看到,洗数据的大量的工作就是在把杂乱无章的数据归并聚合,这就是在建立数据标准。这里面绝对少不了人肉的工作。无非就是:
聪明的人在数据产生之前就定义好标准,并在数据产生之时就在干数据清洗的工作。
一般的人是在数据产生并大量堆积之后,才来干这个事。
另外,说一下Amazon的ASIN,这个事从十多年前就开始了,我在Amazon的内网里看到的资料并没有说为什么搞了个这样一个ID,我倒觉得这并不是因为Amazon因为玩数据发现必需建议个商品ID,也许因为Amazon的业务模型就是设计成以“商品为中心”的。今天,这个ASIN依然有很多很多的问题,ASIN一样不能完全保证商品就是一样的,ASIN不一样也不代表商品不一样,不过90%以上的商品是保证的。Amazon有专门的团队Category Team,里面有很多业务人员天天都在拼命地在对ASIN的数据进行更正。
案例二:数据的准确
用户地址是我从事过数据分析的另一个事情。我还记得当时看到那数以亿计的用户地址的数据的那种兴奋。但是随后我就兴奋不起来了。因为地址是用户自己填写的,这里面有很多的坑,都不是很容易做的。
第一个是假/错地址,因为有的商家作弊或是用户做测试。所以地址是错的,
比如,直接就输入“该地址不存在”,“13243234asdfasdi”之类的。这类的地址是可以被我的程序识别出来的。
还有很难被我的程序所识别出来的。比如:“宇宙路地球小区”之类的。但这类地址可以被人识别出来。
还有连人都识别不出来的,比如:“北京市东四环中路23号南航大厦5楼540室”,这个地址根本不存在。
第二个是真地址,但是因为用户写的不标准,所以很难处理,比如:
缩写:“建国门外大街”和“建外大街”,“中国工商银行”和“工行”……
错别字:“潮阳门”,“通慧河”……
颠倒:“东四环中路朝阳公园”和“朝阳公园(靠东四环)”……
别名:有的人写的是开发商的小区名“东恒国际”,有的则是写行政的地名“八里庄东里”……
这样的例子多得不能再多了。可见数据如果不准确,会增加你处理的难度。有个比喻非常好,玩数据的就像是在挖金矿一样,如果含金量高,那么,挖掘的难度就小,也就容易出效果,如果含金量低,那么挖掘的难度就大,效果就差。
上面,我给了两个案例,旨在说明——
1)数据没有大小之分,只有含金量大的数据和垃圾量大的数据之分。
2)数据清洗是一件多么重要的工作,这也是一件人肉工作量很大的工作。
所以,这个工作最好是在数据产生的时候就一点一滴的完成。
有一个观点:如果数据准确度在60%的时候,你干出来的事,一定会被用户骂!如果数据准确度在80%左右,那么用户会说,还不错!只有数据准确度到了90%的时候,用户才会觉得真牛B。但是从数据准确度从80%到90%要付出的成本要比60%到80%的付出大得多得多。大多数据的数据挖掘团队都会止步于70%这个地方。因为,再往后,这就是一件相当累的活。
数据的业务场景
我不知道有多少数据挖掘团队真正意识到了业务场景和数据挖掘的重要关系?我们需要知道,根本不可能做出能够满足所有业务的数据挖掘和分析模型。
推荐音乐视频,和电子商务中的推荐商品的场景完全不一样。电商中,只要你买了一个东西没有退货,那么,有很大的概率我可以相信你是喜欢这个东西的,然后,对于音乐和视频,你完全不能通过用户听了这首歌或是看了这个视频就武断地觉得用户是喜欢这首歌和这个视频的,所以,我们可以看到,推荐算法在不同的业务场景下的实现难度也完全不一样。
说到推荐算法,你是不是和我一样,有时候会对推荐有一种感觉——推荐就是一种按不同维度的排序的算法。我个人以为,就提一下推荐这个东西在某些业务场景下是比较Tricky的,比如,推荐有两种(不是按用户关系和按物品关系这两种),
一种是共性化推荐,结果就是推荐了流行的东西,这也许是好的,但这也许会是用户已知的东西,比如,到了北京,我想找个饭馆,你总是给我推荐烤鸭,我想去个地方,你总是给我推荐天安门故宫天坛(因为大多数人来北京就是吃烤鸭,就是去天安门的),这些我不都知道了嘛,还要你来推荐?另外,共性化的东西通常是可以被水军刷的。
另一种是一种是个性化推荐,这个需要分析用户的个体喜好,好的就是总是给我我喜欢的,不好的就是也许我的口味会随我的年龄和环境所改变,而且,总是推荐符合用户口味的,不能帮用户发掘新鲜点。比如,我喜欢吃辣的,你总是给我推荐川菜和湘菜,时间长了我也会觉得烦的。
推荐有时并不是民主投票,而是专业用户或资深玩家的建议;推荐有时并不是推荐流行的,而是推荐新鲜而我不知道的。你可以看到,不同的业务场景,不同的产品形态下的玩法可能完全不一样,
另外,就算是对于同一个电子商务来说,书、手机和服装的业务形态完全不一样。我之前在Amazon做Demand Forecasting(用户需求预测)——通过历史数据来预测用户未来的需求。
对于书、手机、家电这些东西,在Amazon里叫Hard Line的产品,你可以认为是“标品”(但也不一定),预测是比较准的,甚至可以预测到相关的产品属性的需求。
但是地于服装这样的叫Soft Line的产品,Amazon干了十多年都没有办法预测得很好,因为这类东西受到的干扰因素太多了,比如:用户的对颜色款式的喜好,穿上去合不合身,爱人朋友喜不喜欢……这类的东西太容易变了,买得人多了反而会卖不好,所以根本没法预测好,更别Stock/Vender Manager提出来的“预测某品牌的某种颜色的衣服或鞋子”。
对于需求的预测,我发现,长期在这个行业中打拼的人的预测是最准的,什么机器学习都是浮云。机器学习只有在你要面对的是成千上万种不同商品和品类的时候才会有意义。
数据挖掘不是人工智能,而且差得还太远。不要觉得数据挖掘什么事都能干,找到一个合适的业务场景和产品形态,比什么都重要。
数据的分析结果
我看到很多的玩大数据的,基本上干的是数据统计的事,从多个不同的维度来统计数据的表现。最简单最常见的统计就是像网站统计这样的事。比如:PV是多少,UV是多少,来路是哪里,浏览器、操作系统、地理、搜索引擎的分布,等等,等等。
唠叨一句,千万不要以为,你一天有十几个T的日志就是数据了,也不要以为你会用Hadoop/MapRece分析一下日志,这就是数据挖掘了,说得难听一点,你在做的只不过是一个统计的工作。那几个T的Raw Data,基本上来说没什么意义,只能叫日志,连数据都算不上,只有你统计出来的这些数据才是有点意义的,才能叫数据。
当一个用户在面对着自己网店的数据的时候,比如:每千人有5个人下单,有65%的访客是男的,18-24岁的人群有30%,等等。甚至你给出了,你打败了40%同类型商家的这样的数据。作为一个商户,面对这些数据时,大多数人的表现是完全不知道自己能干什么?是把网站改得更男性一点,还是让年轻人更喜欢一点?完全不知道所措。
只要你去看一看,你会发现,好些好些的数据分析出来的结果,看上去似乎不错,但是其实完全不知道下一步该干什么?
所以,我觉得,数据分析的结果并不仅仅只是把数据呈现出来,而更应该关注的是通过这些数据后面可以干什么?如果看了数据分析的结果后并不知道可以干什么,那么这个数据分析是失败的。
总结
综上所述,下面是我觉得数据挖掘或机器学习最重要的东西:
1)数据的质量。分为数据的标准和数据的准确。数据中的杂音要尽量地排除掉。为了数据的质量,大量人肉的工作少不了。
2)数据的业务场景。我们不可能做所有场景下的来,所以,业务场景和产品形态很重要,我个人感觉业务场景越窄越好。
3)数据的分析结果,要让人能看得懂,知道接下来要干什么,而不是为了数据而数据。
搞数据挖掘的人很多,但成功的案例却不多(相比起大量的尝试来说),就目前而言,我似乎觉得目前的数据挖掘的技术是一种过渡技术,还在摸索阶段。另外,好些数据挖掘的团队搞得业务不业务,技术不技术的,为其中的技术人员感到惋惜……
不好意思,我只给出了问题,没有建议,这也说明数据分析中有很多的机会……
最后,还要提的一个是“数据中的个人隐私问题”,这似乎就像那些有悖伦理的黑魔法一样,你要成功就得把自己变得黑暗。是的,数据就像一个王座一样,像征着一种权力和征服,但登上去的路途一样令人胆颤。
以上是小编为大家分享的关于大数据挖掘中的三种角色的相关内容,更多信息可以关注环球青藤分享更多干货
③ 刑事案件中个人隐私包括什么
法律分析:个人隐私是指个人生理、心理以及社会交往过程中的秘密,包括公民的性生活,公民的档案材料,纯属个人的情况等。根据相关法律规定,刑事案件中,涉及国家秘密、商业秘密、个人隐私的案件,开庭审判不予公开。刑事诉讼中适用个人隐私条款进行不公开审判,应以主要犯罪事实中存在合法的个人隐私为前提,主要犯罪事实中涉及的个人信息才可能成为刑法所要保护的个人隐私。
法律依据:《中华人民共和国刑事诉讼法》
第五十四条 人民法院、人民检察院和公安机关有权向有关单位和个人收集、调取证据。有关单位和个人应当如实提供证据。行政机关在行政执法和查办案件过程中收集的物证、书证、视听资料、电子数据等证据材料,在刑事诉讼中可以作为证据使用。对涉及国家秘密、商业秘密、个人隐私的证据,应当保密。凡是伪造证据、隐匿证据或者毁灭证据的,无论属于何方,必须受法律追究。
第一百八十八条 人民法院审判第一审案件应当公开进行。但是有关国家秘密或者个人隐私的案件,不公开审理;涉及商业秘密的案件,当事人申请不公开审理的,可以不公开审理。不公开审理的案件,应当当庭宣布不公开审理的理由。
④ 什么是隐私它具体包括哪些内容
隐私是一种与公共利益、群体利益无关,当事人不愿他人知道或他人不便知道的个人信息,(只能公开于有保密义务的人)当事人不愿他人干涉或他人不便干涉的个人私事,以及当事人不愿他人侵入或他人不便侵入的个人领域。隐私是个人的自然权利。从人类抓起树叶遮羞之时起,隐私就产生了。
隐私包括的内容:
隐私的内容即客观方面是指特定个人对其事务、信息或领域秘而不宣、不愿他人探知或干涉的事实或行为。隐私的内容是隐私主体的主观意志作用于客体及客观世界,即主客观因素相统一的过程和结果,也就是隐私中“隐”的表现。
(4)通过数据分析个人隐私叫什么扩展阅读:
1995年10月美国商务部电讯与信息管理局发布的关于隐私与信息高速公路建设的白皮书中认为隐私权至少包括以下九个方面:
1、关于私有财产的隐私;
2、关于姓名与形象利益的隐私;
3、关于自己之事不为他人干涉之隐私;
4、关于一个组织或事业内部事务的隐私;
5、关于某些场合不便露面的隐私;
6、关于尊重他人不透露其个人信息之隐私;
7、关于性生活及其他私生活之隐私;
8、关于不被他人监之要求的隐私;
9、私人相对于官员的隐私。由此可见,在现行美国法律体系中,隐私已涵盖了个人及个人生活的几乎所有环节,已成为现代社会保护个人利益之最全面、最有力的“借口”和“手段”。
⑤ 大数据时代的用户数据如何区别保护
大数据时代的用户数据如何区别保护
大数据时代,是物联网的时代,随着云存储和云计算的发展,以智能手机、智能家电、可穿戴设备为代表的智能终端的普及,通过各种智能终端上传和收集的用户数据将越来越多,对用户数据的分析和挖掘及利用,将是大数据的商业价值所在,蕴藏和巨大价值的用户数据的性质及使用规则是我们值得思考的问题。
用户数据的“区分所有权”构想
提到用户数据,我们首先想到的是用户的“隐私权”。民法大家王利明教授在其主编的《人格权法新论》一书中提到:隐私权是自然人享有的对其个人的与公共利益无关的个人信息、私人活动和私有领域进行支配的一种人格权。可见隐私权是一项“个体”权益,强调权利的身份和人格的属性。
用户数据的商业价值核心并不是“个人”的人格权益,其必要条件是具备足够多的用户个体样本,其更强调“集合”的权利,单个用户数据的商业价值是有限的。而用户数据的核心价值在于通过对云端存储的海量的用户个人状况、行为、需求的样本分析和挖掘,一方面为上游硬件商提供产品的开发依据,另一方面对用户的消费、生活提供“量身打造”的服务,从而形成物联网的全产业链循环,实现更高效的管理社会资源并创造更多的价值。
可见,虽然用户数据来源于“个体”数据,但最终使社会获益的是用户的“集合”数据。因此,在界定用户数据的性质方面,笔者建议根据单个数据是否具有身份属性,将用户数据分为身份数据和样本数据,并对这两类数据加以区别保护。
用户的身份数据是指可以通过单一的个体数据,即能锁定特定用户的数据。如姓名、身份证号、各种账号信息、联系方式等。比如我们通过一个电话,就能联系到一个特定的用户。因此,此类信息具有较强的身份属性,须定义为“隐私权”的范围,其权利主体应为用户个人所有,其使用和经营,须经过用户的许可,否则将被判定为侵权。现行法律法规如《全国人民代表大会常务委员会关于加强网络信息保护的决定》、工信部出台的《电信和互联网用户个人信息保护规定》以及消费者权益保护法、《网络交易管理办法》中规定的个人信息,当属于用户的身份数据范畴。
样本数据是指通过个体数据汇聚成的用户个人状况、行为、需求的数据库以及通过分析和挖掘以上数据获得的相关数据。此类数据的所有权应为用户和数据收集方共有,但经营使用权建议应掌握在能够发挥其价值的数据收集者手中。将所有权和经营权区分开来,既能从法律上保证用户的个体权益,又符合经济学的原理。
样本数据的经营规则
用户身份数据的使用规则可以依据现有的法律法规执行。我们仅需要通过立法明确以上法律所适用的数据的范围,并在执行层面的政策上制定可操作的保护用户身份数据和隐私权的规章制度。
对于样本数据的使用和经营规则,现有法律并没有明确依据。根据上文的阐述,笔者已将其所有权拟定为用户和数据收集者共有,经营使用权则建议应掌握在能够发挥其价值的数据收集者手中。这样设计的目的在于,一是保留用户的“被遗忘权”;二是发挥物尽其用的作用。
首先,保留用户的“被遗忘权”是用户数据使用的基础。
大数据时代到来,人们最担心的是自己将被暴露得一览无余,没有隐私可言。因此,个体信息是否公开,公开的程度,需要个体能够掌控,即用户自主决定其向外界公开的个人信息的广度和深度,也可随时自行或要求收集数据方,删除其掌握的任何关于用户个体的数据。用户要求收集者删除其样本信息时,须提供可以辨识其个体信息的依据(一般须为身份信息),以证明其要求删除的信息是属于自己的样本信息。
其次,数据收集者在收集样本数据时,须向用户群体公示其收集途径和方式,以及用户删除自己样本信息的途径和方法。只有这样,用户才能知晓其被收集者收集的数据是什么,以及自己的样本信息被经营者使用的状况是否安全,从而判断其是否愿意继续使用数据收集者的产品,并将自己的样本信息交给数据收集者经营。一旦用户选择使用某一数据收集者的产品,数据收集者将与用户共有其收集的用户样本数据。
第三,数据收集者在遵守法律对用户隐私保护前提下,无需用户授权,可自由地使用和经营其收集到的用户的样本数据,直至用户自行或要求其删除样本数据。
当前,各数据收集者之间进行不同程度的共享和授权数据的需求已是大数据的发展趋势。云与云的互联互通才能使数据样本变得足够庞大,使数据分析和挖掘的结果更有价值,使用户不同智能终端之间的连接变得可能,从而真正的实现大数据的物联网。
样本数据的共享和授权中涉及到大量个体信息,如果用户此类活动需要经过个体用户的授权,将会极大地阻碍商业效率,其数据和信息的收集是随时随地的,要求单个用户对单个的样本授权,也会影响用户的体验。因此最现实的方式是数据的收集者在经营和使用其收集的数据时,无需个体用户的单独授权。
最后,数据收集者通过样本数据所获取的收益,个体用户须有分配权。
个体用户对数据经营的收益分配权容易理解。数据的源头是个体,个体是样本数据的所有者,因此其理所应当得到经营数据的利益。分配的方式和数量可由数据收集者确定并公示,一旦用户使用特定数据收集者的产品,即表明其同意以此对价获取收益。当然,用户领取收益的前提是提供可以辨识其个体信息的依据(一般须为身份信息),以证明其是对应个体样本数据的提供者。
⑥ 个人隐私是什么意思什么叫做隐私
法律分析:个人隐私是指公民个人生活中不愿为他人(一定范围以外的人)公开或知悉的秘密。隐私权是自然人享有的对其个人的、与公共利益无关的个人信息、私人活动和私有领域进行支配的一种人格权。不愿让他人知道自己的个人生活的秘密,我国公民依法享有不愿公开或不愿让他人(一定范围之外的人)知悉的不危害社会的个人秘密的权利。
法律依据:《中华人民共和国治安管理处罚法》 第四十二条 有下列行为之一的,处五日以下拘留或者五百元以下罚款;情节较重的,处五日以上十日以下拘留,可以并处五百元以下罚款:(一)写恐吓信或者以其他方法威胁他人人身安全的;(二)公然侮辱他人或者捏造事实诽谤他人的;(三)捏造事实诬告陷害他人,企图使他人受到刑事追究或者受到治安管理处罚的;(四)对证人及其近亲属进行威胁、侮辱、殴打或者打击报复的;(五)多次发送淫秽、侮辱、恐吓或者其他信息,干扰他人正常生活的;(六)偷窥、偷拍、窃听、散布他人隐私的。
⑦ 个人隐私数据包括什么
法律分析:个人隐私包括个人生活安宁权,个人生活情报保密权,个人通讯保密权。未经公民许可,公开其姓名、肖像、住址和电话号码,非法侵入、搜查他人住宅,或以其他方式破坏他人居住安宁,泄露公民的个人材料或公诸于众或扩大公开范围等都属于侵犯隐私权的表现。
法律依据:《中华人民共和国宪法》第三十九条 中华人民共和国公民的住宅不受侵犯。禁止非法搜查或者非法侵入公民的住宅。
《中华人民共和国宪法》第四十条 中华人民共和国公民的通信自由和通信秘密受法律的保护。除因国家安全或者追查刑事犯罪的需要,由公安机关或者检察机关依照法律规定的程序对通信进行检查外,任何组织或者个人不得以任何理由侵犯公民的通信自由和通信秘密。
⑧ 大数据与个人信息保护
大数据与个人信息保护
数据为王的时代,对于用户隐私的保护必然会越来越受到重视。那么,个人隐私保护制度会对互联网的发展带来怎样的影响?如何才能在大数据应用的商业利益与公众的个人信息保护需求之间取得平衡?在互联网无时不在、无时不有的今天,我们的隐私在各种情况下被收集、被利用,甚至被滥用,有关个人信息保护的立法也是国家立法计划中的重要内容,我主要跟大家分享几个方面,首先什么是隐私,如果这一点达不成共识,讨论就没有意义了。第二,我们现在所谓隐私保护面临哪些问题?第三,面对这些问题,未来从法律上怎么解决这些问题?
隐私是一个法律概念
隐私简单地说,是一个人不想让别人知道的东西。但个人的生活、感情因人而异,大家对隐私的看法也不一样。很多朋友都讲,隐私体现的是一种个人的东西,这在我理解的话就是属于个人信息的范畴。很多人对什么是隐私有分歧,就同一个人来说也不确定自己哪些是隐私,或者有些时候是,有些时候不是,完全自己说了算。所以这样的社会里如果较起真来,或者在法律上要维权的话就混乱了。
隐私不是中国本土的概念,隐私是用美国隐私概念的瓶装入了欧洲隐私的酒拿到中国来的。欧美人并没有对隐私从不同的学科、不同的语境、不同的地域文化上做区分,在欧美问什么是隐私,分歧也很大,但可能会比中国好一些,因为这种隐私跟我们的文化水土不服。隐私是一个与地域文化传统关联十分密切的概念。
在欧洲,宗教信仰就是隐私,而在中国,谁会认为这是隐私呢?中国传统上并没有隐私的概念,有一个观念是阴私。但上世纪70年代末80年代初,从欧美翻译过来的隐私的概念传到中国后广泛传播,导致了现在中国的隐私泛滥、泛化,动不动就说侵犯隐私,但你问什么是隐私,他却无法给你准确的答案。
隐私应当做不同学科、不同语境、不同地域文化的理解。女性的三围、身高、体重是心理学或社会学上的隐私,一定不能将这些隐私,包括政治学、经济学意义上的隐私跟法律上的隐私混为一谈。法律上,隐私是通过隐私权来保护的,权利就是行为自由的边界。这个边界很清晰,其他人不能进入,否则就可以起诉他侵权。如果法律上的隐私内涵不确定、外延不明确,因人而异,就会出现混乱。
隐私与公共利益无关
隐私绝对是个人的东西,比如国家机关就没有隐私。法律上的隐私,是个人信息的一部分,但不是所有个人信息都是法律上的隐私,姓名、家庭住址、女性的三围绝对不是法律上所讲的隐私。中国的阴私概念是值得借鉴的,从1956年“民法草案”开始,到1982年的民法通则,这一段时间里中国的法律上就有阴私概念。阴私是指不好的事情,一般正常理性的人,这些事情、信息公布出去会让他名誉扫地,让他的社会尊严受到伤害。传统的阴私仅仅是指与性有关的一些东西,比如裸照、性生活、两性情感。这个价值取向值得我们认可,但缺点是内涵比较窄,仅限于与性有关的方面。
阴私的价值观我们要继承。在上世纪70年代、80年代之前,阴私内涵比较窄没有问题,但是发展到今天,价值取向扩大了。很多人认可隐私这个词,这就是中国传统阴私的概念,但是内容要扩展。所以法律上的隐私,不限于与性有关的,还包括不为人知的重大生理疾病缺陷,这些缺陷公布出去同样会让他受到歧视,或令他的名誉受到影响。
这里下一个定义,法律上的隐私是指与公共利益、社会利益没有直接关系,同时又与人的名誉和尊严有关的极少数个人信息,这是抽象出来的本质;包括但不限于裸照、性相关、情感经历、生理疾病等,这是范围和表象。很多学者批评中国民法通则没有规范隐私,不重视人权,但是最高法院的司法解释是把它作为名誉权来保护的,比如披露与性有关的东西,让人名誉扫地,就认为侵犯了名誉权。其实按我的理解,隐私权不独立,隐私与名誉是相联系的。这方面中国其实比欧美先进,中国有阴私概念,披露阴私即会使人名誉扫地。
与公共利益、社会利益的关系还要看具体情况。一般人的婚外情或者是两性的东西可能被认为是属于隐私,但是作为政治官员、作为公众人物,他们的某些个人信息可能与公共利益、社会利益有关系,所以这部分在一定范围内可以公开。一般人认为属于隐私的,他们要受到限制。但是无论如何,在披露这些政治人物或者公众人物隐私时也要考虑到他们作为一个人最起码的名誉和尊严,披露的方式要注意,比如将裸照放在网上是不可以接受的,不能因为是公众人物就不被保护。再比如犯罪记录,它有不同国家、不同文化的考量。有的以社会利益为本位的国家不把犯罪记录作为隐私,他们认为如果把犯罪记录作为隐私保护起来的话,会对周围人的安全带来隐患,虽然公开犯罪记录也可能会使被公开者的尊严受损。
难以操作的个人信息保护指令
我们现在说的个人信息、敏感信息的概念来自欧盟。欧盟与中国国情不同,拿过来没有可操作性。今天在讨论隐私遇到互联网时,一定要知道这个隐私是什么样的隐私,否则讨论就没有任何意义。欧美的隐私观,表面上看好像尊重了个人权利,好像很现代化,实际上不仅没有任何积极意义,还会带来很多消极的作用。现在所说的“隐私遇上互联网”的这个隐私,不是我讲的法律上的隐私,而是受到欧美隐私观影响的一种东西。
在个人信息中,姓名、家庭地址、电话号码都是在社会交往中正常产生的,我们反对的是骚扰电话、垃圾短信这样的滥用行为。现在买卖个人信息很常见,发送垃圾短信、骚扰电话,有人认为是侵犯隐私,这看起来非常诱人的想法实际上正是导致问题泛滥的根源。按照刑法修正案,情节严重的买卖个人信息是一种犯罪行为,但是起诉维权的成本特别高,侵权和犯罪的成本却特别低。现在的隐私观念听起来讲人权,但客观上不利于受害人维权。
我们现在的立法是学习欧盟的,全国人大常委会2012年通过一个规定,互联网公司在收集个人信息的时候应当征得当事人的同意,当事人有决定权是否让你收集;有知情权,你基于什么样的目的收集个人信息,收集以后存在什么地方;当事人也有查看的权利、删除的权利、修改的权利,比如信息记录不完整、有出入时可以进行修改;甚至还有被遗忘的权利———以前互联网上的信息,时过境迁不希望放在网上的时候有权请求删除,删除之后在互联网上就被遗忘了,所以是被遗忘的权利。
收集信息所涉及的同意、知情、查询、修改、删除权是欧盟1995年的个人信息保护指令中所规定的内容,去年修改时增加了被遗忘的权利,但是这个权利的落实需要技术上的一个先决条件,就是当事人必须知道自己的信息何时何地被何人收集在了什么地方,这样才能行使相关权利。欧盟的个人信息保护指令源于上世纪60年代末70年代初,那时只有银行、保险、电信公司和政府机构才有大型计算机,但现在,移动互联网的出现让信息的收集无时无处不在,每个人的工作单位、电话号码、家庭地址能说清楚何时何地被何人收集了吗?所以现在的立法和认识都远远过时了,没有办法操作。
去年欧洲讨论很激烈的是被遗忘的权利,最后勉强通过,我们马上将欧洲的东西引进过来。欧洲有没有大的互联网公司?一个都没有。欧盟像垂暮的老年,特别保守,极端推崇个人的权利、个人的自由,欧盟的隐私观就是极端个人主义自由观的体现。
互联网收集的信息多数不是隐私
当隐私遇到互联网,很多时候我们说的那个隐私其实并不是隐私。互联网收集信息无处不在无时不有,但收集的这些信息多数不属于隐私范畴:比如说在当当购书了,就会发现上网时会提示你买什么书;或者使用了搜索引擎,下次再使用时就会自动弹出相关的东西,很多人都错误地认为这是侵犯了隐私。排除政府的行为,对互联网企业来说,你要是认为它收集的信息侵犯了你的隐私,这十有八九是自作多情。互联网企业无需知道你是张三还是李四,它只需要有针对性地推广商品和服务。
在互联网背景下,要区分什么是我的个人信息,什么是可以找到我的信息。个人信息是由若干片断组合而成的,N个片断的组合才是我的个人信息。如果N -1个片断的话,不是完整的我,就不是个人信息了。所以行为偏好不是个人信息,个人信息是能够直接或间接识别出一个人的信息总和,单单行为偏好的数据不足以识别出一个完整的我。但是行为偏好数据可以让商家很快找到这个人所需要的服务,对双方都有好处。所以隐私遇到互联网,有一个观念要转变,很多人认为商家收集信息就是侵犯个人隐私,这是错误的,是对互联网的误解。一般来说互联网公司无需知道一个人的个人信息,也没有动机知道,知道对它没有任何好处,只有坏处。只有一种情况例外,就是比如公安机关依法定程序找互联网企业要信息。
现在的大数据时代还意味着,原来散落在互联网各个角落的信息,通过数据信息的收集、加工技术,海量数据将连在一起。这样,原来不能识别出一个人的N -1、N - 2、N -3个信息就可以还原为N个信息,就可以找到这个人,实行实名化。所以这里有一个原则,在大数据的背景下对数据的加工分析匹配过程一定要匿名化。匿名化对商家来说,就是处理的这些数据不会知道具体是谁的信息,只是数据而已。收集加工处理越精准,才越有利于用户和企业之间减少交易成本。当然还有一个原则,阴私是禁止收集、禁止加工的,但遵循匿名原则的话,这个问题就不存在了。
只要我们遵循以上的这些原则,隐私遇到互联网其实没有什么大问题,不像传说中那么恐怖。最重要的,一是要规范政府的行为,二是要规范企业的信息加工,使最后的匹配行为一定匿名化。如果这两点做到了,在互联网环境下,我们就不要老强调信息安全,害怕泄露隐私。现在我们在观念上本末倒置,强调信息的安全,事实上无法安全。