导航:首页 > 数据处理 > 哪些动画片运用到了大数据

哪些动画片运用到了大数据

发布时间:2024-09-19 03:33:37

① 怎样预测票房


票房预测:需求与现实



从1896年西洋影戏传入上海徐园,到1905年中国拍摄首部国产电影《定军山》,再到2013年全国电影票房突破200亿
大关,(4)有着百余年历史的中国电影产业,在近几年呈现出飞跃式发展的态势,无论是影片质量、院线建设还是投资规模都有了长足的发展。与此同时,随着
大数据”时代的到来,电影观影群体、观影偏好与心理、电影信息传播和获取方式也都在发生着深刻的变化。



毋庸置疑,多样化资本的加入是中国电影不可或缺的发展引擎,然而,电影行业以投资回报率难以预测着称,大投入未必有大产出,票房预测工具的缺失使得投资者
无法有效对冲投资风险,华人着名导演吴宇森的《风语者》就拖累了米高梅公司最终走向破产。因此制作与发行公司不得不考虑所有对票房有影响的因素:辣妈李小
璐对《私人订制》票房贡献几何;《风暴》票房为何远低于其金牌制片人江志强预期;被吐槽“烂片”的《富山春居图》和《小时代》缘何票房却一路走红;成龙大
叔的《警察故事2013》有无必要拍成3D;《泰囧》的“报复性”观影效应能否复现……这一切的一切其实都可以从“大数据”中找到答案。因为网络上的每一
次浏览、查询乃至点击所汇聚成的群体智慧都“蝴蝶效应”般地影响着电影的最终票房。



2013年Google在一份名为《Quantifying Movie Magic with Google Search》(5)
的白皮书中公布了其电影票房预测模型,该模型主要利用搜索、广告点击数据以及院线排片来预测票房,Google宣布其模型预测票房与真实票房的吻合程度达
到了94%,但并未见其公开对未上映电影的预测结果。



搜狗公司借助“深思”系统,建立了更为复杂的模型,用于预测国内电影票房,并在新浪微博上提前发布了2013年12月国内上映电影的首周票房预测结果。很高兴到目前为止预测结果与真实数据非常接近,同时,我们的模型还可以用于对影响票房的因素进行定量分析。





搜索查询量的奥秘



搜狗搜索每天都响应上亿次的搜索请求,查询词的分布和变化趋势能够很好的反映出中国网民的兴趣点和关注指向。与Google的研究类似,我们也发现,电影
上映前相关查询词的搜索次数与票房收入有着很强的关联性。这一点很好理解,用户的主动搜索行为体现了用户对这部电影的潜在兴趣。



我们选取了2013年1-11月国内上映的180部电影的票房和上映前的搜索量数据作为训练集,用于训练一个基础的线性回归模型。实验发现,单纯利用搜索
量训练得到的模型,预测得到的首周票房与真实票房的相关度R方值仅为68%,这与Google仅用搜索数据得到的结果70%很接近。(注:R方值取值为0
至1,值越大表示模型预测效果越好),这个结果也说明无论在中国还是美国,用户的搜索行为是很相似的。





用搜索量来进行预测票房是一个好的开始,但是准确度还远远不够。同时很多搜索词还存在歧义的情况,比如《生化危机》,既是电影也是游戏,混在一起会造成票
房预测值偏高。进一步研究发现,游戏意图的查询请求量较为平稳,但电影意图的查询请求在上映前则有一个高峰,也可以通过用户点击的URL来进一步确认用户
的搜索意图。因此模型需要再引入查询量的变化趋势和用户点击的分布情况。修正后的模型可以达到74%的准确度,这时模型已经可以对电影票房进行一个粗略的
估计。







社交媒体:用户的情感分析



社交媒体数据对票房预测也会有一定帮助。假设你是某个明星的粉丝,打算去看他主演的电影,那么你很可能会提前转发该电影的相关微博给你的朋友。国外已经有
很多预测项目都是在针对Twitter数据做研究,这里我们主要采用国内部分微博网站的数据来进行预测。通过自然语言理解技术,分析出用户对未上映影片的
情感倾向,从而转换为用户的观影需求。进一步可以考虑的因素包括微博转发深度、评论活跃程度,以及相关微博数量随电影上映日期临近的变化趋势,这些数据都
可以被有效的提炼为特征并加入到模型中。



微博数据的加入使得准确率超过了80%。





结语



预测专家纳特·西尔弗在《信号与噪声:大数据时代预测的科学与艺术》一书中提到,大数据时代的预测更容易失败,大部分失败的预测都源于一种盲目的自信,用精确的预测来冒充准确的预测。



对此我们有着清醒的认识,目前的票房预测模型还有若干需要改进的方向。首先,目前模型的主要思想是通过电影上映前的用户关注度来推算首周票房,这实际上没
有考虑电影上映后的口碑对票房的影响;其次,模型较为依赖历史数据,可能难以识别一些上映后脱颖而出的小成本“黑马”电影;再次,目前的技术只能提前10
天预报出首周票房,还可以更加超前。



总体而言,“深思”系统代表了搜狗公司在社会化预测方面一些新的尝试。我们试着从繁杂的海量数据中筛选出真正的信号,努力穿越不确定性的迷雾,区分出未来
图景的哪些部分可以预测,哪些不可预测。通向这个未来的道路还在探索之中,但目前工作已经取得了一些不错的进展,并给予了我们更大的信心。

② 全网络、全样本、大数据、云计算收视综合评价系统的数据来源和技术依托是如何实现的呢

以往监测用户收视信息通过电子节目指南(英语:Electronic program guide,缩写:EPG)提供当前及未来电视节目的播出时间及节目介绍信息,广泛应用于智能电视以及互联网机顶盒,电视用户根据个人兴趣搜索频道或节目名,栏目名称等,快速切换到用户喜欢的频道,观看直播或者回放。但这种传统EPG面临频道局限、数据识别精准性差等问题。

天脉聚源在电视大数据方面有多年积累,收录了全国500家以上频道,对央视频道、卫视频道及部分城市频道等共120多个频道的EPG和广告进行24小时自动化监测和人工检验,达到99%以上的准确度,可在30分钟内提供可靠的播后信息,节目内容包括电视剧、电影、动画片、综艺、歌曲、体育赛事、生活信息等,电视节目的播出数据,比如哪个频道,什么时间播出了哪些节目,有哪些广告投放,都可以通过天脉聚源电子EPG获得精准信息。 天脉聚源大数据提供的电子EPG是广电总局收视综合评价大数据系统的基础数据来源,从以下五点优势中也不难看出其重要影响:

★样本多、覆盖广,超规模海量信息源。系统初期汇集4000万有线电视和IPTV样本用户的收视数据。

★大数据、云计算,实时处理精准到户。大数据、云计算,实时处理精准到户,既可以反映热门节目、黄金时段的收视情况,又可以精准捕捉小众节目、边缘时段的收视特征。

★防操纵、抗污染,解决收视造假。零收视”将不复存在;数据采集、清洗、分析、呈现等各环节无缝衔接,全流程自动化、封闭化处理,有效防范人为操纵。

★多维度、全方位,综合评价引领发展。系统能提供客观真实的收视统计数据,对节目多维度建模分析。

★全媒体、开放性,面向未来全新定位。系统积极适应技术和传播发展趋势,将全面覆盖有线电视、直播卫星、IPTV、互联网电视以及网络视听领域等不同传播渠道。

阅读全文

与哪些动画片运用到了大数据相关的资料

热点内容
亚马逊如何改变产品链接 浏览:108
用什么技术做音乐 浏览:273
普陀代理记账怎么办理 浏览:53
程序员是干什么用的通俗讲 浏览:498
etf二级市场有哪些 浏览:470
周六不交易为什么股票涨停了 浏览:23
换店了怎么给老顾客发信息 浏览:740
施工单位需要哪些技术 浏览:147
在库的产品怎么退给供应商 浏览:370
如何自做免费小程序 浏览:738
快递服务组织信息保管多久 浏览:295
怎么更改上传数据时间 浏览:275
大数据为什么需要Hadoop 浏览:241
为什么迷你世界发送信息会失败 浏览:75
产品网上推广怎么做 浏览:195
选择代理记账业务多少钱 浏览:104
工行白银td开通多久可以交易 浏览:969
自动交易出售成功后怎么收费 浏览:368
程序员太困是什么原因 浏览:311
广电编外技术岗都做什么 浏览:477