导航:首页 > 数据处理 > 小说在线阅读如何实现大数据

小说在线阅读如何实现大数据

发布时间:2023-12-03 17:31:20

‘壹’ 文字大数据是指文学作品

10年前,《纽约时报》刊文描述了大数据技术对社会生活诸多方面的影响,认为“大数据时代”已经来临,但并没有引发大规模讨论和预想的轰动效应,回应者寥寥无几。这种平静表明人们已经适应和融入了大数据生活,不再感觉陌生和惊奇。“大数据”已经从一个全新的学理概念、政策制度和发展战略,转变为确定的生活常识。在全新的时代语境中,大数据技术也改变了文学创作,产生了文学新样态及其相关数据。例如,游戏文学、界面文学和赛博格文学等。这些文学的写作主体、叙述内容、审美原则、传播机制和读者接受都发生了革新。可以说,大数据技术对文学生态产生了颠覆式影响。

利用计算机技术,以量化统计的方式研究文学,是否行得通

为了应对这些新变,文学批评需要及时调整批评方法。这也是文学批评的技术化转向和文学计算兴起的重要原因之一。传统意义上,“文学数据”是指文学作品和文学研究文献电子化后产生的数据,具有体量小、易分析和好管理等特征,集中体现为各种类型的文学数据库和文学研究数据库。例如,鲁迅文学作品及其研究资料电子化后形成的鲁迅文学数据库和鲁迅研究数据库。

而“文学大数据”是指文学作品和文学研究文献在互联网、物联网和社交网传播过程中产生的文学数据,具有体量大、动态化、类型多、提取难、价值密度低和不易管理等特征。例如,一部文学作品在微信、微博等社交网络传播后,会产生关于此作品的海量评价,除了文字评价,还包括图片、音乐、链接、表情包、弹幕、点赞等多种数据。分析这些大数据,可以获取读者的年龄、职业和地域,文学作品表达的思想情感是否与社会提倡的价值观念相吻合,此部文学作品讲述的故事与哪些中外文学作品相似,读者是否喜欢这类文学作品等诸多内容。这些海量数据的整理和分析单纯依靠人工难以完成,需要相关计算技术的支撑。因此,文学计算应运而生。

简单而言,文学计算是指利用计算机技术,以量化统计的方式研究文学,具有明显的跨学科性。文学计算在古代文学研究中应用较为广泛,尤其在唐诗和明清小说研究方面发力较深,涉及版本考证、作者辨伪和人物功能分析等多个领域。例如,20世纪80年代陈大康、钱峰等人曾提出文学研究与计算机科学相结合的观念,并以量化统计方法研究《红楼梦》。通过统计词频、词长和段落长度变化,考证《红楼梦》作者,分析审美特征等。但受制于计算技术,只分析了《红楼梦》一部作品。直至新世纪,随着计算技术和通信技术的快速发展,以及文学计算理论的普及,文学计算才大范围崛起。刘石、赵薇、王贺等一批学者深耕此领域,取得了开创性成果,推动了国内文学计算的发展。

大数据介入文学批评,可能带来思维上的变革

文学计算不仅是批评方法的转向,而且是批评思维的变革。首先,从主观理论建构到客观数据实证。一般意义上,文学批评注重文学理论和审美建构,阐释对象以单篇或同一类型的文学作品为主。带有很强的个人主观性,难免形成视域盲区,理论的有效性经常受到质疑。例如,文学批评在建构现实主义文学理论时,经常以巴尔扎克的《人间喜剧》、托尔斯泰的《战争与和平》等作品为例。以此得出的观点可以适用西方19世纪现实主义文学,但对中国现实主义文学不一定适用。或者说,文学批评的理论和审美建构因缺乏大规模文学作品的支撑,提出的观点只契合小部分作品,无法真正构建普遍适用于“世界文学”的理论。

计算技术提升了整理和分析大规模文学作品的能力。谷歌图书在2010年已经收集了全球1.3亿册图书数据,而且每年都在成倍增长。因而,文学批评不再局限于小部分文学作品分析,可以把批评对象延伸到世界文学作品,让全球文学数据自己“说话”。在此基础上,可以得出更为客观和普遍有效的结论。

其次,从确证因果关系到呈现相关关系。确证因果关系是指批评者通过分析文学作品,证实文学作品与具体历史和现实事件之间的因果联系。这种批评思维对小部分文学作品有效,但面对大规模的文学作品则难以实践。例如,文学批评在阐释20世纪30年代乡土小说时,致力于确证乡土小说与日本侵华战争的因果关系。因此,解读的重心就放在乡土小说反抗日本殖民统治和表现强烈民族意识上。这种批评思维可以适用于萧红的《生死场》和萧军的《八月的乡村》,却无法用来解读同时期沈从文的《边城》和师陀的《果园城记》等作品。

而文学相关关系是指文学作品与历史和现实事件之间的数值关系。当一部文学作品数值增加时,相关历史社会和现实事件也随之增加,意味着它们之间的相关关系强,反之则亦然。例如,在互联网搜索“乡土小说”时,出现的信息既包括鲁迅、彭家煌等作家作品,又包括五四运动、封建专制文化等历史事件和背景。当这些作家作品和历史事件共同且持续出现在不同的“乡土小说”词条中时,它们之间的相关关系就强。也就是说,文学计算不再需要主观确证文学与历史和现实之间的因果联系,只需通过分析文学数据之间的相关关系,就可以客观呈现这种因果联系,相对更客观和不受主观偏见的影响。

再次,从单向度的文学思维转向多维度的跨文学思维。本质上,文学批评始终在追问“文学是什么”的问题。回答的角度、逻辑和结论都与文学的审美性和精神性相关。但这也忽略了文学之外的众多因素。出现这种状况的重要原因之一是在互联网、物联网兴起之前,没有出现真正的文学大数据和缺乏分析文学大数据的工具。随着这一困境的解决,非文学数据也可以参与回答“文学是什么”的问题。这样,就可以突破文学的边界,进入自然科学、社会科学和艺术学等其他领域来重新界定文学及其相关知识,构建新的文学批评阐释框架和理论基础,重建学科体系、学术体系和话语体系。

例如,文学批评可以借助神经科学分析人物情感,利用数学建模分析人物社会网络,运用自然语言科学分析文学叙述语言审美特性等。以此为研究者提供多维度、差异化的研究视角和材料,拓展文学批评边界,提升重释文学的能力。同样,文学也可以进入其他学科,以自身独特的人文性为其他学科注入精神和审美因素,实现文学批评的跨学科发展。

力求有效调和“人文文化”与“科学文化”之间的矛盾关系

文学批评的技术化有诸多优势,但也存在需要调整和修正的局限。文学计算的基本原理是依据计算模型分析文学数据是否符合计算规则,但无法判断数据的真假和分析其中蕴含的主观观念。或者说,文学计算只负责回答与规则对应的文学数据“怎么样”的问题,而无法阐述“为什么”的问题。例如,文学计算可以统计出在20世纪40年代有哪些作家到过上海、写了哪些文学作品,并以可视地图方式呈现出现,却无法回答为什么这些作家作品会在这个时间集中出现在上海,与上海有何种关系等问题。这样就需要批评主体凭借自身的主观智能找出其中的原因。

文学计算指涉的对象是文学数据,而非文学数据背后的精神意义。例如,文学计算可以统计鲁迅《秋夜》中有两棵枣树,但无法呈现两颗枣树蕴含的孤独体验。这也是文学计算备受诟病的致命缺陷。因此需要批评主体赋予文学数据以价值导向和精神内涵。

文学计算始终秉持“非此即彼”的极化思维。符合规则的为“是”,反之为“否”,排除了规则之外的中间化和模糊化的文学数据,使文学批评滑向判断文学数据“真”和“假”的游戏。例如,如果文学计算设置“牺牲”为判定革命英雄人物的规则,那么符合此规则的为“是”,反之为“否”。但这一规则无法判定《风声》等谍战小说中类似阿炳这样凭借特异天赋成为革命英雄的人物。

文学计算以文学数据的最大公约数为依据阐释文学。但文学本身就是建立在个体对现实差异化理解和表述基础上,充满了变动和偶然,这也是文学的重要魅力。因此,正如学者张福贵所说,文学计算能否“从历史的长线来对文学史现象和作家作品做出相对超越性的评价,是存有疑问和不无难度的”。

虽然文学批评的技术化转向存在诸多问题,但这不是我们否认它的理由,应该辩证看待这种转向,既要汲取它的合理性,也要寻找解决问题的路径。事实上,这些问题都是“人文文化”与“科学文化”矛盾关系的体现。从20世纪五六十年代提出人文与科学冲突的命题至今,这种二元对立思维始终没能有效调和。关于文学批评技术化的争议也多与此有关。如果我们能摆脱这种极化思维,以文学大数据和文学计算作为验证文学人文思想的基础和方法,以人文思想丰富文学大数据和文学计算的精神价值,实现二者的对话和融通,那么文学批评技术化转向就有无限美好的未来。

(作者:杨丹丹,系河南师范大学文学院副教授,本文系国家社会科学基金项目“人工智能写作本体研究”〔20BZW175〕阶段性研究成果)

打开App看更多精彩内容
热门新闻打开App看热榜话题 >
郭台铭,输了
市场资讯300条评论2022-12-21 20:34:06
央企重组大动作 中国中钢整体划入中国宝武
中证报23条评论2022-12-22 05:29:03
默沙东新冠口服药国产仿制药将上市?专家称存在专利侵权风险
界面新闻297条评论2022-12-21 17:10:13
暴涨近250%!监管出手 “跨年大妖”还有戏吗?知名烤鸭也卖白酒?回应来了!
市场资讯45条评论2022-12-22 07:34:51
国务院批准,重磅重组!涉及12家上市公司,又一央企巨无霸诞生!
上海证券报14条评论2022-12-21 18:02:38
重磅!证监会出手,五方面推动资本市场改革,涉及注册制、房地产市场、中长期资金入市…看十大关键点
券商中国91条评论2022-12-22 00:49:58

热门评论
目前没有热门评论,去评论

快来发表你的观点
推荐阅读

身陷瓶颈的文具产业,能“写”出怎样的文章?
市场资讯2022-11-07 15:02:33

后疫情时代 大学生如何应对数字化生存
中国青年报2022-11-04 05:53:08

“现实可比书里精彩太多了!”
媒体滚动2022-11-12 16:03:54

不确定性时代,个体应变的七条指南 | 长江读书378期
长江商学院2022-10-15 12:55:35

李扬:在普及数字化发展的同时,要启动前瞻性研究,关注数字化带来的新问题
新浪财经2022-11-16 17:16:54

AI绘画兴起 内容产业迎变革前夜
中国经营报2022-11-06 09:28:17

中国数字经济发展有“换道超车”的机会 | 行业观察
巴伦周刊2022-11-12 23:55:53

网文撕裂,阅文挣扎
创事记2022-11-10 11:54:42

为什么说“数字化”是今天的一切,未来的开端?
节点财经2022-11-11 18:34:29

李彦宏:要卷就卷创新
智趣财经社2022-11-09 17:25:10
说说你的看法...
A-A+

阅读全文

与小说在线阅读如何实现大数据相关的资料

热点内容
shinecloud怎么交易 浏览:583
火车票开票信息如何查询 浏览:171
如何做衣服代理 浏览:192
陌陌上收到的信息在哪里 浏览:476
银川交易市场在哪里 浏览:782
如何保护数据信息 浏览:247
安居客交易经纪人怎么弄 浏览:962
湘典槟榔来了代理得多少钱 浏览:270
ups市场如何 浏览:367
什么地方可以做茶叶代理 浏览:216
机器人代理商是什么 浏览:850
dma传输数据的速度由什么决定 浏览:173
数据库审计有哪些工具 浏览:200
高淳区五金旧货市场在什么位置 浏览:591
生物性存货监盘程序包括什么 浏览:821
微信小程序中国移动怎么用 浏览:171
wps中的数据验证在什么位置 浏览:921
电脑转转交易记录怎么看 浏览:502
股票板块信息怎么查 浏览:493
温州男装市场哪个最好 浏览:794