導航:首頁 > 數據處理 > 小說在線閱讀如何實現大數據

小說在線閱讀如何實現大數據

發布時間:2023-12-03 17:31:20

『壹』 文字大數據是指文學作品

10年前,《紐約時報》刊文描述了大數據技術對社會生活諸多方面的影響,認為「大數據時代」已經來臨,但並沒有引發大規模討論和預想的轟動效應,回應者寥寥無幾。這種平靜表明人們已經適應和融入了大數據生活,不再感覺陌生和驚奇。「大數據」已經從一個全新的學理概念、政策制度和發展戰略,轉變為確定的生活常識。在全新的時代語境中,大數據技術也改變了文學創作,產生了文學新樣態及其相關數據。例如,游戲文學、界面文學和賽博格文學等。這些文學的寫作主體、敘述內容、審美原則、傳播機制和讀者接受都發生了革新。可以說,大數據技術對文學生態產生了顛覆式影響。

利用計算機技術,以量化統計的方式研究文學,是否行得通

為了應對這些新變,文學批評需要及時調整批評方法。這也是文學批評的技術化轉向和文學計算興起的重要原因之一。傳統意義上,「文學數據」是指文學作品和文學研究文獻電子化後產生的數據,具有體量小、易分析和好管理等特徵,集中體現為各種類型的文學資料庫和文學研究資料庫。例如,魯迅文學作品及其研究資料電子化後形成的魯迅文學資料庫和魯迅研究資料庫。

而「文學大數據」是指文學作品和文學研究文獻在互聯網、物聯網和社交網傳播過程中產生的文學數據,具有體量大、動態化、類型多、提取難、價值密度低和不易管理等特徵。例如,一部文學作品在微信、微博等社交網路傳播後,會產生關於此作品的海量評價,除了文字評價,還包括圖片、音樂、鏈接、表情包、彈幕、點贊等多種數據。分析這些大數據,可以獲取讀者的年齡、職業和地域,文學作品表達的思想情感是否與社會提倡的價值觀念相吻合,此部文學作品講述的故事與哪些中外文學作品相似,讀者是否喜歡這類文學作品等諸多內容。這些海量數據的整理和分析單純依靠人工難以完成,需要相關計算技術的支撐。因此,文學計算應運而生。

簡單而言,文學計算是指利用計算機技術,以量化統計的方式研究文學,具有明顯的跨學科性。文學計算在古代文學研究中應用較為廣泛,尤其在唐詩和明清小說研究方面發力較深,涉及版本考證、作者辨偽和人物功能分析等多個領域。例如,20世紀80年代陳大康、錢峰等人曾提出文學研究與計算機科學相結合的觀念,並以量化統計方法研究《紅樓夢》。通過統計詞頻、詞長和段落長度變化,考證《紅樓夢》作者,分析審美特徵等。但受制於計算技術,只分析了《紅樓夢》一部作品。直至新世紀,隨著計算技術和通信技術的快速發展,以及文學計算理論的普及,文學計算才大范圍崛起。劉石、趙薇、王賀等一批學者深耕此領域,取得了開創性成果,推動了國內文學計算的發展。

大數據介入文學批評,可能帶來思維上的變革

文學計算不僅是批評方法的轉向,而且是批評思維的變革。首先,從主觀理論建構到客觀數據實證。一般意義上,文學批評注重文學理論和審美建構,闡釋對象以單篇或同一類型的文學作品為主。帶有很強的個人主觀性,難免形成視域盲區,理論的有效性經常受到質疑。例如,文學批評在建構現實主義文學理論時,經常以巴爾扎克的《人間喜劇》、托爾斯泰的《戰爭與和平》等作品為例。以此得出的觀點可以適用西方19世紀現實主義文學,但對中國現實主義文學不一定適用。或者說,文學批評的理論和審美建構因缺乏大規模文學作品的支撐,提出的觀點只契合小部分作品,無法真正構建普遍適用於「世界文學」的理論。

計算技術提升了整理和分析大規模文學作品的能力。谷歌圖書在2010年已經收集了全球1.3億冊圖書數據,而且每年都在成倍增長。因而,文學批評不再局限於小部分文學作品分析,可以把批評對象延伸到世界文學作品,讓全球文學數據自己「說話」。在此基礎上,可以得出更為客觀和普遍有效的結論。

其次,從確證因果關繫到呈現相關關系。確證因果關系是指批評者通過分析文學作品,證實文學作品與具體歷史和現實事件之間的因果聯系。這種批評思維對小部分文學作品有效,但面對大規模的文學作品則難以實踐。例如,文學批評在闡釋20世紀30年代鄉土小說時,致力於確證鄉土小說與日本侵華戰爭的因果關系。因此,解讀的重心就放在鄉土小說反抗日本殖民統治和表現強烈民族意識上。這種批評思維可以適用於蕭紅的《生死場》和蕭軍的《八月的鄉村》,卻無法用來解讀同時期沈從文的《邊城》和師陀的《果園城記》等作品。

而文學相關關系是指文學作品與歷史和現實事件之間的數值關系。當一部文學作品數值增加時,相關歷史社會和現實事件也隨之增加,意味著它們之間的相關關系強,反之則亦然。例如,在互聯網搜索「鄉土小說」時,出現的信息既包括魯迅、彭家煌等作家作品,又包括五四運動、封建專制文化等歷史事件和背景。當這些作家作品和歷史事件共同且持續出現在不同的「鄉土小說」詞條中時,它們之間的相關關系就強。也就是說,文學計算不再需要主觀確證文學與歷史和現實之間的因果聯系,只需通過分析文學數據之間的相關關系,就可以客觀呈現這種因果聯系,相對更客觀和不受主觀偏見的影響。

再次,從單向度的文學思維轉向多維度的跨文學思維。本質上,文學批評始終在追問「文學是什麼」的問題。回答的角度、邏輯和結論都與文學的審美性和精神性相關。但這也忽略了文學之外的眾多因素。出現這種狀況的重要原因之一是在互聯網、物聯網興起之前,沒有出現真正的文學大數據和缺乏分析文學大數據的工具。隨著這一困境的解決,非文學數據也可以參與回答「文學是什麼」的問題。這樣,就可以突破文學的邊界,進入自然科學、社會科學和藝術學等其他領域來重新界定文學及其相關知識,構建新的文學批評闡釋框架和理論基礎,重建學科體系、學術體系和話語體系。

例如,文學批評可以藉助神經科學分析人物情感,利用數學建模分析人物社會網路,運用自然語言科學分析文學敘述語言審美特性等。以此為研究者提供多維度、差異化的研究視角和材料,拓展文學批評邊界,提升重釋文學的能力。同樣,文學也可以進入其他學科,以自身獨特的人文性為其他學科注入精神和審美因素,實現文學批評的跨學科發展。

力求有效調和「人文文化」與「科學文化」之間的矛盾關系

文學批評的技術化有諸多優勢,但也存在需要調整和修正的局限。文學計算的基本原理是依據計算模型分析文學數據是否符合計算規則,但無法判斷數據的真假和分析其中蘊含的主觀觀念。或者說,文學計算只負責回答與規則對應的文學數據「怎麼樣」的問題,而無法闡述「為什麼」的問題。例如,文學計算可以統計出在20世紀40年代有哪些作家到過上海、寫了哪些文學作品,並以可視地圖方式呈現出現,卻無法回答為什麼這些作家作品會在這個時間集中出現在上海,與上海有何種關系等問題。這樣就需要批評主體憑借自身的主觀智能找出其中的原因。

文學計算指涉的對象是文學數據,而非文學數據背後的精神意義。例如,文學計算可以統計魯迅《秋夜》中有兩棵棗樹,但無法呈現兩顆棗樹蘊含的孤獨體驗。這也是文學計算備受詬病的致命缺陷。因此需要批評主體賦予文學數據以價值導向和精神內涵。

文學計算始終秉持「非此即彼」的極化思維。符合規則的為「是」,反之為「否」,排除了規則之外的中間化和模糊化的文學數據,使文學批評滑向判斷文學數據「真」和「假」的游戲。例如,如果文學計算設置「犧牲」為判定革命英雄人物的規則,那麼符合此規則的為「是」,反之為「否」。但這一規則無法判定《風聲》等諜戰小說中類似阿炳這樣憑借特異天賦成為革命英雄的人物。

文學計算以文學數據的最大公約數為依據闡釋文學。但文學本身就是建立在個體對現實差異化理解和表述基礎上,充滿了變動和偶然,這也是文學的重要魅力。因此,正如學者張福貴所說,文學計算能否「從歷史的長線來對文學史現象和作家作品做出相對超越性的評價,是存有疑問和不無難度的」。

雖然文學批評的技術化轉向存在諸多問題,但這不是我們否認它的理由,應該辯證看待這種轉向,既要汲取它的合理性,也要尋找解決問題的路徑。事實上,這些問題都是「人文文化」與「科學文化」矛盾關系的體現。從20世紀五六十年代提出人文與科學沖突的命題至今,這種二元對立思維始終沒能有效調和。關於文學批評技術化的爭議也多與此有關。如果我們能擺脫這種極化思維,以文學大數據和文學計算作為驗證文學人文思想的基礎和方法,以人文思想豐富文學大數據和文學計算的精神價值,實現二者的對話和融通,那麼文學批評技術化轉向就有無限美好的未來。

(作者:楊丹丹,系河南師范大學文學院副教授,本文系國家社會科學基金項目「人工智慧寫作本體研究」〔20BZW175〕階段性研究成果)

打開App看更多精彩內容
熱門新聞打開App看熱榜話題 >
郭台銘,輸了
市場資訊300條評論2022-12-21 20:34:06
央企重組大動作 中國中鋼整體劃入中國寶武
中證報23條評論2022-12-22 05:29:03
默沙東新冠口服葯國產仿製葯將上市?專家稱存在專利侵權風險
界面新聞297條評論2022-12-21 17:10:13
暴漲近250%!監管出手 「跨年大妖」還有戲嗎?知名烤鴨也賣白酒?回應來了!
市場資訊45條評論2022-12-22 07:34:51
國務院批准,重磅重組!涉及12家上市公司,又一央企巨無霸誕生!
上海證券報14條評論2022-12-21 18:02:38
重磅!證監會出手,五方面推動資本市場改革,涉及注冊制、房地產市場、中長期資金入市…看十大關鍵點
券商中國91條評論2022-12-22 00:49:58

熱門評論
目前沒有熱門評論,去評論

快來發表你的觀點
推薦閱讀

身陷瓶頸的文具產業,能「寫」出怎樣的文章?
市場資訊2022-11-07 15:02:33

後疫情時代 大學生如何應對數字化生存
中國青年報2022-11-04 05:53:08

「現實可比書里精彩太多了!」
媒體滾動2022-11-12 16:03:54

不確定性時代,個體應變的七條指南 | 長江讀書378期
長江商學院2022-10-15 12:55:35

李揚:在普及數字化發展的同時,要啟動前瞻性研究,關注數字化帶來的新問題
新浪財經2022-11-16 17:16:54

AI繪畫興起 內容產業迎變革前夜
中國經營報2022-11-06 09:28:17

中國數字經濟發展有「換道超車」的機會 | 行業觀察
巴倫周刊2022-11-12 23:55:53

網文撕裂,閱文掙扎
創事記2022-11-10 11:54:42

為什麼說「數字化」是今天的一切,未來的開端?
節點財經2022-11-11 18:34:29

李彥宏:要卷就卷創新
智趣財經社2022-11-09 17:25:10
說說你的看法...
A-A+

閱讀全文

與小說在線閱讀如何實現大數據相關的資料

熱點內容
擒敵術應用技術科目有哪些 瀏覽:907
需要通過什麼司法程序 瀏覽:926
蘋果電腦如何刪除軟體在程序塢 瀏覽:504
季節性調整數據取多少 瀏覽:686
dd37交易成功什麼時候能提現 瀏覽:506
無錫母嬰信息管理系統花費多少 瀏覽:499
如何讓店員推廣本公司產品 瀏覽:58
洗護產品如何打堆頭 瀏覽:452
產品監測有哪些部門完成 瀏覽:709
墊江有哪些建材市場 瀏覽:593
有技術沒學歷怎麼進大公司 瀏覽:144
網戀摩羯座對象生氣了怎麼發信息 瀏覽:812
shinecloud怎麼交易 瀏覽:583
火車票開票信息如何查詢 瀏覽:171
如何做衣服代理 瀏覽:192
陌陌上收到的信息在哪裡 瀏覽:477
銀川交易市場在哪裡 瀏覽:784
如何保護數據信息 瀏覽:247
安居客交易經紀人怎麼弄 瀏覽:964
湘典檳榔來了代理得多少錢 瀏覽:271