① 鐭ヨ瘑鍥捐氨鎶鏈鐨勬妧鏈嫻佺▼
鐭ヨ瘑鍥捐氨鎶鏈鐨勬妧鏈嫻佺▼鍐呭瑰備笅錛
涓鑸嫻佺▼涓猴細棣栧厛紜瀹氱煡璇嗚〃紺烘ā鍨嬶紝鐒跺悗鏍規嵁鏁版嵁鏉ユ簮閫夋嫨涓嶅悓鐨勭煡璇嗚幏鍙栨墜孌靛煎叆鐭ヨ瘑錛屾帴鐫緇煎悎鍒╃敤鐭ヨ瘑鎺ㄧ悊銆佺煡璇嗚瀺鍚堛佺煡璇嗘寲鎺樼瓑鎶鏈瀵規瀯寤虹殑鐭ヨ瘑鍥捐氨榪涜岃川閲忔彁鍗囷紝鏈鍚庢牴鎹鍦烘櫙闇奼傝捐′笉鍚岀殑鐭ヨ瘑璁塊棶涓庡憟鐜版柟娉曪紝濡傝涔夋悳緔銆侀棶絳斾氦浜掋佸浘璋卞彲瑙嗗寲鍒嗘瀽絳夈
4.鐭ヨ瘑鋙嶅悎
鍦ㄦ瀯寤虹煡璇嗗浘璋辨椂錛屽彲浠ヤ粠絎涓夋柟鐭ヨ瘑搴撲駭鍝佹垨宸叉湁緇撴瀯鍖栨暟鎹涓鑾峰彇鐭ヨ瘑杈撳叆銆備緥濡傦紝鍏寵仈寮鏀炬暟鎹欏圭洰錛圠inked Open Data錛変細瀹氭湡鍙戝竷鍏剁粡榪囩Н緔鍜屾暣鐞嗙殑璇涔夌煡璇嗘暟鎹錛屽叾涓鏃㈠寘鎷鍓嶆枃浠嬬粛榪囩殑閫氱敤鐭ヨ瘑搴 DBpedia 鍜 Yago錛屼篃鍖呮嫭闈㈠悜鐗瑰畾棰嗗煙鐨勭煡璇嗗簱浜у搧銆
5.鐭ヨ瘑鍥捐氨琛ュ叏涓庢帹鐞
甯哥敤鐨勭煡璇嗗浘璋辮ˉ鍏ㄦ柟娉曞寘鎷錛氬熀浜庢湰浣撴帹鐞嗙殑琛ュ叏鏂規硶錛屽傚熀浜庢弿榪伴昏緫鐨勬帹鐞哰67-69]錛屼互鍙婄浉鍏崇殑鎺ㄧ悊鏈哄疄鐜幫紝濡RDFox銆丳ellet銆丷ACER銆丠ermiT銆乀rOWL 絳夈傝繖綾繪帹鐞嗕富瑕侀拡瀵筎Box錛屽嵆姒傚康灞傝繘琛屾帹鐞嗭紝涔熷彲浠ョ敤鏉ュ瑰疄浣撶駭鐨勫叧緋昏繘琛岃ˉ鍏ㄣ
6.鐭ヨ瘑媯緔涓庣煡璇嗗垎鏋
鍩轟簬鐭ヨ瘑鍥捐氨鐨勭煡璇嗘緔㈢殑瀹炵幇褰㈠紡涓昏佸寘鎷璇涔夋緔㈠拰鏅鴻兘闂絳斻備紶緇熸悳緔㈠紩鎿庝緷闈犵綉欏典箣闂寸殑瓚呴摼鎺ュ疄鐜扮綉欏電殑鎼滅儲錛岃岃涔夋悳緔㈢洿鎺ュ逛簨鐗╄繘琛屾悳緔錛屽備漢鐗┿佹満鏋勩佸湴鐐圭瓑銆傝繖浜涗簨鐗╁彲鑳芥潵鑷鏂囨湰銆佸浘鐗囥佽嗛戙侀煶棰戙両oT 璁懼囩瓑鍚勭嶄俊鎮璧勬簮銆
② 技術 | 知識圖譜構建關鍵技術點梳理
本文主要內容整理自知識圖譜兩篇代表性綜述:
1. 徐增林,盛泳潘,賀麗榮,王雅芳. 知識圖譜技術綜述[J]. 電子科技大學學報(4期):589-606.
2. 劉嶠, 李楊, 段宏, et al. 知識圖譜構建技術綜述 [J]. 計算機研究與發展, 2016(3):582-600,共19頁.
文章從知識圖譜的定義和技術架構出發,對構建知識圖譜涉及的關鍵技術進行了自底向上的全面解析。本文是對涉及技術點的羅列,後續會針對單個技術點一一梳理。
1.1 所解決的問題
如何從半結構化和無結構數據中抽取實體、關系以及實體屬性等結構化信息。
1.2 涉及的關鍵技術
1.2.1 實體抽取 Entity Extraction
也稱命名實體識別(Named Entity Recognition, NER),指從文本數據集中自動識別出命名實體。
1.2.2 關系抽取 Relation Extraction
指從相關語料中提取出實體之間的關聯關系,通過關系將實體(概念)聯系起來。
1.2.3 屬性抽取 Attribute Extraction
指從不同信息源中採集特定實體的屬性信息,例如抽取某個公眾人物的昵稱、生日、國籍、教育背景等信息。
2.1 所解決的問題
將現實世界中的各類知識表達成計算機可存儲和計算的結構。
2.2 涉及的關鍵技術
傳統的知識表示方法主要是以RDF(Resource Description Framework資源描述框架)三元組SPO(subject,property,object)來符號性描述實體之間的關系,近年來,以深度學習為代表的表示學習技術也取得了重要的進展。
3.1 所解決的問題
信息抽取結果中可能包含大量的冗餘和錯誤信息,數據之間的關系也是扁平化的,缺乏層次性和邏輯性,通過知識融合,可以消除概念的歧義,剔除冗餘和錯誤概念,確保知識質量。
3.2 關鍵技術
3.2.1 實體鏈接 Entity Linking
指對於從文本中抽取得到的實體對象,將其鏈接到知識庫中對應的正確實體對象的操作。主要涉及兩方面:
▪ 實體消歧Entity Disambiguation
用於解決同名實體產生歧義問題的技術。例如「李娜」(指稱項)可以對應於作為歌手的李娜這個實體,也可以對應於作為網球運動員的李娜這個實體。
▪ 共指消解Entity Resolution
也稱實體對齊(object alignment)、實體匹配(entity matching)、實體同義(entity synonyms)等,用於解決多個指稱項對應於同一實體對象的問題。例如在一篇新聞稿中,「Barack Obama」,「president Obama」,「the president」等指稱項可能指向的都是「奧巴馬」這同一個實體。
3.2.2 知識合並
指從第三方知識庫產品或已有結構化數據獲取知識輸入。
4.1 所解決的問題
信息抽取和知識融合可以得到一系列基本的事實表達。但事實不等於知識,要想最終獲得結構化、網路化的知識體系,還需要經歷知識加工的過程。
4.2 涉及的關鍵技術
4.2.1 本體構建 Ontology Extraction
本體(ontology)是對概念進行建模的規范,是描述客觀世界的抽象模型,以形式化方式對概念及其之間的聯系給出明確定義。
4.2.2 知識推理 Knowledge Inference
指從知識庫中已有的實體關系數據出發,經過計算機推理,建立實體間的新關聯,從而拓展和豐富知識網路。
4.2.3 質量評估 Quality Evaluation
對知識的可信度進行量化,通過舍棄置信度較低的知識,保障知識庫的質量。
5.1 所解決的問題
知識圖譜的內容需要與時俱進,其構建過程是一個不斷迭代更新的過程。主要包括概念層的更新和數據層的更新。
▪ 數據層更新: 主要是新增或更新實體、關系和屬性值等。
▪ 模式層更新: 指新增數據後獲得了新的模式,需要自動將新的模式添加到知識庫的模式層中。
③ 鐭ヨ瘑鍥捐氨鐨勬瀯寤烘柟娉曟湁浠涔堬紵
鐭ヨ瘑鍥捐氨鐨勬瀯寤烘柟娉曚富瑕佸寘鎷浠ヤ笅鍑犵嶏細
1. 鎵嬪伐鏋勫緩娉曪細閫氳繃浜哄伐鏀墮泦銆佹暣鐞嗗拰鏍囨敞鏁版嵁錛屾瀯寤哄嚭鐭ヨ瘑鍥捐氨銆傝繖縐嶆柟娉曢傜敤浜庡皬瑙勬ā鏁版嵁闆嗭紝浣嗘晥鐜囪緝浣庝笖瀹規槗鍑洪敊銆
2. 鑷鍔ㄦ娊鍙栨硶錛氬埄鐢ㄨ嚜鐒惰璦澶勭悊鎶鏈錛屼粠澶ч噺鏂囨湰涓鑷鍔ㄦ娊鍙栧疄浣撱佸叧緋誨拰灞炴х瓑淇℃伅錛屾瀯寤虹煡璇嗗浘璋便傝繖縐嶆柟娉曢傜敤浜庡ぇ瑙勬ā鏁版嵁闆嗭紝浣嗛渶瑕佽緝楂樼殑鎶鏈姘村鉤銆
3. 鍗婅嚜鍔ㄦ瀯寤烘硶錛氱粨鍚堟墜宸ユ瀯寤哄拰鑷鍔ㄦ娊鍙栦袱縐嶆柟娉曪紝閫氳繃浜哄伐瀹℃牳鍜屼慨姝h嚜鍔ㄦ娊鍙栫殑緇撴灉錛屾彁楂樼煡璇嗗浘璋辯殑鍑嗙『鎬у拰瀹屾暣鎬с
4. 鍩轟簬鏈浣撶殑鐭ヨ瘑鍥捐氨鏋勫緩娉曪細浣跨敤鏈浣撹哄歸嗗煙鐭ヨ瘑榪涜屽緩妯★紝鏋勫緩鐭ヨ瘑鍥捐氨銆傝繖縐嶆柟娉曞彲浠ユ彁楂樼煡璇嗗浘璋辯殑涓鑷存у拰鍙鎵╁睍鎬с
5. 娣峰悎鏋勫緩娉曪細緇撳悎澶氱嶆暟鎹婧愬拰鏋勫緩鏂規硶錛屽傜粨鏋勫寲鏁版嵁銆侀潪緇撴瀯鍖栨暟鎹銆佹枃鏈鏁版嵁絳夛紝鏋勫緩鍑烘洿涓板瘜銆佹洿鍏ㄩ潰鐨勭煡璇嗗浘璋便
6. 澧為噺鏋勫緩娉曪細鍦ㄥ凡鏈夌殑鐭ヨ瘑鍥捐氨鍩虹涓婏紝涓嶆柇鏇存柊鍜屾墿鍏呮柊鐨勫疄浣撱佸叧緋誨拰灞炴х瓑淇℃伅錛屼嬌鐭ヨ瘑鍥捐氨淇濇寔鏈鏂扮姸鎬併
7. 璺ㄩ嗗煙鐭ヨ瘑鍥捐氨鏋勫緩娉曪細灝嗕笉鍚岄嗗煙鐨勭煡璇嗚瀺鍚堝湪涓璧鳳紝鏋勫緩鍑鴻法棰嗗煙鐨勭煡璇嗗浘璋憋紝鎻愪緵鏇村箍娉涚殑搴旂敤鍦烘櫙銆