① 鐭ヨ瘑锲捐氨鎶链镄勬妧链娴佺▼
鐭ヨ瘑锲捐氨鎶链镄勬妧链娴佺▼鍐呭瑰备笅锛
涓鑸娴佺▼涓猴细棣栧厛纭瀹氱煡璇呜〃绀烘ā鍨嬶纴铹跺悗镙规嵁鏁版嵁𨱒ユ簮阃夋嫨涓嶅悓镄勭煡璇呜幏鍙栨坠娈靛煎叆鐭ヨ瘑锛屾帴镌缁煎悎鍒╃敤鐭ヨ瘑鎺ㄧ悊銆佺煡璇呜瀺钖堛佺煡璇嗘寲鎺樼瓑鎶链瀵规瀯寤虹殑鐭ヨ瘑锲捐氨杩涜岃川閲忔彁鍗囷纴链钖庢牴鎹鍦烘櫙闇姹傝捐′笉钖岀殑鐭ヨ瘑璁块梾涓庡憟鐜版柟娉曪纴濡傝涔夋悳绱銆侀梾绛斾氦浜掋佸浘璋卞彲瑙嗗寲鍒嗘瀽绛夈
4.鐭ヨ瘑铻嶅悎
鍦ㄦ瀯寤虹煡璇嗗浘璋辨椂锛屽彲浠ヤ粠绗涓夋柟鐭ヨ瘑搴扑骇鍝佹垨宸叉湁缁撴瀯鍖栨暟鎹涓銮峰彇鐭ヨ瘑杈揿叆銆备緥濡傦纴鍏宠仈寮鏀炬暟鎹椤圭洰锛圠inked Open Data锛変细瀹氭湡鍙戝竷鍏剁粡杩囩Н绱鍜屾暣鐞嗙殑璇涔夌煡璇嗘暟鎹锛屽叾涓镞㈠寘𨰾鍓嶆枃浠嬬粛杩囩殑阃氱敤鐭ヨ瘑搴 DBpedia 鍜 Yago锛屼篃鍖呮嫭闱㈠悜鐗瑰畾棰嗗烟镄勭煡璇嗗簱浜у搧銆
5.鐭ヨ瘑锲捐氨琛ュ叏涓庢帹鐞
甯哥敤镄勭煡璇嗗浘璋辫ˉ鍏ㄦ柟娉曞寘𨰾锛氩熀浜庢湰浣撴帹鐞嗙殑琛ュ叏鏂规硶锛屽傚熀浜庢弿杩伴昏緫镄勬帹鐞哰67-69]锛屼互鍙婄浉鍏崇殑鎺ㄧ悊链哄疄鐜帮纴濡RDFox銆丳ellet銆丷ACER銆丠ermiT銆乀rOWL 绛夈傝繖绫绘帹鐞嗕富瑕侀拡瀵筎Box锛屽嵆姒傚康灞傝繘琛屾帹鐞嗭纴涔熷彲浠ョ敤𨱒ュ瑰疄浣撶骇镄勫叧绯昏繘琛岃ˉ鍏ㄣ
6.鐭ヨ瘑妫绱涓庣煡璇嗗垎鏋
锘轰簬鐭ヨ瘑锲捐氨镄勭煡璇嗘绱㈢殑瀹炵幇褰㈠纺涓昏佸寘𨰾璇涔夋绱㈠拰鏅鸿兘闂绛斻备紶缁熸悳绱㈠紩镎庝緷闱犵绣椤典箣闂寸殑瓒呴摼鎺ュ疄鐜扮绣椤电殑鎼灭储锛岃岃涔夋悳绱㈢洿鎺ュ逛簨鐗╄繘琛屾悳绱锛屽备汉鐗┿佹満鏋勚佸湴镣圭瓑銆傝繖浜涗簨鐗╁彲鑳芥潵镊鏂囨湰銆佸浘鐗囥佽嗛戙侀煶棰戙両oT 璁惧囩瓑钖勭崭俊鎭璧勬簮銆
② 技术 | 知识图谱构建关键技术点梳理
本文主要内容整理自知识图谱两篇代表性综述:
1. 徐增林,盛泳潘,贺丽荣,王雅芳. 知识图谱技术综述[J]. 电子科技大学学报(4期):589-606.
2. 刘峤, 李杨, 段宏, et al. 知识图谱构建技术综述 [J]. 计算机研究与发展, 2016(3):582-600,共19页.
文章从知识图谱的定义和技术架构出发,对构建知识图谱涉及的关键技术进行了自底向上的全面解析。本文是对涉及技术点的罗列,后续会针对单个技术点一一梳理。
1.1 所解决的问题
如何从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息。
1.2 涉及的关键技术
1.2.1 实体抽取 Entity Extraction
也称命名实体识别(Named Entity Recognition, NER),指从文本数据集中自动识别出命名实体。
1.2.2 关系抽取 Relation Extraction
指从相关语料中提取出实体之间的关联关系,通过关系将实体(概念)联系起来。
1.2.3 属性抽取 Attribute Extraction
指从不同信息源中采集特定实体的属性信息,例如抽取某个公众人物的昵称、生日、国籍、教育背景等信息。
2.1 所解决的问题
将现实世界中的各类知识表达成计算机可存储和计算的结构。
2.2 涉及的关键技术
传统的知识表示方法主要是以RDF(Resource Description Framework资源描述框架)三元组SPO(subject,property,object)来符号性描述实体之间的关系,近年来,以深度学习为代表的表示学习技术也取得了重要的进展。
3.1 所解决的问题
信息抽取结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,通过知识融合,可以消除概念的歧义,剔除冗余和错误概念,确保知识质量。
3.2 关键技术
3.2.1 实体链接 Entity Linking
指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。主要涉及两方面:
▪ 实体消歧Entity Disambiguation
用于解决同名实体产生歧义问题的技术。例如“李娜”(指称项)可以对应于作为歌手的李娜这个实体,也可以对应于作为网球运动员的李娜这个实体。
▪ 共指消解Entity Resolution
也称实体对齐(object alignment)、实体匹配(entity matching)、实体同义(entity synonyms)等,用于解决多个指称项对应于同一实体对象的问题。例如在一篇新闻稿中,“Barack Obama”,“president Obama”,“the president”等指称项可能指向的都是“奥巴马”这同一个实体。
3.2.2 知识合并
指从第三方知识库产品或已有结构化数据获取知识输入。
4.1 所解决的问题
信息抽取和知识融合可以得到一系列基本的事实表达。但事实不等于知识,要想最终获得结构化、网络化的知识体系,还需要经历知识加工的过程。
4.2 涉及的关键技术
4.2.1 本体构建 Ontology Extraction
本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义。
4.2.2 知识推理 Knowledge Inference
指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。
4.2.3 质量评估 Quality Evaluation
对知识的可信度进行量化,通过舍弃置信度较低的知识,保障知识库的质量。
5.1 所解决的问题
知识图谱的内容需要与时俱进,其构建过程是一个不断迭代更新的过程。主要包括概念层的更新和数据层的更新。
▪ 数据层更新: 主要是新增或更新实体、关系和属性值等。
▪ 模式层更新: 指新增数据后获得了新的模式,需要自动将新的模式添加到知识库的模式层中。
③ 鐭ヨ瘑锲捐氨镄勬瀯寤烘柟娉曟湁浠涔堬纻
鐭ヨ瘑锲捐氨镄勬瀯寤烘柟娉曚富瑕佸寘𨰾浠ヤ笅鍑犵嶏细
1. 镓嫔伐鏋勫缓娉曪细阃氲繃浜哄伐鏀堕泦銆佹暣鐞嗗拰镙囨敞鏁版嵁锛屾瀯寤哄嚭鐭ヨ瘑锲捐氨銆傝繖绉嶆柟娉曢傜敤浜庡皬瑙勬ā鏁版嵁闆嗭纴浣嗘晥鐜囱缉浣庝笖瀹规槗鍑洪敊銆
2. 镊锷ㄦ娊鍙栨硶锛氩埄鐢ㄨ嚜铹惰瑷澶勭悊鎶链锛屼粠澶ч噺鏂囨湰涓镊锷ㄦ娊鍙栧疄浣撱佸叧绯诲拰灞炴х瓑淇℃伅锛屾瀯寤虹煡璇嗗浘璋便傝繖绉嶆柟娉曢傜敤浜庡ぇ瑙勬ā鏁版嵁闆嗭纴浣嗛渶瑕佽缉楂樼殑鎶链姘村钩銆
3. 鍗婅嚜锷ㄦ瀯寤烘硶锛氱粨钖堟坠宸ユ瀯寤哄拰镊锷ㄦ娊鍙栦袱绉嶆柟娉曪纴阃氲繃浜哄伐瀹℃牳鍜屼慨姝h嚜锷ㄦ娊鍙栫殑缁撴灉锛屾彁楂樼煡璇嗗浘璋辩殑鍑嗙‘镐у拰瀹屾暣镐с
4. 锘轰簬链浣撶殑鐭ヨ瘑锲捐氨鏋勫缓娉曪细浣跨敤链浣撹哄归嗗烟鐭ヨ瘑杩涜屽缓妯★纴鏋勫缓鐭ヨ瘑锲捐氨銆傝繖绉嶆柟娉曞彲浠ユ彁楂樼煡璇嗗浘璋辩殑涓镊存у拰鍙镓╁𪾢镐с
5. 娣峰悎鏋勫缓娉曪细缁揿悎澶氱嶆暟鎹婧愬拰鏋勫缓鏂规硶锛屽傜粨鏋勫寲鏁版嵁銆侀潪缁撴瀯鍖栨暟鎹銆佹枃链鏁版嵁绛夛纴鏋勫缓鍑烘洿涓板瘜銆佹洿鍏ㄩ溃镄勭煡璇嗗浘璋便
6. 澧为噺鏋勫缓娉曪细鍦ㄥ凡链夌殑鐭ヨ瘑锲捐氨锘虹涓婏纴涓嶆柇镟存柊鍜屾墿鍏呮柊镄勫疄浣撱佸叧绯诲拰灞炴х瓑淇℃伅锛屼娇鐭ヨ瘑锲捐氨淇濇寔链鏂扮姸镐併
7. 璺ㄩ嗗烟鐭ヨ瘑锲捐氨鏋勫缓娉曪细灏嗕笉钖岄嗗烟镄勭煡璇呜瀺钖埚湪涓璧凤纴鏋勫缓鍑鸿法棰嗗烟镄勭煡璇嗗浘璋憋纴鎻愪緵镟村箍娉涚殑搴旂敤鍦烘櫙銆