本次Tutorial主要包括以下三方面内容:
行业知识图谱概述,包括行业图谱简介,行业知识图谱的应用及挑战,以及行业知识图谱生命周期管理。
行业知识图谱关键技术,包括行业知识图谱生命周期中各过程的相关技术、现有可用的工具,以及各过程中的最佳实践及相关组件。
行业知识图谱应用实战,以金融证券行业应用为例,演示知识图谱从知识建模、知识抽取到行业应用的全过程。
目标听众与我们公众号的粉丝群体一致:
知识图谱学习者,对知识图谱在行业应用感兴趣的技术人员。
各行业应用中想引入知识图谱相关技术的知识及数据管理人员,尤其是有行业知识库构建及上层问答搜索等需求的。
希望了解知识图谱如何在行业中应用的管理决策者。
这篇文章通读完大致需要60分钟时间,不过这些时间都是值得的,因为你将可以:
了解行业知识图谱相关概念及其在行业中的现有应用,理解其给行业应用带来的价值。
理解知识图谱在行业中应用的相关挑战与生命周期,理解生命周期各过程的基本目标及相关组件。
对行业知识图谱应用相关的技术进行熟悉,了解有哪些现有的工具可以使用和相关注意事项、以及一些行业应用的最佳实践。
我们假定阅读本Tutorial的听众具备如下基础知识:
RD**F**:资源描述框架
OWL: RDF Schema 的扩展
SPARQL:RDF查询语言
第一节 行业知识图谱简介
“Things not strings”
众所周知,知识图谱是Google于2012年提出,用来优化搜索结果。
经过多年的发展,知识图谱在人工智能的许多行业都拥有了成熟落地的应用。
按照知识图谱的覆盖面来看,主要分为通用知识图谱与行业知识图谱。
1.1 通用知识图谱
Google所提出的知识图谱即为通用知识图谱,他是面向全领域的。通用知识图谱主要应用于面向互联网的搜索、推荐、问答等业务场景。由于它强调的是广度,因而更多的是强调实体,很难生成完整的全局性本体层的统一管理。
通用知识图谱一些常见的项目如下:
1.2 行业知识图谱
号称“硅谷最神秘科技公司”的Palantir是行业知识图谱领域的典型代表,其软件允许客户对大量的敏感数据进行语义关联分析,以防止欺诈,确保数据安全等。
行业知识图谱相对通用知识图谱拥有如下特性:
面向特定领域的知识图谱。
用户目标对象需要考虑行业中各种级别的人员,不同人员对应的操作和业务场景不同,因而需要一定的深度与完备性。
行业知识图谱对准确度要求非常高,通常用于辅助各种复杂的分析应用或决策支持。
有严格与丰富的数据模式,行业知识图谱中的实体通常属性比较多且具有行业意义。
行业数据的特点包括:
数据来源多:内部数据、互联网数据、第三方数据。
数据类型多:包含结构化、半结构化、非结构化数据,且后两者越来越多。
数据模式无法预先确定:模式在数据出现之后才能确定;数据模式随数据增长不断演变。
数据量大:在大数据背景下,行业应用的数据的数量通常都以亿级别计算,存在通常在TB、PB级别甚至更多。
行业知识图谱已经在以下很多领域有了很好的应用,在后面我们会以金融证券领域为例,详细展开介绍。
下面这张图是部分知名的行业知识图谱项目
通过上面的介绍我们已经大致了解通用知识图谱和行业知识图谱的区别,这里简单总结一下:
当然通用知识图谱与行业知识图谱并不是相互对立,而是相互补充的一个关系,利用通用知识图谱的广度结合行业知识图谱的深度,可以形成更加完善的知识图谱。
通用知识图谱中的知识,可以作为行业知识图谱构建的基础;而构建的行业知识图谱,再融合到通用知识图谱中。
因此两者是相辅相成,结合使用的。
第二节 行业知识图谱应用
介绍完行业知识图谱的基本知识后,我们来看下行业知识图谱都有哪些应用。
首先看金融领域,目前金融证券领域应用主要侧重于两个方面,一个是企业知识图谱,另一个是金融交易知识图谱。
2.1 企业知识图谱
企业数据包括:企业基础数据、投资关系、任职关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据、企业新闻数据。
利用知识图谱融合以上企业数据,我们做了企业知识图谱,并在企业知识图谱之上利用图谱的特性,针对金融业务场景研发了一系列的图谱应用。
以下6大功能为我们当前已投入使用的企业知识图谱应用。
2.1.1 企业风险评估
基于企业的基础信息、投资关系、诉讼、失信等多维度关联数据,利用图计算等方法构建科学、严谨的企业风险评估体系,有效规避潜在的经营风险与资金风险。
2.1.2 企业社交图谱查询
基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体展现企业关联。
2.1.3 企业最终控制人查询
基于股权投资关系寻找持股比例最大的股东,最终追溯至自然人或国有资产管理部门。
2.1.4 企业之间路径发现
在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间的联系密切度。
2.1.5 初创企业融资发展历程
基于企业知识图谱中的投融资事件发生的时间顺序,记录企业的融资发展历程。
2.1.6 上市企业智能问答
用户可以通过输入自然语言问题,系统直接给出用户想要的答案。
2.2 金融交易知识图谱
金融交易知识图谱在企业知识图谱之上,增加交易客户数据、客户之间的关系数据以及交易行为数据等,利用图挖掘技术,包括很多业务相关的规则,来分析实体与实体之间的关联关系,最终形成金融领域的交易知识图谱。
有了这样一个交易知识图谱之后,可以支持如下的应用(这块普惠金融的李文哲之前有篇文章有过相似介绍)。
2.2.1 辅助信贷审核
基于知识图谱数据的统一查询,全面掌握客户信息;避免由于系统、数据等孤立造成的信息不一致造成信用重复使用、信息不完整等问题。
2.2.2 反欺诈(1)
不一致性验证可以用来判断一个借款人的欺诈风险,类似交叉验证。比如借款人A和借款人B填写的是同一个公司电话,但借款人A填写的公司和借款人B填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。
2.2.3 反欺诈(2)
组团进行欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。如下图可以看出贷款人A、B和C之间没有直接的关系,但通过知识图谱可以很容易的看出这三者之间都共享着某一部分信息,存在一定的组团骗贷风险。
2.2.4 其它应用场景
异常分析(异常交易、异常客户)
失联客户管理
精准营销
智能投研
智能公告
……
2.3 医疗知识图谱
知识图谱与医疗数据的结合形成医疗知识图谱,医疗数据包括:医疗专业知识、医疗文献、医疗常识、电子病历大数据、医案、现有医疗资源、疾病库、指南与规范。
行业内比较知名的应用和项目如下
2.3.1 中医药知识平台
中医药知识平台(http://www.tcmkb.cn)是一个针对中医药知识体系系统梳理、建模和展示的平台,它以图形可视化方式展示核心概念之间的关系,辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系。
其优势在于与阅读文献等手段相比,可大幅度节约知识检索获取时间。
2.3.2 Watson辅助诊断与治疗
IBM 的 Watson 机器人已经在医院里辅助医生对病人进行医疗诊断。安德森癌症中心联合IBM Watson开展终结癌症的任务,其底层核心就是用了知识图谱相关技术。
2.3.3 Open PHACTS 新药物发现
在欧盟,Open PHACTS重大联合攻关项目,这一面向药物研发的开放数据访问平台开发,其核心技术就是采用语义技术为有关研究人员提供高效的数据访问技术环境的支持。
2.4 图情资源知识图谱
通过行业知识图谱结合图书情报资源,包括图书馆分类学体系、特定方向的知识体系、图书、期刊、论文、专利、报刊、百科数据、行业网站等数据,构建图情资源知识图谱,可以帮助图情领域在文献信息检索和文献信息资源管理推荐等方面,提供新的思路。
以下为我们在图情资源知识图谱之上的一些应用案例。
2.4.1 知识导航与资源展示
使用知识图谱中的知识体系进行知识导航,引导用户学习知识体系,以及通过实体链接所关联的资源。
2.4.2 知识点推荐与搜索
2.4.3 图情资源统计
2.5 其他行业应用
知识图谱在许多其他行业也有应用,这里篇幅有限,我们仅列出方向及应用点。
农业
识别作物危害
政府行业
政府大数据管理
客服系统
基于知识图谱的智能客服系统
……
第三节 知识图谱应用挑战
从数据库时代发展到大数据时代,企业希望融合使用全量数据,在融合使用的过程中会遇到非常多的挑战,首先我们看下从DB(DataBase)到BD(BigData)到底会有哪些不一样的地方?
这个图在我们公众号前几期分享中有介绍过,无论是从数据规模、数据类型、数据模式还是处理方法,数据库时代与大数据时代均存在非常大的差异性,大数据时代,没有一种通用的处理方法可以解决所有问题。因此我们结合PlantData平台在许多行业应用中的实战经验,总结了以下5点企业全量数据应用中会面临到的挑战。
一) 多源异构数据难以融合
企业包括不仅内部的数据,还有从第三方接入的数据以及互联网公开数据,甚至是采购的数据,这些数据很多,可能描述同一个事物有很多的数据源,它们分散在不同的地方,怎么去把它们融合起来?这是我们面临的第一个挑战。
二)数据模式动态变迁困难
大数据时代,数据模式是在不断变化的场景下,因此迫切需要一种可自由扩展的数据模式,而传统的数据库定义好数据库表结构和业务逻辑之后,修改起来成本非常高。第二个挑战在于如何简便的进行数据模式的动态变迁。
三)非结构化数据计算机难以理解
非结构化的数据最重要的部分就是文本数据,对于文本数据如何处理,传统的方式主要是基于字符串的检索,对文本中丰富信息的使用率非常低,因此第三个挑战在于怎么对非结构化的数据去进行有效的应用?
四)数据使用专业程度过高
传统数据在使用的时候需要专业的程序员去编写程序去进行查询使用,普通的应用分析人员很难对数据去进行探索,第四个挑战在于需要有一种快速的方式去对数据进行探索和使用。
五)分散的数据难以统一消费利用
在传统的数据库时代,构建的不同系统使用方式不一样,数据集成的时候会非常混乱,我们更多的期待把这些分散的数据融合起来,形成一个统一的消费利用的入口,工作人员可以从统一的入口进行数据的消费。
针对以上五个挑战,我们的解决方案是:基于行业知识图谱进行数据融合使用。
首先从最底层开始,针对挑战1,使用知识图谱(本体)对各种类型的数据进行抽象建模,基于可动态变化的“概念—实体—属性—关系”数据模型,实现各类数据的统一建模。
针对挑战2,使用可支持数据模式动态变化的知识图谱的数据存储,实现对大数据及数据模式动态变化的支持。
针对挑战3:利用信息抽取、实体链接相关的技术,对非结构化及半结构化数据进行抽取和转换,形成知识图谱形式的知识,以及和知识图谱里面的结构化的知识进行链接。
最后针对挑战4、5:在知识融合的基础上,基于语义检索、智能问答、图计算、推理、可视化等技术,提供统一的数据检索、分析和利用平台。
第四节 行业知识图谱生命周期
从行业知识图谱的全生命周期来看,可以分为知识建模,知识获取,知识融合,知识融合,知识存储,知识计算和知识应用6个部分。
4.1 知识建模
知识建模即建立知识图谱的数据模式,行业知识图谱的数据模式对整个知识图谱的结构进行定义,因此需要保证可靠性。
通常采用两种方法:一种是自顶向下的方法,专家手工编辑形成数据模式;另一种是自底向上的方法,基于行业现有的标准进行转换或者从现有的高质量行业数据源(如业务系统数据库表)中进行映射。
其中的关键技术与难点包括:
如何保证多人在线协同编辑,并且实时更新;
能够支持导入集成使用现有的(结构化)知识;
支持大数据量;
能够支撑时间、时序等复杂知识表达;
可以与自动算法进行结合,避免全人工操作
建模完成后,需要往里面填充相应的知识,这就需要用到知识获取。
4.2 知识获取
从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱,这一过程我们称为知识获取。
上图中的三类数据基本涵盖了我们目前所需要处理的所有数据类型,针对不同种类的数据,我们利用不同的技术进行提取。
从结构化数据库中获取知识:D2R
- 难点:复杂表数据的处理
从链接数据中获取知识:图映射
- 难点:数据对齐
从半结构化(网站)数据中获取知识:使用包装器
- 难点:方便的包装器定义方法,包装器自动生成、更新与维护
从文本中获取知识:信息抽取
- 难点:结果的准确率与覆盖率
4.3 知识融合
已经从不同的数据源把不同结构的数据提取知识之后,接下来要做的是把它们融合成一个统一的知识图谱,这时候需要用到知识融合的技术。
知识融合主要分为数据模式层融合和数据层融合,分别用的技术如下:
a) 数据模式层融合
概念合并
概念上下位关系合并
概念的属性定义合并
b) 数据层融合
实体合并
实体属性融合
冲突检测与解决
由于行业知识图谱的数据模式通常采用自顶向下和自底向上结合的方式,在模式层基本都经过人工的校验,保证了可靠性,因此,知识融合的关键任务在数据层的融合。
举几个知识融合工具的例子:一体化医学语言系统(Unified Medical Language System,UMLS),它提供了一种位于生物医学领域词表之间的映射结构,方便不同术语系统之间能够彼此转换。
另一个例子是Dbpedia知识图谱,依托于维基百科,通过实体链接实现不同语言实体间的映射。
还有zhishi.me,它主要利用识别sameAs关系,将分散在中文三大百科网站(中文维基百科、互动百科和百度百科)中的知识进行融合。
Google在收购了大型知识库Freebase后,对于其众包形式的信息扩展速度仍不满意,因此创建了名为Knowledge Vault的全球最大知识库,通过特定算法自动搜集整编**互联网信息**,再将其融入整体数据库中。
截至2014年,Knowledge Vault的入库信息已达16亿条,其中2.71亿条内容为“事实”(真实性在90%以上)。
Knowledge Vault能够建立历史和社会的模型。
以上简单介绍了目前国内外在知识融合方面的一些项目的基本情况,总结一下知识融合中的关键技术与难点,包括四点:
实现不同来源、不同形态数据的融合
海量数据的高效融合
新增知识的实时融合
多语言的融合
4.4 知识存储
接下来要介绍的是知识存储,图谱的数据存储既需要完成基本的数据存储,同时也要能支持上层的知识推理、知识快速查询、图实时计算等应用,因此需要存储以下信息:
三元组知识的存储
事件信息的存储
时态信息的存储
使用知识图谱组织的数据的存储
其关键技术和难点就在于:
大规模三元组数据的存储
知识图谱组织的大数据的存储
事件与时态信息的存储
快速推理与图计算的支持
4.5 知识计算
知识计算主要是在知识图谱中知识和数据的基础上,通过各种算法,发现其中显式的或隐含的知识、模式或规则等,知识计算的范畴非常大,这里主要讲三个方面:
图挖掘计算:基于图论的相关算法,实现对图谱的探索和挖掘。
本体推理:使用本体推理进行新知识发现或冲突检测。
基于规则的推理:使用规则引擎,编写相应的业务规则,通过推理辅助业务决策。
知识计算涉及到的技术非常多,每一项都需要专门去研究,而且已经有很多研究成果,此处我们先列出关键技术和难点,在下一篇文章中详细介绍:
图挖掘计算
- 大规模图算法的效率
本体推理与规则推理
大数据量下的快速推理
对于增量知识和规则的快速加载
4.6 知识应用
基于知识图谱融合的海量知识和数据,结合上一步的知识计算相关技术,知识图谱可以产生大量的智能应用,比如我们之前提到的企业画像,反欺诈不一致性检测,用户通过自然语言进行搜索等。知识图谱目前的应用很多,这里主要讲三类常见的应用:
语义搜索:基于知识图谱中的知识,解决传统搜索中遇到的关键字语义多样性及语义消歧的难题;通过实体链接实现知识与文档的混合检索。
智能问答:针对用户输入的自然语言进行理解,从知识图谱中或目标数据中给出用户问题的答案。
可视化决策支持:通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口。
这三类的关键技术与难点分别为:
语义检索:
自然语言的表达多样性问题
自然语言的的歧义问题
智能问答:
准确的语义解析
正确理解用户的真实意图
答案确定与排序
可视化决策支持
通过可视化方式辅助用户模式快速发现
高效地缩放和导航
大图环境下底层算法(图挖掘算法)的效率
通过上述分析,我们列举一下行业知识图谱全生命周期中相关的9大关键技术,这些技术保证了行业知识图谱更加规范的数据表示,更强的数据关联,以及能够体现更深邃的数据价值。
4.7 LOD2
当然在行业内,知识图谱的全生命周期管理方面已经有部分现成的套装工具,比如欧盟的LOD2项目,它主要目标是构建结构化链接数据的企业级管理工具和方法学,提供一个搜索、浏览和生成链接数据的平台。
不过LOD2 侧重于链接数据的生命周期管理,其它类型的数据需要首先转换成链接数据,并且LOD2 没有对中文处理的支持。
4.8 Stardog
另一个代表性工具是Stardog,它是一个企业级知识图谱平台,通过把数据转换成知识,使用知识图谱进行组织,对外提供查询、检索、分析服务。其主要特点为:
把关系数据库映射成虚拟图
支持OWL2的推理
支持Gremlin
但 Stardog 的不足之处在于仅包含对结构化数据(RDBMS、Excel等)的处理,没有针对非结构化数据的知识抽取,也没有包含知识融合功能。
总结一下,我们首先从根源介绍了知识图谱的前身及其基础技术规范,其次对生命周期中每个环节进行了简单的概述,以及关键技术和难点总结,最后介绍了两个目前较为主流的知识图谱平台。
根据难易程度,对于如何在行业应用中使用知识图谱,大致有如下几种方式:
使用现有的套装工具(如 LOD2、Stardog)
在现有套装工具的基础上进行扩充:
使用各生命周期过程的相应工具并进行组合使用
针对性开发或扩展生命周期中特定工具
完全从零开始构建
那么究竟使用哪种方式呢?这需要根据不同的数据,以及不同的业务需求进行相应的取舍。
在下一篇文章中,我们会结合自身在PlantData平台里对图谱全生命周期管理的一些探索,深度介绍行业知识图谱全生命周期的关键技术。