OpenKN——网络大数据时代的知识计算引擎 _ 36大数据

2017/1/8 OpenKN——网络大数据时代的知识计算引擎 | 36大数据输入关键字搜索 OpenKN——网络大数据时代的知识计算引擎 (http://www.36dsj.com/archives/18644)  Optimus Prime  2014-12-17 18:00:11  干货教程 (http://www.36dsj.com/archives/category/ganhuo)  评论(0) 近年来，互联网技术和应用模式的快速发展在改变人们生活方式的同时也产生了巨大的数据资源。预计到2020年，全球的数据总量将达到35ZB(1ZB=270B)，其中75%来自个人（主要是图片、视频和音乐），远远超过人类有史以来所有印刷材料的数据总量(200PB1)。随着互联网、物联网、云计算等技术的迅猛发展，网络空间(cyberspace)中各类应用层出不穷，引发了数据规模的爆炸式增长，形成了网络空间的大数据（简称网络大数据）。网络大数据中包含大量有价值的数据，根据其产生方式的不同可分为Web内容数据、Web结构数据、自媒体数据、日志数据等。如何从网络大数据中获得有价值的知识，并对其进行深入的计算和分析，已成为国内外工业界和学术界研究的热点。目前，世界各个组织建立的知识库多达50余种，相关的应用系统更是达到了上百种。其中，有代表性的知识库或应用系统有Kno wItAll, TextRunner, NELL, Probase, Satori,PROSPERA, SOFIE以及一些基于维基百科等在线百科知识构建的知识库DBpedia, YAG,Omega, WikiTaxonomy。除此之外，一些著名的商业网站、公司和政府也发布了类似的知识搜索和计算平台，如Evi公司的TrueKnowledge知识搜索平台2、美国官方政府网站Data.gov, Wolfram的知识计算平台WolframAlpha、谷歌的知识图谱KnowledgeGraph、脸书(Facebook)推出的实体搜索服务Graph Search等。就规模而言，拥有概念最多的知识库是Probase，目前其核心概念约有270万个，概念总量达到千万级。它是基于概率化构建的知识库，支持针对短文本的语义理解。包含实体最多的是W olframAlpha，有10万亿个实体。近年来，影响力比较大的知识库或知识搜索服务有谷歌的知识图谱，包含5亿个实体对象和350亿条实体间的关系信息，而且规模也在随着信息的增长不断增大。除此之外，比较有特色的还有国内搜狗知立方系统，侧重于基于图的逻辑推理计算，包括利用语义网的三元组推理补充实体数据、对用户查询词进行语义理解以及句法分析等。本文将提出一种面向网络大数据的、开放的、自适应的、可演化的、可计算的知识计算引擎——OpenKN。 http://www.36dsj.com/archives/18644 1/12 2017/1/8 OpenKN——网络大数据时代的知识计算引擎 | 36大数据 OpenKN的整体架构图1描述了OpenKN作为计算引擎的主要架构。OpenKN主要由知识库构建(knowledge base construction)、知识验证与计算(knowledge validation and verification, knowledgecomp utation)、知识存储(knowledgerepositories)、知识服务与应用(knowledge services andap plication)4个模块组成。这些模块实现了一个全生命周期的知识处理，从知识获取、知识融合、知识验证与计算、知识存储到知识服务与应用的知识处理工作流程。 http://www.36dsj.com/archives/18644 2/12 2017/1/8 OpenKN——网络大数据时代的知识计算引擎 | 36大数据知识库的构建　知识库的构建从逻辑角度讲，包括知识获取和知识融合两个方面。其中知识获取的主要目的是从开放网页、在线百科和核心词表等数据中抽取概念、实例、属性和关系。知识融合的主要目的是实现知识的时序融合和多数据源融合。 http://www.36dsj.com/archives/18644 3/12 2017/1/8 OpenKN——网络大数据时代的知识计算引擎 | 36大数据图2进一步描述了知识库构建的思路。 OpenKN构建的知识库包含两部分： (1)存储众所周知的常识性知识的通用基础库(general foundation base)，这些知识可从维基百科等在线百科中直接抽取获得。 (2)特定领域的知识库，从左至右依次为领域1到领域n。基于每一个领域知识的特点不同，每一个特定领域知识库又可进一步划分为三部分：导出的通用基础库 (induced GFB)、领域基础库(domain foundation base)和领域网络库(domain Web base)。具体地讲，导出的通用基础库是指从常识知识中选取的和领域相关的知识构成的知识库。领域基础库是用来描述领域相关的其他基本知识。领域基础库中的知识主要来自领域字典、核心词汇表等。为了获取当前最新最实时的领域知识，领域网络库用来从开放的互联网网页中抽取领域相关的最新知识。在图2中，橙色点和黑色点代表从网页中抽取获得的知识，点之间的边代表知识间的关联关系。随着网页数量的不断增加和内容的不断更新，领域知识库可实现自适应增长(self-grew)。上述这些知识库的构建共同完成知识获取的全过程。此外，我们利用已有的公开知识库，如Fr eebase,YAGO等实现了知识融合。在完成OpenKN的知识库构建工作后，我们得到的知识称为显式的知识。知识计算　 http://www.36dsj.com/archives/18644 4/12 2017/1/8 OpenKN——网络大数据时代的知识计算引擎 | 36大数据除了显式的知识，通过OpenKN的知识计算功能，包括属性计算、关系计算，实例计算等，我们还可以进一步获得隐式的或推断的知识。知识验证与处理　为了检验显式知识和隐式知识的完备性、相关性与一致性，我们需要对知识进行校验，这称为知识验证过程。主要是专家或特定的知识计算方法检查冗余的、冲突的、矛盾的或者不完整的知识。知识存储　经过验证的海量知识，在OpenKN里存储在一个基于图的数据库 (Graph DataBase,GDB)以及关系数据库中。其中，GDB中存储的是显式的知识，关系数据库中存储的是隐式的知识。GDB 作为大数据存储基础设施，支持大于100亿条知识的存储。与传统的数据库模型（Neo4j, Tita n）相比，GDB通过定义点和边的图数据模型来存储知识，这里的点和边都有各自唯一的ID并且支持一系列的多值属性。GDB描述了一个与现有的图模型不同的异构网络，称为可演化知识网络。 OpenKN的两个主要特征——自适应性和可演化性，加在一起诠释了OpenKN的“Open”的含义。 OpenKN的自适应性 OpenKN的自适应性主要体现在自适应知识演化处理和自适应知识获取策略两个方面。如图3 所示，自适应知识演化处理用来描述知识演化的规律，它分为知识库的自我更新和与其他知识库的句法——语义级融合两个阶段。在自我更新阶段，知识演化通过作用在知识库上的两个基本运算和一系列的规则完成，即逻辑加⊕和逻辑乘⊙运算，以及一系列基本的规则。这些规则被用于本源知识库(primitive KB)上的演化。这里的本源知识库定义为不可以被其他知识库通过逻辑加和逻辑乘来表示的知识库。如果我们把所有知识库组成的集合定义为一个向量空间，那么根据线性代数的基本知识，这些本源知识库实际上构成了该线性空间的一组基。对于向量空间的若干术语，可参考文献。另一方面，对于两个不同知识库的融合可分为两个操作，语义级的融合S⊕和句法级的融合T⊕。自适应知识获取策略的主要目的是获取随时空演化的动态知识。 http://www.36dsj.com/archives/18644 5/12