功率电感生产厂家
联系我们
热门搜索
点击排行
推荐阅读
猜猜你喜欢的
研发资讯 您所在的位置: 首页 > 研发资讯

基于HowNet的词语相关度计算模型

来源:    作者:    发布时间:2016-08-26 11:53:06    浏览量:

摘 要: 提出了词语相关度模型,作为在数据空间中发现数据源内容关联的一个基础。本模型基于HowNet,可以计算同种词性以及不同词性之间的相关度,融合了词语的相似度、关联度和实例因素,综合获得词语的内在相关性。通过对比实验发现,本模型所计算的词语相关度值更加符合人们主观上对词语相关性的认识。
关键词: 数据空间;HowNet;词语相关度

语义相关度的研究是自然语义处理NLP(Natural Language Processing)的基础,广泛用于语义消歧、信息检索电感镇流器、文本分类、文本聚类等领域。本文将其作为数据空间[1]研究课题的基础性内容来研究,旨在从内容上发现数据空间中的数据源之间的关联。
关于语义相关度的研究在国外较多,目前的方法一般分为两类[2]:一种是统计方法,另一种是基于语义词典方法。Jiang和Conrath利用Wordnet图的上位关系,通过合并概念c1和c2的信息内容以及最小的共同类属者,综合基于边以及结点的技术,再用语料库统计作为辅助因素进行矫正[2];Banerjee和Pedersen在Wordnet的英文语境下,将单词的解释中重叠的单词数量的平方,及含有上下文等关系类型的词语的单词重叠的数量的平方之和,共同作为最后词语相关度的值[2]。
国内在语义相关方面的研究还较欠缺,且大多数选择英文环境,主要基于HowNet、词林、维基百科等知识库[3-5]。参考文献[3]根据知网中的特征文件下位义原和上位义原拥有的属性以及纵向语义联系和实例信息计算词语的相关度。参考文献[4]通过挖掘直接或间接的关系而提出的新的语义相关度计算模型,适用于类似知网的知识体系。总结基于语义词典度量语义相关度所考虑的因素,即最短路径长度、局部网络密度、结点在层次中的深度、连接的类型、概念结点的信息含量以及概念的释义,将上述6个因素归为三大类:结构特点、信息量和概念释义。
本文在综合了参考文献[3]中所提到的基本义原相似度和关联度以及其他相关研究的基础上定义了一个词语相关度算法模型,实现计算同种词性、不同词性词语之间的相关度。
1 知网
中国人民大学的董振东教授等人编写的《知网》以汉语和英语的词语所代表的概念为描述对象,包含丰富词汇,反映概念的共性和个性,是以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
知网中的语义通过义原描述,共有1 618个义原被分成 10大类,每一类都是由一个树结构来存储,而不同类之间的义原构成一个网状结构,它们通过解释义原关联起来。知网中的词语关系类型[6]如表1所示。


2 语义相关度模型
2.1 语义相关概念
定义1 语义相似度是指两个词在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度[7]。
定义2 词语关联度是指词语在概念解释上所存在的语义关系的程度。
定义3 词语相关度是指词语间含有表1中的关系类型或存在词语隐含传递等相互关联的特性,即两个词语相互关联的程度从侧面反映了两个词语在同一个语境中共现的可能性,其影响因素有词语的相似性以及关联性等。
鉴于目前国内还没有对相关度判断的标准和类似的专门人工判断的词集,本实验中对相关度的判断主要从两个方面来界定:一是依据上文的定义;二是通过对比参考文献[3]中相关度的实验结果,改进其中一些明显不合理的实验结果来确认本方法的改进性。
2.2 建立词语语义相关度模型
通过对知网结构的分析,根据如下几个因素计算语义相关度:
(1)词语的相似度
知网中的词语通过一个记录来表示,其中有一项语义表达式DEF对该词语进行描述,语义表达式由概念和义原组成。知网中义原有3个类别,另有一些关系符号对概念的语义进行描述的义原,因此,可以将义原分为基本义原、其他义原、关系义原以及关系符号义原。词语的相似度可以通过这4种义原类型求得。
采用下列方法计算两个词语之间的相似度:将两个词语的语义表达式中的义原抽取出来,计算对应义原类型的相似度。如果某一义原类型的对应项为空,则将任何义原(或具体词)与空值的相似度定义为一个比较小的常数;如果某一义原类型包含多个义原,则将各个义原的相似度加权平均作为该类型义原的相似度[7]。

  • 数字电源与模拟电源的比较与选择一种新技术的引入通常需要一个过渡过程,在这个过程中,用户不断地检验新技术中实际可行的因素和不切实际内容。本文旨在澄清模拟与数字电源管理之间的不同。从多方面考察两种技术差异及其对系统性能的影响。表1、表

  • Q值可调、最大增益恒定的带通滤波器 带通滤波器(BPF)被广泛用于通带非常窄、通带以外任何其它频率被衰减的应用。公式(1)是带通滤波器的二阶带通传输函数:其中,K代表恒定的滤波器增益,Q代表滤波器的品质因数。在H.Martinez e

  • 电源设计小贴士 29:估算热插拔 MOSFET 的瞬态温在本《电源设计小贴士》中,我们将最终对一种估算热插拔 MOSFET 温升的简单方法进行研究。在《电源设计小贴士28》中,我们讨论了如何设计温升问题的电路类似方法。我们把热源建模成了电流源。根据系统组件

  •