功率电感生产厂家
联系我们
热门搜索
点击排行
推荐阅读
猜猜你喜欢的
研发资讯 您所在的位置: 首页 > 研发资讯

基于HowNet的词语相关度计算模型

来源:    作者:    发布时间:2016-08-26 11:53:06    浏览量:

第一基本义原即主要特征义原,两个词语的这一部分的相似度采用式(1)计算:

关系义原即对应于所有关系义原描述式,其值是一个特征结构,记为:sim3(p1,p2)。
关系绕线电感生产加工符号义原即对应于关系符号描述式,其值是一个特征结构,记为:sim4(p1,p2)。
于是,两个概念(义项)语义表达式的整体相似度为[6]:

(3)实例因素
实例因素模型即义项的实例单词的集合,实例因素对相关度的影响[3]:


从表2可知,“中国”和“美国”在参考文献[7]中的相似度特别高。主要是它用其距离的倒数作为其第一义原,会出现分类不明确的情况,本文采用的S型激活函数所划分的区域,分类比线性划分精确合理,所计算值也更合理。“男人”和“父亲”的相似度为1,“香蕉”和“苹果”也为1,显然太过粗糙,这种划分分类的方法确实存在着许多缺陷,且算出的值在客观事实之外,本文通过修改第一义原的定义和计算,所得出的相似度分别为0.408 88和0.525 797,相比而言更合理。
上述实验都是同种词性的相似度,而相似只是相关的一个方面,故而进行下面实验,进一步量化同种词性和不同词性之间的相关度,通过对比参考文献[3]的结果进行说明。结果如表3所示。
由表3可以看出,用参考文献[7]所述方法算出的相似度比较粗糙,例如面包和报纸的相似度比面包和苹果的相似度还要高,这显然不太合理,在义原树中,仅仅考虑语义距离,确实“面包”和“报纸”的距离更近,分析发现,这是因为没有考虑义原关联度原因导致的,而本文计算出来的结果对比参考文献[7]和参考文献[3],结果更合理些。

在参考文献[3]的结果中,“面包”和“巧克力”的相关度为1,这显然与事实不符,通常认为相关度为1是完全相关,趋于同一个事物,虽然这两个词语同属于“食品”范畴,关联度方面确实很大,可是相似度方面却相差甚远,因此其相关度值不可能为1。此外,对事物的看法倾向于一个动宾方式,“削”和“皮”与“削”和“刀&rdquo插件电感器生产厂家;,后者的搭配中表明用“刀”进行“削”,但是也存在用别的东西来“削”,而“削皮”这个搭配在人的直观认知中应该更加相关,故而“削”和“皮”的相关度应该更甚于“削”和“刀”,在本文方法中前者为0.096 533,后者为0.058 880,也符合习惯使用上对相关度的主观判断。另外经分析可以看出,本文方法计算出来的数值都会偏小一些,且不会出现极端值问题,比较平稳,从整体上改进了参考文献[3]中的实验结果。
实验所存在的不足是结果对比不够明显,只是改进了偏差比较大的结果,其原因有两方面,一是对于相关度的度量确实是一个比较主观的做法,且目前没有基于统计的相关度的判断标准,因此很难从微观上细小地区分方法的优劣;其次,知网本身有待进一步完善和补充外,通过义原的相似度(相对稀疏的层次结构)来反映大量词语之间的相似度(相对密集)的方法本身是否存在一定的上限还需要进一步深入研究,且许多词语的编撰的定义项存在着一些不完整的方面。
本实验通过自适应的参数来进行调整,没有固定权值,考虑到的是动词间、名词间以及名词之间和动词间,其所侧重的因素不同,如名词之间的相关度计算,相似度占的比重更大,而在动词和名词间,相似度比重应该较小,关联度应占更大的比重,这样才更加合理,因此,自动调整好各参数,偏向各自比较侧重的因素,以便获得更好的效果。
词语的语义相关度研究在国内并不多,本文以知网为知识库,在参考文献[3]的基础上改进算法模型,以此提出的相关度模型所得出的结果比较符合人类主观上对相关度的认识。

  • 数字电源与模拟电源的比较与选择一种新技术的引入通常需要一个过渡过程,在这个过程中,用户不断地检验新技术中实际可行的因素和不切实际内容。本文旨在澄清模拟与数字电源管理之间的不同。从多方面考察两种技术差异及其对系统性能的影响。表1、表

  • Q值可调、最大增益恒定的带通滤波器 带通滤波器(BPF)被广泛用于通带非常窄、通带以外任何其它频率被衰减的应用。公式(1)是带通滤波器的二阶带通传输函数:其中,K代表恒定的滤波器增益,Q代表滤波器的品质因数。在H.Martinez e

  • 电源设计小贴士 29:估算热插拔 MOSFET 的瞬态温在本《电源设计小贴士》中,我们将最终对一种估算热插拔 MOSFET 温升的简单方法进行研究。在《电源设计小贴士28》中,我们讨论了如何设计温升问题的电路类似方法。我们把热源建模成了电流源。根据系统组件

  •