功率电感生产厂家
联系我们
热门搜索
点击排行
推荐阅读
猜猜你喜欢的
技术知识 您所在的位置: 首页 > 技术知识

最大匹配算法研究

来源:    作者:    发布时间:2016-10-22 06:12:27    浏览量:

摘 要: 最大匹配算法是中文分词中最常用的方法,但其有着过分依赖于词典的弊端。对最大匹配算法进行了深入探讨与研究,使用n-gram技术更新词典解决其弊端,从而提高分词效果。最后通过双向匹配算法与n-gram相结合的实验验证了该方案的可行性,并对该方案进行了总结。
关键词: 中文分词;最大匹配;n-gram;词频;双向匹配

作为计算机信息处理中最基础、最关键的技术,中文分词一直是人们研究的热点。中文分词就是将连续的汉字序列按照一定的规律分割成一个个单独的词的过程[1]。在英文句子功率电感器生产厂中,单词之间是以空格作为自然分界符的,所以英文分词比较简单;而中文以字为基本单位,将一序列字串联在一起形成句子,从而表达意思,中文的句和段能通过明显的分界符来划分,但是词没有一个形式上的分界符,所以中文分词比英文分词相对困难许多。中文分词方法总结起来大致可分为三大类:基于词典直接匹配的分词方法、基于规则和理解的分词方法和基于统计模型的分词方法[2]。本文主要讨论基于词典匹配算法中的最大匹配算法,针对其过分依赖词典这一弊端进行了探讨并提出了对策。
1 最大匹配算法
最大匹配算法是最常用也是最基本的字符串匹配算法之一。它能够保证切分出来的词长度最大,同时易于实现[3]。最大匹配算法包括正向最大匹配算法、逆向最大匹配算法和双向最大匹配算法。
1.1 正向最大匹配算法
正向最大匹配算法流程[4]如图1所示。

以“中华人民共和国简称中国”为例,设定取词长度n为8,待匹配字符串为s,按照上述步骤处理过程为:
(1)s为“中华人民共和国简”,查找词典进行匹配操作,发现没有该词;
(2)s去掉最后一个字,变为“中华人民共和国”,查找词典进行匹配操作,发现该词,将该词存入结果文档中;
(3)更新s,发现剩余的字“简称中国”长度不足8,所以s为“简称中国”,查找词典进行匹配操作,发现没有该词;
(4)s去掉最后一个字,变为“简称中”,查找词典进行匹配操作,发现没有该词;
(5)s去掉最后一个字,变为“简称”,查找词典进行匹配操作,发现该词,将其存入结果文档中;
(6)更新s,发现剩余的字“中国”长度不足8,所以s为“中国”,查找词典进行匹配操作,发现该词,将其存入结果文档中;
(7)更新s,发现s为空,至此分词操作结束。
分词结果为“中华人民共和国/简称/中国”。
1.2 逆向最大匹配算法
逆向最大匹配算法与正向最大匹配算法流程相似[5],只是取词操作与待匹配字串更新操电感生产厂家作不同。逆向最大匹配算法从文档末尾开始进行取词,匹配不成功删除的是待匹配字符串的第一个字而不是最后一个。
1.3 双向最大匹配算法
将正向最大匹配算法与逆向最大匹配算法相结合所产生的算法即是双向最大匹配算法,它能够选取正向最大匹配算法和逆向最大匹配算法中分词效果较好的一方,以提高分词效果。
1.4 最大匹配算法的问题
最大匹配算法存在以下问题:(1)待匹配字符串最大长度的设定困难,过长易造成效率低,过短则造成分词不精确;(2)对词典依赖程度过大,分词效果取决于词典。
2 n-gram技术


随着时间推移,肯定有大量新词产生。为了丰富词典,本实验采用n-gram技术扩充词典。n-gram就是对一个字序列进行分割,分割产生的字符串是该字序列的子串[6]。例如:对“中华人民共和国简称中国”进行n-gram 2元切分,得到2元组:中华|华人|人民|民共|共和|和国|国简|简称|称中|中国。
本实验中,n-gram扩充词典步骤[7]如下:
(1)选择语料库,本次实验选择2010年10月14日~18日参考消息作为预料库;
(2)对语料库进行预处理,将数字、标点、字母等全部删掉,只剩下汉字;
(3)进行切分并统计词频,本次实验最大词长为8,所以切分为2元组至8元组,词频统计如表1所示。

(4)选取候选词。如图2所示,根据观察,当设置使用词频大于5的词作为候选词时,可靠性较高。所以本次实验设定候选词的词频数大于5。

  • 超越智能的触摸传感解决方案电容式的感应产品正在以非常快的速度进入触摸感应的整体技术市场。据预测显示,2011年的单年触摸感应半导体需求将达到30亿美元。到2011年仅手机应用中的触摸感应份额将增长到4亿件。这是一个非常可观的数

  • 基于双管正激的模块电源设计高功率密度、高效率以及小外型尺寸已成为当前模块电源技术发展的关键驱动力。双管正激电路是实现这些要求的实用电路之一,被广泛应用在中、高功率电源设计中。本文简要介绍了双管正激电路的工作原理及优点,同时详细

  • 便携式功率分析仪设计-----硬件设计(三)3.3.4.2可变增益放大器由于在信号调理通道上使用了具有较大衰减的无源衰减网络,为动态调整A/D的采样范围,我们在A/D采样模块之前加入一个可变增益放大器,以达到对微小信号或过大信号仍然能够进行采样

  •