功率电感生产厂家
联系我们
热门搜索
点击排行
推荐阅读
猜猜你喜欢的
技术知识 您所在的位置: 首页 > 技术知识

最大匹配算法研究

来源:    作者:    发布时间:2016-10-22 06:12:27    浏览量:


(5)使用候选词对词典进行更新。
3 实验
为了提高分词效果,本次实验采用双向匹配算法同时使用n-gram技术来负责词典的更新操作。
由于逆向最大匹配算法比正向最大匹配算法有更高的精度[8],所以本次实验中双向匹配算法的选择策略是:当正向最大匹配分词所分出的词数小于逆向最大匹配算法所分出的词数时,分词结果采用正向最大匹配所得结果;否则使用逆向最大匹配算法所得结果。
本次实验代码采用java编写,分词算法中使用的方法主要有:(1)public StringBuffer result(String s,Set<String> dic)。用一个StringBuffer来存储结果,并返回。参数s表示从待分词文档中读到的行字符串,dic表示词典。(2)public void segment(String max,String s, Set<String> dic)。参数max表示待匹配字符串。(3)public void n_gram()。n_gram的实现,主要使用HashMap<String,Integer>,其中String用来存储词,Integer存储词频。
在未进行词典更新操作之前,对“胡锦涛提出了科学发展观”进行分词操作得到的结果是“胡锦涛/提出/了/科学发展/观”;进行词典更新之后,“科学发展观”成为单独一词,结果为“胡锦涛/提出/了/科学发展观”,说明使用n-gram对词典进行更新的确能起到提高分词效果的作用。
本文首先对最大匹配算法进行了详细的阐述,继而提出最大匹配算法的不足之处,即对词典依赖程度过大,词典的好坏直接决定了分词的质量。为解决贴片电感该问题,提出使用n-gram技术来进行词典的自我更新,提高词典质量,从而提高最大匹配算法分词效果。通过实验验证了该方法的可行性。但是仍有不足之处:第一是对用来更新词典的语料库要求较高,语料库必须具有代表性,能包含当前社会所使用的主流词语;其次语料库必须足够大才能得到更好的效果;再次更新词典对计算机性能消耗较大,必须选择合理的时间进行更新操作。
参考文献
[1] 周宏宇,张政.中文分词技术综述[J].安阳师范学院学报,2010(2):54-56.
[2] 刘春辉.基于优化最大匹配的中文分词方法研究[D].秦皇岛:燕山大学,2009.
[3] 林浩,韩冰,杨乐华.一种基于改进最大匹配快速中文分词算法[J].科技创新导报,2009(9):248.
[4] 赵源.基于最大匹配的中文分词改进算法研究[J].科技信息,2010(35):487,496.
[5] 王瑞雷,栾静,潘晓花,等.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197.
[6] 吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311.
[7] 李文,洪亲,滕忠坚,等.基于n-gram的字符串分割技术的算法实现[J].计算机与现代化,2010(9):85-87.
[8] 张磊,张代远.中文分词算法解析[J].电脑知识与技术,2009,5(1):192-193.

  • 超越智能的触摸传感解决方案电容式的感应产品正在以非常快的速度进入触摸感应的整体技术市场。据预测显示,2011年的单年触摸感应半导体需求将达到30亿美元。到2011年仅手机应用中的触摸感应份额将增长到4亿件。这是一个非常可观的数

  • 基于双管正激的模块电源设计高功率密度、高效率以及小外型尺寸已成为当前模块电源技术发展的关键驱动力。双管正激电路是实现这些要求的实用电路之一,被广泛应用在中、高功率电源设计中。本文简要介绍了双管正激电路的工作原理及优点,同时详细

  • 便携式功率分析仪设计-----硬件设计(三)3.3.4.2可变增益放大器由于在信号调理通道上使用了具有较大衰减的无源衰减网络,为动态调整A/D的采样范围,我们在A/D采样模块之前加入一个可变增益放大器,以达到对微小信号或过大信号仍然能够进行采样

  •