基于N-最短路径的中文词语粗分模型.

排行榜 收藏 打印 发给朋友 举报 来源: 中文信息学报   发布者:张华平
热度1490票  浏览1484次 【共0条评论】【我要评论 时间:2011年4月13日 17:52

7k0N:m#uet/S(c(?u0基于N-最短路径的中文词语粗分模型.

E,D@mLK%y|am0 自然语言处理与信息检索共享平台,I4g/{/XX0O

基于N-最短路径的中文词语粗分模型.pdf(186 KB)自然语言处理与信息检索共享平台6m2mX&YJL.g

q?G'e3p"z3y8jM0引用:张华平,刘群.基于N-最短路径的中文词语粗分模型. 中文信息学报. 2002.9, Vol.16(5):pp.1-pp.7自然语言处理与信息检索共享平台}&K:F"G1X

摘要:预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型, 旨在兼顾高召回率和高效率。在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型。针对人民日报一个月的语料库(共计185,192个句子),作者进行了粗分实验。按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。自然语言处理与信息检索共享平台G{/ca$qy0n#y g

关 键 词:  N-最短路径方法;粗分;中文词语分析;

{N\A/L3SsO"Q ?0

中图法分类号:       TP391.2        文献标识码: A自然语言处理与信息检索共享平台_JkKe,H+]#o

9Ro+pv!?0 自然语言处理与信息检索共享平台3Eql s6m!k WBV*_/K

TAG: 中文
顶:91 踩:98
对本文中的事件或人物打分:
当前平均分:-0.43 (430次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.32 (423次打分)
【已经有448人表态】
62票
感动
45票
路过
53票
高兴
48票
难过
53票
搞笑
62票
愤怒
64票
无聊
61票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】