当前位置:首页 > 科技文档 > 软件 > 正文

汉语词性标注的特征工程

山东大学学报(工学版) 页数: 6 2011-12-16
摘要: 上下文特征对汉语词性标注性能有重要影响。为了提高标注性能,采用最大熵模型探讨了汉语词性标注的特征工程,对其中的两个关键问题:特征窗口大小和特征模板集的设定,本文作者进行了深入研究。在Bake-off2007的PKU、NCC、CTB 3种语料上进行了封闭测试,通过对"5词语"和"3词语"不同大小的特征窗口,以及单词语、双词语和两者混合的不同特征模板集进行汉语词性标注的训练过程和标注精度的对比实验,实验结果表明:3词特征窗口训练情况和标注性能均优于5词窗口;单词语特征模板集比双词语特征模板集标注性能高出10%。这说明汉语词性标注中特征窗口开设的大小以3词窗口为宜,单词语特征模板集标注性能更好。 (共6页)

开通会员,享受整站包年服务
说明: 本文档由创作者上传发布,版权归属创作者。若内容存在侵权,请点击申诉举报