论文成果
基于聚类的语料库分词评价方法研究
点击次数:
发表刊物:计算机学报
关键字:分层抽样; 相似性因子; 样本聚类; 评价函数;
摘要:对大规模汉语文本语料库分词正确率的评价提出了新的见解 ,即在分层抽样基础上对文本样本进行聚类 .通过聚类可提高检验精度或减少样本量 .该方法采用了一种新的样本相似性度量公式 ,该公式综合考虑了样本向量间的距离和样本向量各分量之间的线性相关性 .通过对聚类结果的动态评价 ,调整聚类的类别数和相似性因子 ,提高了聚类的效率和质量 .实验表明该方法在评价大规模语料库分词正确率时取得了很好的效果
全部作者:郑家恒
第一作者:宋礼鹏
卷号:2004
期号:2
页面范围:192-196
ISSN号:0254-4164
是否译文:
CN号:11-1826/TP
发表时间:2004-02-01

宋礼鹏

教授 博士生导师 硕士生导师

性别:男

出生日期: 1975-11-09

毕业院校: 中北大学

学历: 研究生(博士)毕业

学位: 博士生

在职信息: 在职

所在单位: 机电与信息工程学院

入职时间: 2020-07-15

办公地点: 知行南楼501A

联系方式: 13593150713

电子邮箱: slp880@sdu.edu.cn

曾获荣誉:

2016-11-01    山西省自然科学奖

版权所有   ©山东大学 地址:中国山东省济南市山大南路27号 邮编:250100 
查号台:(86)-0531-88395114
值班电话:(86)-0531-88364731 建设维护:山东大学信息化工作办公室   
访问量: 手机版 English 登录 山东大学

最后更新时间: ..