- 基于聚类的语料库分词评价方法研究
- 点击次数:
- 发表刊物:计算机学报
- 关键字:分层抽样; 相似性因子; 样本聚类; 评价函数;
- 摘要:对大规模汉语文本语料库分词正确率的评价提出了新的见解 ,即在分层抽样基础上对文本样本进行聚类 .通过聚类可提高检验精度或减少样本量 .该方法采用了一种新的样本相似性度量公式 ,该公式综合考虑了样本向量间的距离和样本向量各分量之间的线性相关性 .通过对聚类结果的动态评价 ,调整聚类的类别数和相似性因子 ,提高了聚类的效率和质量 .实验表明该方法在评价大规模语料库分词正确率时取得了很好的效果
- 全部作者:郑家恒
- 第一作者:宋礼鹏
- 卷号:2004
- 期号:2
- 页面范围:192-196
- ISSN号:0254-4164
- 是否译文:否
- CN号:11-1826/TP
- 发表时间:2004-02-01