全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

一种基于加权lda模型和多粒度的文本特征选择方法

Keywords: 书目信息,加权lda模型,多粒度特征,文本分类,特征选择,利用《知网》和领域关键词集扩展方法的短文本分类研究

Full-Text   Cite this paper   Add to My Lib

Abstract:

?[目的]为改善图书和期刊书目信息的分类性能,结合书目文本的体例结构特点,提出一种基于加权lda模型和多粒度的文本特征选择方法。[方法]在点互信息(pmi)模型的基础上,结合词性、位置等要素修正特征词的权重并扩展至lda的生成模型中,以抽取表意性较强的粗粒度特征;结合tf-idf计算模型采用一定策略获取细粒度特征,基于多粒度特征作为核心特征词集表征书目文本;采用knn、svm等算法实现书目文本的分类。[结果]在自建图书、期刊材料上进行分类实验,与lda方法以及传统特征选择方法相比,该方法分类准确率分别平均提高3.60%和4.79%。[局限]实验材料的数量以及丰富度有待进一步扩展;需探索更多的加权策略模型进行实验,以提高书目文本的分类效果。[结论]实验结果表明,该方法是有效的、可行的,能够提高特征选择后的特征词集对文本的表示能力,从而提高文本分类的准确率。

Full-Text

comments powered by Disqus

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133