全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

改进tf-idf算法的文本特征项权值计算方法

Keywords: 文本分类,tf-idf,特征权重,类别区分

Full-Text   Cite this paper   Add to My Lib

Abstract:

?首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数tf-idf(termfrequency-inversedocumentfrequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数tw。其次,通过对特征词的卡方分布和tw作对比实验,验证tw能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将tw与tf-idf结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。

Full-Text

comments powered by Disqus

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133

WeChat 1538708413