|
图书情报工作 2013
改进tf-idf算法的文本特征项权值计算方法Keywords: 文本分类,tf-idf,特征权重,类别区分 Abstract: ?首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数tf-idf(termfrequency-inversedocumentfrequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数tw。其次,通过对特征词的卡方分布和tw作对比实验,验证tw能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将tw与tf-idf结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。
|