%0 Journal Article %T 改进tf-idf算法的文本特征项权值计算方法 %A 路永和 %A 李焰锋 %J 图书情报工作 %D 2013 %X ?首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数tf-idf(termfrequency-inversedocumentfrequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数tw。其次,通过对特征词的卡方分布和tw作对比实验,验证tw能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将tw与tf-idf结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。 %K 文本分类 %K tf-idf %K 特征权重 %K 类别区分 %U http://124.16.154.130:8080/lis/CN/abstract/abstract12873.shtml