%0 Journal Article %T 利用《知网》和领域关键词集扩展方法的短文本分类研究 %A 李湘东 %A 曹环 %A 丁丛 %A 黄莉 %J 现代图书情报技术 %D 2015 %X ?[目的]实现短文本特征扩展,提高短文本分类性能。[方法]按照特征词和隐含主题两种特征粒度,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布,将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。[结果]与lda模型的短文本分类算法相比,本文提出的分类算法在复旦语料、sogou语料和微博语料上的macro_f1分别平均提高4.9%、5.9%和4.2%,在micro_f1上分别平均提高4.6%、6.2%和2.8%。而与vsm的短文本分类算法相比,本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。[局限]短文本中存在很多《知网》未收录的特征词,无法利用《知网》计算相似度,影响分类效果。[结论]本文方法能有效提高短文本分类性能。 %K 短文本分类 %K 关键词集 %K lda %K 特征扩展 %K 知网 %K 词语位置加权textrank的关键词抽取研究 %U http://www.infotech.ac.cn/CN/abstract/abstract4011.shtml