|
|
基于改进RI方法的文本聚类 |
熊玮; 白越; 刘爱国; 吴洁洁; 肖建 |
东华理工大学经济与管理学院; 南昌航空大学环境与化学工程学院; 南昌大学信息工程学院 |
|
XIONG Wei;BAI Yue;LIU Aiguo;WU Jiejie;XIAO Jian |
|
摘要 旨在通过考虑特征词汇的潜在语义和自身的重要性来提高文本聚类效果,研究基于RI方法的文本向量表示方法。首先,对基于RI方法构建的特征词汇随机索引向量中+1和-1向量元素出现位置进行约束,以避免在构建特征词汇上下文向量时可能造成该特征词汇潜在语义丢失现象;其次,在生成文本向量时考虑特征词汇自身重要性来改进权值的计算;最后,在测试数据上对基于RI方法的文本向量表示进行聚类效果测试与对比分析,结果表明采用基于RI方法能提高文本聚类效果。
|
|
关键词 :
文本聚类,
RI方法,
特征词汇随机索引向量,
特征词汇上下文向量,
文本向量
|
|
|
|
|