随着互联网技术的飞速发展,互联网用户每天都必须面对大量的文本数据。 显然,将文本分类可以帮助用户从大规模文本收集中挖掘有用的信息。 聚类由于其不受监督的特性,是对文本进行分类的最有前途的工具之一。 不幸的是,大多数传统的聚类算法在大规模文本收集上失去了高质量,这主要归因于文本之间的高维向量空间和语义相似性。 为了有效和高效地对大规模文本集合进行聚类,提出了一种基于向量重构的聚类算法。 在簇的代表向量中仅保留可以代表簇的特征。 该算法交替重复两个子过程,直到收敛为止。 一种过程是部分调整子过程,该