© 1999-2048 dssz.net 粤ICP备11031372号
[其它] 使用生成模型进行文本分类的跨领域挖掘区别和共性
说明:近年来,多个域之间的分布差异已被用于跨域文本分类。 沿着这条线,我们在这项研究中显示了两个新的观察结果。 首先,数据分布的差异通常是由于不同的域使用不同的索引词来表达相同的概念。 其次,概念性要素与文档类之间的关联可以跨域保持稳定。 这两个观察结果实际上表明了跨领域的区别和共性。 受以上观察的启发,我们提出了一种生成统计模型,称为协作双重PLSA(CD-PLSA),以同时捕获多个域之间的域区别和共性。 与仅具有一个潜在变量的概率潜在语义分析(PLSA)不同,该模型具有两个潜在因子y和z,分别对应<weixin_38565818> 上传 | 大小:3mb