使用生成模型进行文本分类来挖掘多个领域的区别和共性近年来，多个域之间的分布差异已被用于跨域文本分类。

文件名称: 使用生成模型进行文本分类来挖掘多个领域的区别和共性

所属分类: 其它

开发工具:

文件大小: 3mb

下载次数: 0

上传时间: 2021-03-18

提供者: weixin_********

下载 (3mb)

不能下载？报告错误

详细说明：近年来，多个域之间的分布差异已被用于跨域文本分类。沿着这条线，我们在这项研究中显示了两个新的观察结果。首先，数据分布的差异通常是由于不同的域使用不同的索引词来表达相同的概念。其次，概念性要素与文档类之间的关联可以跨域保持稳定。这两个观察结果实际上表明了跨领域的区别和共性。受上述观察的启发，我们提出了一种生成统计模型，称为协作双重PLSA（CD-PLSA），以同时捕获多个域之间的域区别和共性。与仅具有一个潜在变量的概率潜在语义分析（PLSA）不同，该模型具有两个潜在因子y和z，分别对应于单词概念和文档类别。共享的公共性与多个领域之间的区别交织在一起，并且还用作知识转换的桥梁。开发了期望最大化（EM）算法来解决CD-PLSA模型，并进一步利用其分布式版本来避免将所有原始数据上传到集中位置，并有助于缓解隐私问题。在训练阶段使用来自多个域的所有数据后，我们建议仅使用相应的本地数据来优化即时输出。总而言之，我们提出了一种用于跨域文本分类的两阶段方法，第一阶段用于对所有数据进行协作训练，第二阶段用于局部优化。最后，我们对数百个具有多个源域和多个目标域的分类任务进行了广泛的实验，以验证该方法相对于现

(系统自动生成,下载前可以参看下载内容)