您好,欢迎光临本网站![请登录][注册会员]  
文件名称: \"Tag-TextRank:一种基于Tag的网页关键词抽取方法\"分享总结
  所属分类: 其它
  开发工具:
  文件大小: 1022kb
  下载次数: 0
  上传时间: 2019-04-20
  提 供 者: weixin_********
 详细说明:NULL 博文链接:https://snv.iteye.com/blog/1886969在 Wikipedia中的实体,并且算法的复杂度很高。另外,国内一些学者lm2也开展了关键 词提取的研究。实际上,从上面的工作,我们可以得到这样的基本结论:基本的R特征可 以找到部分关键词,而加入用户信息或者领域知识可以进一步提高关键词抽取效果。 本文利用Tag信息来提高关键词的抽取效果。近年来,Tag数据作为·种新的资源, 其挖掘和利用已经成为信息检索、社区发现等领域的研究热点。从数据质量上讲,Iag数 据存在噪音,但是大量用户的Tag信息可以反映文本内容。另外,具有相同Tag的文档在 内容上的相似性可以作为一种额外资源来辅助提高估计精度,这也是本文的出发点。 3Tag特点分析 为了利用信息来发现文档之间的关联,我们对用户标注的行为进行了统计, 主要是分析用户对某个网页标注的中是否至少有一个也是对其他网页的标注结果。如 果结论为是或者大部分情况下都成立的话,那么就可以对目标网页进行扩充。为此,我们 使用了一个公开的数据集,它是通过爬取 网站内容构建的,包括用户 三元组的集合。这个数据集包括 三元组、 个不同的用户以及 个互不重复的网页 在用户数上的分布 我们统计了在不同用户数目下的网页分布情况。具体地,我们从上面的所有 集合中随机抽取了约的进行统计,统计结果如下图所示 图1URL在用户数上的分布 图显示了数与用户数之间呈指数分布 的关系,随着用户数的增加, 数急剧减少,可以看到,只有少数拥有大量的用户,而绝大部分只有很少 的用户对其标注。具体地,有的,对其标注的用户数少于。直观上说,对网页 标注的用户数越多,那么越可能找到相关的 对于那些拥有很少用户并且占所有网贞 很大比例的,是否可以找到相关的,这决定了基于进行扩展的方法的适用范 围。 可以扩展的的比例 这里,我们着重分析那些少量用户标注的 它们可以通过来扩展相关 的比例,相关和原始要扩展的共享同样用户及。我们从中的数据抽取了 个样本,每个样本有个,样本按照用户数进行分类,用户数从到 统计结果如下图所示: 451 图2不同用户的URL可以进行扩展的比例 从图可以看出,随着用户数的增加,可以进行扩展的的比例在增大,即 使拥有的用户数为,也有超过的可能性找到相关的这表明,大多数 都可以找到与其内容相关的,这也验证了基于扩展相关的方法有很好的通 用性。 4基于Tag的关键词抽取 首先我们给出基于的关键词抽取的形式化定义,即给定网页,假定其对应的用 户标注信息为< >,我们的目标是从中抽取排名最高的个如-关键词 为了解决这个问题,我们首先基于词与词在网页中的共现构建一个词项图。具体地 可以通过设定一个窗口大小,然后将出现在窗口中的任意两个词之间增加一条边。基于图 的排序方法经过迭代可以得到词项的重要度。在 中,不考虑边的权重,认为任意 两个词之间的关联度是相同的。但实际上,在不同主题下,词与词之间的关联度可能是不 同的。比如在一篇讲机器学习的文章中,“ 和 ”的关联度会很高,而在 训如何操作机器的文章中,他们的关系要弱一些。作为一种高层语义信息反映了文档 的主题。对于一个确定的,用户标过的相关网页可以作为额外的信息来估计在该主题 下,词项间的关联度,这种全局关联度可以作为边的权重来影响最后的结果 这样对每个,都可以得到一个词项重要度的排序结果,最后网页关键词的获得可 以认为是要综合多个排序结果。这可以看作是·个数据融合 的问题。 E C D B B A BCDEA B E C D 原始文档 司项图不同T词项重 最后的词项 重要度排序 图3基于Teg的关键词抽取的流程 452 图给出了基于信息进行关键词抽取的框架。实际上,通过引入的相关文档 本质上是一种额外的资源,如何利用这些资源进行关键词抽取还可以采用其它方法,比如 提到的构建更大规模的图。只体的,我们在这里重点探索该资源对词项相关度的估计。 下面给出了 算法的步骤: 根据要抽取的文档中词的相邻关系,构建词项图。 对于上的每个 是文档的集合: 找到相关文档集合,相关文档是指与共享相同及用广的文档。在 上计算每条边 的权重 即词项与的关联度 在上运行 获得节点的收敛值,输出词项重要度排序结果 合并∈,生成最终关键词列表 词项间关联度 词项关联度计算,可以借鉴查询扩展领域的上作。常用的基于统计的方法同吋考虑两 个词共现及每个词单独出现的次数。常用的指标包括互信 x统计量,系数。前两个指标涉及到窗口总数,而系数计算与窗口总 数无关。这里,我们分别使用x及系数米计算词项关联度。计算公式如下 x 上表中,表示总窗口数,为词项及词项共现的窗口数,为出现的窗口数, 为出现的窗口数 与窗口大小设置有关。也可以忽略窗口,从文档层次上 统计,即统计 出现的文档数 词项排序 通过在的相关文档上计算词项闩的关联度,最后构建的词项图为加权无向图。对 于无向图的计算,可以将每条边看作是有两个方向的有向图,这样可以运行 算法。 考虑边的权重,使用的迭代公式为 元+2∑ 其中 为节点的权重,为到的权重,为指向的节点集合 为指出去的节点集合。 结果融合及重排序 结果融合的提出最早是要解决如何合并来自多个检索系统给出的文档序。类似的,这 里要给出词项序的合并结果,考虑到在不同下词项得分值之间不具有可比性,所以我 们的输入信息主要是词项序信息。提到一种基于序倒数的合并方法 453 其中是在下计算得到的词项排序结果 是词项在中的序 个公式考虑∫同一词项在多个排序结果中的序,排名一致高的词最后的得分也最高。 宗上,算法涉及到主要参数包括:在抽取文档上构建图所没的窗口大小,在上 统计词项频率所设的窗口,关联度指标 算法中的λ使用默认值 5实验 我们使用了 所发布的一个公开语料用于验证 方法效果。参 照中的实验方法,我们选择上述语料的博客文章作为最终扯取关键词的目标网页。 具体地,我们随机选取了技术博客网站 中的篇博文进行了实验。在中提到 个查询上的实验结果只有统计意义,而这里博文充当的就是查询的角色。实验过栏中, 我们对网页进行止文抽取。经过处理,每篇要抽取的文档平均包含个,在每个 下可以找到的相关文档数平均为篇。 我们对上述篇文章进行了人工标注,标注时采用了一种类似于信息检索评价中缓冲 的方法。具体地,我们对要评价的系统不同参数,冬取排在最前面的λ个词 进行求并构成,然后将这些词提供给标注者诖行标注。在我们的实验中,共有个标 注者参与了此次标注,最后的标注共产生∫个关键词,平均每篇文档关键词数目为 个,略高」每篇个关键词的最终标注要求,这主要为了癌免因为语言差异而导致的关键 词遗漏问题。实验中λ取。 系统输岀的结果和人工标注的结果进行比较,采用的评价指标为正确率、召回率及 值。具体计算公式如下 人工标注的关键词⌒系统的关键词 系统的关键词 人工标注的关键词∩系统的关键词 人标注的关键词 实验结果及分析 我们分别实现了 三种方法。参数分别取、 、、,而取值分别为、、和。词项间关联度计算考虑∫与 统计量两种方法。对于每一种关联度计算,与的组合会产生 次运行结果 表列出了三种方法的关键词抽取效果。对 方法,我们列出了在给定参 数的情况下,可以达到的最大值及其对应的参数。 从表可以看出,当词项关联度计算使用系数时, 的效果要明显好 于 ,这说明合理估计词项关联度对最后关键词抽取的作用,同吋也衣明使用 的相关文档进行词项关联度估计的合理性。但是基于 x统计量并没有明显的提 高,可能是因为该指标考虑了所有窗口数,而该窗口数会影响词项间关联度的计算 参数 是进行词项关联度计算的一个重要参数,较大,考虑的词项关联范围也越大, 454 些关联弱的词项可能会被增强,从而带米噪音。较小,对于图中的边即词项对,它们 共现关系很难被捕捉到,从而降低词项关联度估计的准确性。为此,我们考察在使用 系数度量词项关联,对于相同值,不同对抽取结果的影响。从表中,可以看出 般取效果最好 表1ag1 extRank与 extRank,T*D的比较 方法 参数 xxxx 表2不同对F值的影响 文档级別 6总结 本文给出了一种利用信息对网页进行关键词抽取的框架和方法。由于可以表 小用户对文章的理解,反映文章的主题,因此信息可以作为一种弱的指导来辅助进行 关键词抽取。我们根据数据对目标网页进行扩展,然后在扩展后的网页上估计词项间 455 的关联度。我们贡献在于首次利用用户对网页的标注信息进行关键词抽取,最后的输出结 果同时考虑了文档表达的多个通过体现的主题。 实验结果表明, 继承了 无监督学习不需要人工标注的优点,但 是效果要好于后者。同吋,前面的统计也衣明大部分拥有的网页可以找到相关网页, 这也说明我们的方法有很好的推性。 在未来的工作中,我们会尝试评价的重要性及用户的权威度,从而选择高质量相 关文档来进行关键词抽取,同时,相关网页的引入会带来计算效率问题,如何进行性能优 化也是下一步研究的方向。 参考文献 李素健工厚峰俞士汶辛乘胜关键词自动标引的最大熵模型应用研究计算机学报 杨洁季铎蔡东风代翠基于 的多文档关键词抽取技术第四届全国信息检索与内容安全 学术公议 456
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 输入关键字,在本站1000多万海量源码库中尽情搜索: