\"Tag-TextRank：一种基于Tag的网页关键词抽取方法\&quo

文件名称: \"Tag-TextRank：一种基于Tag的网页关键词抽取方法\"分享总结

所属分类: 其它

开发工具:

文件大小: 1022kb

下载次数: 0

上传时间: 2019-04-20

提供者: weixin_********

下载 (1022kb)

不能下载？报告错误

详细说明：NULL 博文链接：https://snv.iteye.com/blog/1886969在 Wikipedia中的实体,并且算法的复杂度很高。另外,国内一些学者lm2也开展了关键词提取的研究。实际上,从上面的工作,我们可以得到这样的基本结论:基本的R特征可以找到部分关键词,而加入用户信息或者领域知识可以进一步提高关键词抽取效果。本文利用Tag信息来提高关键词的抽取效果。近年来,Tag数据作为·种新的资源, 其挖掘和利用已经成为信息检索、社区发现等领域的研究热点。从数据质量上讲,Iag数据存在噪音,但是大量用户的Tag信息可以反映文本内容。另外,具有相同Tag的文档在内容上的相似性可以作为一种额外资源来辅助提高估计精度,这也是本文的出发点。 3Tag特点分析为了利用信息来发现文档之间的关联,我们对用户标注的行为进行了统计, 主要是分析用户对某个网页标注的中是否至少有一个也是对其他网页的标注结果。如果结论为是或者大部分情况下都成立的话,那么就可以对目标网页进行扩充。为此,我们使用了一个公开的数据集,它是通过爬取网站内容构建的,包括用户三元组的集合。这个数据集包括三元组、个不同的用户以及个互不重复的网页在用户数上的分布我们统计了在不同用户数目下的网页分布情况。具体地,我们从上面的所有集合中随机抽取了约的进行统计,统计结果如下图所示图1URL在用户数上的分布图显示了数与用户数之间呈指数分布的关系,随着用户数的增加, 数急剧减少,可以看到,只有少数拥有大量的用户,而绝大部分只有很少的用户对其标注。具体地,有的,对其标注的用户数少于。直观上说,对网页标注的用户数越多,那么越可能找到相关的对于那些拥有很少用户并且占所有网贞很大比例的,是否可以找到相关的,这决定了基于进行扩展的方法的适用范围。可以扩展的的比例这里,我们着重分析那些少量用户标注的它们可以通过来扩展相关的比例,相关和原始要扩展的共享同样用户及。我们从中的数据抽取了个样本,每个样本有个,样本按照用户数进行分类,用户数从到统计结果如下图所示: 451 图2不同用户的URL可以进行扩展的比例从图可以看出,随着用户数的增加,可以进行扩展的的比例在增大,即使拥有的用户数为,也有超过的可能性找到相关的这表明,大多数都可以找到与其内容相关的,这也验证了基于扩展相关的方法有很好的通用性。 4基于Tag的关键词抽取首先我们给出基于的关键词抽取的形式化定义,即给定网页,假定其对应的用户标注信息为< >,我们的目标是从中抽取排名最高的个如-关键词为了解决这个问题,我们首先基于词与词在网页中的共现构建一个词项图。具体地可以通过设定一个窗口大小,然后将出现在窗口中的任意两个词之间增加一条边。基于图的排序方法经过迭代可以得到词项的重要度。在中,不考虑边的权重,认为任意两个词之间的关联度是相同的。但实际上,在不同主题下,词与词之间的关联度可能是不同的。比如在一篇讲机器学习的文章中,“ 和 ”的关联度会很高,而在训如何操作机器的文章中,他们的关系要弱一些。作为一种高层语义信息反映了文档的主题。对于一个确定的,用户标过的相关网页可以作为额外的信息来估计在该主题下,词项间的关联度,这种全局关联度可以作为边的权重来影响最后的结果这样对每个,都可以得到一个词项重要度的排序结果,最后网页关键词的获得可以认为是要综合多个排序结果。这可以看作是·个数据融合的问题。 E C D B B A BCDEA B E C D 原始文档司项图不同T词项重最后的词项重要度排序图3基于Teg的关键词抽取的流程 452 图给出了基于信息进行关键词抽取的框架。实际上,通过引入的相关文档本质上是一种额外的资源,如何利用这些资源进行关键词抽取还可以采用其它方法,比如提到的构建更大规模的图。只体的,我们在这里重点探索该资源对词项相关度的估计。下面给出了算法的步骤: 根据要抽取的文档中词的相邻关系,构建词项图。对于上的每个是文档的集合: 找到相关文档集合,相关文档是指与共享相同及用广的文档。在上计算每条边的权重即词项与的关联度在上运行获得节点的收敛值,输出词项重要度排序结果合并∈,生成最终关键词列表词项间关联度词项关联度计算,可以借鉴查询扩展领域的上作。常用的基于统计的方法同吋考虑两个词共现及每个词单独出现的次数。常用的指标包括互信 x统计量,系数。前两个指标涉及到窗口总数,而系数计算与窗口总数无关。这里,我们分别使用x及系数米计算词项关联度。计算公式如下 x 上表中,表示总窗口数,为词项及词项共现的窗口数,为出现的窗口数, 为出现的窗口数与窗口大小设置有关。也可以忽略窗口,从文档层次上统计,即统计出现的文档数词项排序通过在的相关文档上计算词项闩的关联度,最后构建的词项图为加权无向图。对于无向图的计算,可以将每条边看作是有两个方向的有向图,这样可以运行算法。考虑边的权重,使用的迭代公式为元+2∑ 其中为节点的权重,为到的权重,为指向的节点集合为指出去的节点集合。结果融合及重排序结果融合的提出最早是要解决如何合并来自多个检索系统给出的文档序。类似的,这里要给出词项序的合并结果,考虑到在不同下词项得分值之间不具有可比性,所以我们的输入信息主要是词项序信息。提到一种基于序倒数的合并方法 453 其中是在下计算得到的词项排序结果是词项在中的序个公式考虑∫同一词项在多个排序结果中的序,排名一致高的词最后的得分也最高。宗上,算法涉及到主要参数包括:在抽取文档上构建图所没的窗口大小,在上统计词项频率所设的窗口,关联度指标算法中的λ使用默认值 5实验我们使用了所发布的一个公开语料用于验证方法效果。参照中的实验方法,我们选择上述语料的博客文章作为最终扯取关键词的目标网页。具体地,我们随机选取了技术博客网站中的篇博文进行了实验。在中提到个查询上的实验结果只有统计意义,而这里博文充当的就是查询的角色。实验过栏中, 我们对网页进行止文抽取。经过处理,每篇要抽取的文档平均包含个,在每个下可以找到的相关文档数平均为篇。我们对上述篇文章进行了人工标注,标注时采用了一种类似于信息检索评价中缓冲的方法。具体地,我们对要评价的系统不同参数,冬取排在最前面的λ个词进行求并构成,然后将这些词提供给标注者诖行标注。在我们的实验中,共有个标注者参与了此次标注,最后的标注共产生∫个关键词,平均每篇文档关键词数目为个,略高」每篇个关键词的最终标注要求,这主要为了癌免因为语言差异而导致的关键词遗漏问题。实验中λ取。系统输岀的结果和人工标注的结果进行比较,采用的评价指标为正确率、召回率及值。具体计算公式如下人工标注的关键词⌒系统的关键词系统的关键词人工标注的关键词∩系统的关键词人标注的关键词实验结果及分析我们分别实现了三种方法。参数分别取、、、,而取值分别为、、和。词项间关联度计算考虑∫与统计量两种方法。对于每一种关联度计算,与的组合会产生次运行结果表列出了三种方法的关键词抽取效果。对方法,我们列出了在给定参数的情况下,可以达到的最大值及其对应的参数。从表可以看出,当词项关联度计算使用系数时, 的效果要明显好于 ,这说明合理估计词项关联度对最后关键词抽取的作用,同吋也衣明使用的相关文档进行词项关联度估计的合理性。但是基于 x统计量并没有明显的提高,可能是因为该指标考虑了所有窗口数,而该窗口数会影响词项间关联度的计算参数是进行词项关联度计算的一个重要参数,较大,考虑的词项关联范围也越大, 454 些关联弱的词项可能会被增强,从而带米噪音。较小,对于图中的边即词项对,它们共现关系很难被捕捉到,从而降低词项关联度估计的准确性。为此,我们考察在使用系数度量词项关联,对于相同值,不同对抽取结果的影响。从表中,可以看出般取效果最好表1ag1 extRank与 extRank,T*D的比较方法参数 xxxx 表2不同对F值的影响文档级別 6总结本文给出了一种利用信息对网页进行关键词抽取的框架和方法。由于可以表小用户对文章的理解,反映文章的主题,因此信息可以作为一种弱的指导来辅助进行关键词抽取。我们根据数据对目标网页进行扩展,然后在扩展后的网页上估计词项间 455 的关联度。我们贡献在于首次利用用户对网页的标注信息进行关键词抽取,最后的输出结果同时考虑了文档表达的多个通过体现的主题。实验结果表明, 继承了无监督学习不需要人工标注的优点,但是效果要好于后者。同吋,前面的统计也衣明大部分拥有的网页可以找到相关网页, 这也说明我们的方法有很好的推性。在未来的工作中,我们会尝试评价的重要性及用户的权威度,从而选择高质量相关文档来进行关键词抽取,同时,相关网页的引入会带来计算效率问题,如何进行性能优化也是下一步研究的方向。参考文献李素健工厚峰俞士汶辛乘胜关键词自动标引的最大熵模型应用研究计算机学报杨洁季铎蔡东风代翠基于的多文档关键词抽取技术第四届全国信息检索与内容安全学术公议 456

(系统自动生成,下载前可以参看下载内容)