说明: pdf. 49页. 本文提出了一种算法以解决文档部分重复检测问题。该方法分为句子级别的重复检测以及序列匹配两个子问题。首先,本文提出了一种快速有效的句子级别的特征提取方法—Low-IDF-SIG算法,并基于该算法实现了一个可以高效地找出句子级别重复的检测系统。为了对本文提出的方法的精度及效率进行评测,作者还在一个真实的语料库上对提出的方法与其他方法进行了比较。实验结果证明本文提出的方法能有效地提高句子级别的重复检测任务的效率和精度。此外本文还提出了基于MapReduce范式的文档部分重复检测算
<kamo54> 上传 | 大小:1mb