您好,欢迎光临本网站![请登录][注册会员]  
文件名称: 应用Web挖掘的主题元搜索引擎的设计与实现
  所属分类: Web开发
  开发工具:
  文件大小: 4mb
  下载次数: 0
  上传时间: 2010-01-10
  提 供 者: yangda*******
 详细说明: 本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎的查全率和查准率。 论文首先开发了主题提取器TopicDistiller,应用Web内容挖掘和Web链接分析,从通用搜索引擎检索结果网页集中提取主题词集和种子站点用于主题表示,为后续主题元搜索引擎的主题判断和主题度计算提供了依据。 论文接着提出了具有独立数据库的主题元搜索引擎TSMSE的设计思想,将元搜索引擎综合各个独立搜索引擎检索结果,提高查全率的特点和主题搜索引擎按主题爬行、索引文档,提高查准率的特点结合起来。 论文然后应用Nutch0.9爬虫的不同工作方式,将从指定种子站点爬行到的网页集和从各独立搜索引擎爬行到的网页集融合在一起。再开发主题解析和主题索引插件,对爬行到的网页进行主题词提取,确定页面主题,计算主题度,并依照主题和主题度,为用户提供检索服务,从而提高了查准率。由于融合了各个搜索引擎的查询结果,同时也提高了查全率。 论文接下来对Nutch 0.9的检索功能和界面进行了增强,实现了具有独立数据库的主题元搜索引擎TSMSE,为用户提供分主题、按主题度排序的检索结果 输出。并可根据检索历史记录对用户输入的检索关键字进行智能扩展提示,同时为搜索引擎返回结果增加了自动聚类和分页浏览功能。 论文最后分别采用六个不同的搜索主题,对TSMSE主题元搜索引擎进行了简单的性能测试。实验结果表明,TSMSE主题元搜索引擎的查全率和查准率都有一定提高。 ...展开收缩
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 输入关键字,在本站1000多万海量源码库中尽情搜索: