您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. “天网”中的并行与分布

  2. “天网”中的并行与分布处理* 赵江华 闫宏飞 王建勇 李晓明 北京大学计算机科学技术系网络与分布式系统实验室 北京 100871 {zhaojh,yhf,lxm}@net.cs.pku.edu.cn 摘 要 本文介绍了“天网”搜索引擎系统2.0版本中所采用的分布并行处理系统结构和关键技术,主要包括搜集子系统和查询子系统两个部分。通过对设计、模拟、实现和实际运行评测等相关过程的描述,展现了系统在性能、负载平衡和扩展性等方面的性质和特点。 关键词 WWW,搜索引擎,信息检索,分布式系统,并行处理
  3. 所属分类:网络基础

    • 发布日期:2009-07-08
    • 文件大小:172032
    • 提供者:rockychan1206
  1. 一个大规模、高性能的搜索引擎系统—北京大学硕士研究生学位论文

  2. 本文首先回顾了WWW的起源和发展。面对极其大量的信息,人们通常依靠搜索引擎来为他们在WWW上进行导航,这给搜索引擎技术带来了巨大的挑战。自1994年问世以来,搜索引擎的发展经历了四代。我们对每一代搜索引擎及其特色进行了简要的陈述。 搜索引擎是一个集多种技术于一体的综合性系统。在本文的第二章,我们就搜索引擎涉及到的某些核心背景技术,如搜索技术、IR技术、超文本链分析技术、用户行为分析技术,进行了讨论,并说明了这些技术对搜索引擎发展的影响和作用。 “天网”是国家“九五”攻关项目中的一个子专题。在借
  3. 所属分类:其它

    • 发布日期:2009-07-08
    • 文件大小:1048576
    • 提供者:rockychan1206
  1. 搜索引擎-原理、技术与系统

  2. 图2-1 搜索引擎示意图................................................................................17 图2-2 搜索引擎三段式工作流程................................................................18 图2-3 搜索引擎的体系结构.........................................................
  3. 所属分类:其它

    • 发布日期:2010-08-25
    • 文件大小:3145728
    • 提供者:cailiangmu
  1. 基于多Agent的信息搜索引擎技术研究与应用

  2. 搜索引擎就提供了这样一个导航工具.而随着多Agent技术的发展,为了满足用户日益增长的需要,基于多Agent的搜索引擎也被广泛研究.本论文在对Intemet信息收集处理及多Agent技术的研究基础上,设计开发了一个用于Web信息搜索的基于多Agent的搜索引擎试验系统SEBMA(Search Engine Based on Multi-Agent),它使用基于多Agent的体系结构来实现信息收集过程的并行、分布式处理,较好地解决了大规模Internet信息收集和提高信息检索准确率的问题.文中首
  3. 所属分类:网络基础

    • 发布日期:2008-03-07
    • 文件大小:5242880
    • 提供者:ansonla
  1. 自己动手写搜索引擎(罗刚著).doc

  2. 自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
  3. 所属分类:其它

    • 发布日期:2011-04-18
    • 文件大小:6291456
    • 提供者:qq736655941
  1. 海量分布式日志检索技术的研究.nh

  2. 第一章绪论...........................................................................................................……1 1.1研究的背景和意义...................................................................................……1 1.1.1背景现状..........................
  3. 所属分类:其它

    • 发布日期:2011-04-29
    • 文件大小:3145728
    • 提供者:lionfromasia
  1. 数据库系统原理课件(大学版ppt)

  2. 基础篇介绍数据库的基本概念和体系结构、关系数据库系统和数据库的安全性与完整性。设计篇讨论数据库设计的基本步骤和设计方法,并介绍实体-联系模型、扩展的实体-联系模型和关系数据库的函数依赖理论。实现篇介绍数据库的物理存储结构、数据字典、关系代数操作算法、查询优化技术和事务处理技术。专题篇介绍新一代数据库技术及应用、扩展的关系数据库系统、面向对象与对象关系数据库系统、分布式数据库系统和并行数据库技术。新技术篇介绍数据库领域的新进展,包括数据仓库与联机分析、数据挖掘、Web信息检索与Web数据管理技术
  3. 所属分类:数据库

    • 发布日期:2011-09-24
    • 文件大小:10485760
    • 提供者:honey536
  1. RED HAT LINUX 6大全

  2. 本书全面系统地介绍了Red Hat Linux 6。全书共分为五个部分,包括35章和四个附录。第一部分为Red Hat Linux的介绍和安装;第二部分为服务配置;第三部分为系统管理;第四部分为Linux编程;第五部分为附录。本书内容翔实、涉及领域广泛,并且提供了详细的例子和大量的参考资料(包括书籍、电子文档和Internet站点),是一本学习、使用和管理Linux不可多得的好书。 目 录 译者序 前言 第一部分 Red Hat Linux的介绍与安装 第1章 Red Hat Linux和UN
  3. 所属分类:Linux

    • 发布日期:2011-10-21
    • 文件大小:28311552
    • 提供者:beisika10368
  1. 自己动手写搜索引擎(罗刚)

  2. 自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
  3. 所属分类:Java

    • 发布日期:2012-04-25
    • 文件大小:3145728
    • 提供者:jayghost
  1. LuceneInAction(第2版)_中文版

  2. 内容简介   《Lucene实战(第2版)》基于Apache的Lucene 3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本、Lucene的高级扩展、使用其他编程语言访问Lucene、Lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《Lucene实战(第2版)》适合于已具有一定Java编程基本的读者
  3. 所属分类:Java

    • 发布日期:2012-07-12
    • 文件大小:48234496
    • 提供者:liujun13579
  1. 大规模分布式并行信息检索技术

  2. 大规模分布式并行信息检索技术的经典论文
  3. 所属分类:专业指导

    • 发布日期:2008-08-04
    • 文件大小:82944
    • 提供者:noodlee
  1. 自己动手写网络爬虫

  2. 完整版《自己动手写网络爬虫》! 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2
  3. 所属分类:专业指导

    • 发布日期:2013-10-27
    • 文件大小:28311552
    • 提供者:qq674708957
  1. SQL Server数据库查询速度慢原因及优化方法

  2. 【赛迪网-IT技术报道】SQL Server数据库查询速度慢的原因有很多,常见的有以下几种:   1、没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷)     2、I/O吞吐量小,形成了瓶颈效应。     3、没有创建计算列导致查询不优化。     4、内存不足     5、网络速度慢     6、查询出的数据量过大(可以采用多次查询,其他的方法降低数据量)     7、锁或者死锁(这也是查询慢最常见的问题,是程序设计的缺陷)     8、sp_lock,sp_who,活动
  3. 所属分类:SQLServer

    • 发布日期:2013-11-12
    • 文件大小:9216
    • 提供者:shengyi1987
  1. “天网”中的并行与分布处理

  2. 摘 要 本文介绍了“天网”搜索引擎系统2.0版本中所采用的分布并行处理系统结构和关键技术,主要包括搜集子系统和查询子系统两个部分。通过对设计、模拟、实现和实际运行评测等相关过程的描述,展现了系统在性能、负载平衡和扩展性等方面的性质和特点。
  3. 所属分类:专业指导

    • 发布日期:2008-11-04
    • 文件大小:187392
    • 提供者:anspider
  1. Oracle9i的init.ora参数中文说明

  2. Oracle9i初始化参数中文说明 Blank_trimming: 说明: 如果值为TRUE, 即使源长度比目标长度 (SQL92 兼容) 更长, 也允许分配数据。 值范围: TRUE | FALSE 默认值: FALSE serializable: 说明: 确定查询是否获取表级的读取锁, 以防止在包含该查询的事务处理被提交之前更新任何对象读取。这种操作模式提供可重复的读取, 并确保在同一事务处理种对相同数据的两次查询看到的是相同的值。 值范围: TRUE | FALSE 默认值: FALSE
  3. 所属分类:Oracle

    • 发布日期:2008-11-07
    • 文件大小:58368
    • 提供者:qujianwei
  1. 四级数据库重难点(word版)

  2. 第1章 引言 1. 数据是描述现实世界事物的符号记录,是用物理符号记录下来的可以识别的信息。 数据是信息的符号表示,是载体;信息是数据的语义解释,是内涵。 2. 数据模型是对现实世界数据特征的抽象,是数据库系统的形式框架,用来描述数据的一组概念和定义,包括描述数据、数据联系、数据操作、数据语义以及数据一致性的概念工具。 满足三条件:比较真实地模拟现实世界;易于人们理解;易于计算机实现 三个组成要素:数据结构(静态,数据对象本身结构及之间的联系)、数据操作(对数据对象操作及操作规则的集合)和完整
  3. 所属分类:其它

    • 发布日期:2009-01-21
    • 文件大小:140288
    • 提供者:courage0603
  1. 大规模分布式并行信息检索技术

  2. 并行计算 大规模分布式并行信息检索技术 全文检索
  3. 所属分类:专业指导

    • 发布日期:2009-04-01
    • 文件大小:82944
    • 提供者:shan_xue_xib
  1. 数据结构导论试题及答案(4套).doc

  2. B082208数据结构导论试题及答案(4套)。以下资源描述为复制的不是真的:《数据库系统原理》是一本全面介绍数据库系统理论、技术和方法的大学教科书,全书分为基础篇、设计篇、实现篇、专题篇和新技术篇。基础篇介绍数据库的基本概念和体系结构、面向对象关系数据库系统、分布式数据库系统和并行数据库技术。新技术篇介绍数据库领域的新进展,包括数据仓库与联机分析、Web信息检索与Web数据管理技术等。
  3. 所属分类:数据库

    • 发布日期:2019-05-10
    • 文件大小:1048576
    • 提供者:baidu_30334717
  1. 基于Hadoop平台的海量文本分类的并行化

  2. 文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据.在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果.在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用.
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:660480
    • 提供者:weixin_38727453