您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 非常好用的中文分词,直接能用

  2. 目前的搜索引擎,大多是基于一种称为倒排索引的结构[1]。以什么做为索引的Key值,直接影响到整个搜索引擎的准确度、召回率[2]、速度。我们先看看不使用中文分词的情况。 如果不使用中文分词,可以采用单个汉字索引方式。例如,雅虎,先索引'雅'字,然后再索引'虎'字。同样,对于一篇文章,先把所有的汉字都单独索引一次,并记录他们的位置。搜索过程中,也是先找'雅'字的所有文档,再找'虎'字的所有文档,然后做交叉'与'运算,即包含这两个字,而且位置连续的文档才会做为符合要求的结果。这种方式是最基本的索引方
  3. 所属分类:其它

    • 发布日期:2010-03-06
    • 文件大小:4194304
    • 提供者:pkuluck
  1. 实时搜索架构分析学习教程

  2. 实时搜索架构分析,包括Crawling-抓取、超链分析,Indexing-内容提取、分词、倒排索引,Searching-查询分析、索引查询,Ranking-TF/IDF、PageRank、其他特征,等搜索系统的基础知识
  3. 所属分类:专业指导

    • 发布日期:2010-08-16
    • 文件大小:161792
    • 提供者:myshlcn
  1. 基于P2P的语义检索系统设计

  2. 本文将语义网技术和P2P的优点结合起来,建立P2P网络的语义检索机制。通过建立基于本体概念的分布式倒排索引,使检索过程不再是关键词的精确匹配,而是通过不同节,点本体中的概念之间的语义关系的逻辑推理实现检索请求与文档在语义上的匹配。实验表明,本文提出的结构化P2P网络语义检索方法,比基于关键词精确匹配的检索方法有较高的查全率和查准率。
  3. 所属分类:网络基础

    • 发布日期:2010-10-03
    • 文件大小:429056
    • 提供者:qinzhishan
  1. 走进搜索引擎(中) 作者:梁斌 编著

  2. 第五章搜索引擎的索引系统   第一节知识准备   信息   索引   倒排索引、倒排表、临时倒排文件、最终倒排文件   其他概念   第二节全文检索   全文检索   第三节文档编号   编号的本质   文档编号的方法   游程编码   第四节倒排索引   经典的倒排索引   正排索引(前向索引)   倒排索引   第五节数据规模的估计   齐普夫法则   布尔检索模型下的索引规模估计★   第六节涉及存储规模的一些计算   正排表与倒排表的合并   多个临时倒排文件的归并   倒排索引分布式
  3. 所属分类:专业指导

    • 发布日期:2010-12-21
    • 文件大小:6291456
    • 提供者:qinzuobin
  1. lucene

  2. lucene倒排文件索引结构
  3. 所属分类:Java

    • 发布日期:2008-03-26
    • 文件大小:415
    • 提供者:wenyge
  1. vsm实现c语言实现

  2. vsm的c语言实现 特征词典生成 倒排索引表生成 向量空间模型生成 打印第3个向量
  3. 所属分类:C

    • 发布日期:2011-02-21
    • 文件大小:8192
    • 提供者:xiaochuan1986
  1. 文本聚类C#代码 k-means

  2. 实现了tf-idf功能,倒排索引,k-means,以及简单的层次聚类算法!
  3. 所属分类:项目管理

  1. 简易的搜索引擎(libcurl实现)

  2. 搜索网页,建立倒排索引,并根据查询返回指定页面。需要libcurl库
  3. 所属分类:其它

    • 发布日期:2011-09-19
    • 文件大小:3145728
    • 提供者:qijiang_ok
  1. 全文检索-原理介绍

  2. 全文检索-原理讲解 顺序扫描法,索引搜索法,倒排索引,创建索引,搜索索引原理讲解.
  3. 所属分类:Java

    • 发布日期:2011-11-18
    • 文件大小:73728
    • 提供者:an342647823
  1. hadoop.contrib/lucene源码

  2. hadoop框架,mapreduce利用Lucene构建倒排索引的源码!
  3. 所属分类:Java

    • 发布日期:2011-12-23
    • 文件大小:784384
    • 提供者:scloveyhq
  1. 一种基于关键词的近似网页检测算法

  2. 针对海量Web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型。对一篇新入库的网页文档,利用所包含的关键词迅速缩小计算范围,提高计算效率。实验结果表明该算法是有效的,小规模评测结果得到较好的效果。
  3. 所属分类:其它

    • 发布日期:2008-06-22
    • 文件大小:169984
    • 提供者:wowrur
  1. Web Data Mining (英文)

  2. 目录回到顶部↑ 第一部分 数据挖掘基础. 第1章 概述3 1.1 什么是万维网3 1.2 万维网和互联网的历史简述4 1.3 web数据挖掘5 1.3.1 什么是数据挖掘6 1.3.2 什么是web数据挖掘7 1.4 各章概要8 1.5 如何阅读本书10 文献评注10 第2章 关联规则和序列模式12 2.1 关联规则的基本概念12 2.2 apriori算法14 2.2.1 频繁项目集生成14 2.2.2 关联规则生成17 2.3 关联规则挖掘的数据格式19 2.4 多最小支持度的关联规则挖掘
  3. 所属分类:专业指导

    • 发布日期:2012-05-02
    • 文件大小:8388608
    • 提供者:chen_767
  1. 不是经典我不发——算法研究与总结

  2. 一、A*搜索算法 一(续)、A*,Dijkstra,BFS算法性能比较及A*算法的应用 二、Dijkstra 算法初探 二(续)、彻底理解Dijkstra算法 二(再续)、Dijkstra 算法+fibonacci堆的逐步c实现 二(三续)、Dijkstra 算法+Heap堆的完整c实现源码 三、动态规划算法 四、BFS和DFS优先搜索算法 五、教你透彻了解红黑树 (红黑数系列六篇文章之其中两篇) 五(续)、红黑树算法的实现与剖析 六、教你初步了解KMP算法、updated (KMP算法系列三
  3. 所属分类:C

    • 发布日期:2012-08-27
    • 文件大小:11534336
    • 提供者:binglinuxxin
  1. Efficient Phrase Querying with an Auxiliary Index

  2. 搜索需要高效的搜索效率,该文档讲了有效率的信息检索,倒排索引排序的优化。
  3. 所属分类:IT管理

    • 发布日期:2012-10-10
    • 文件大小:146432
    • 提供者:luoyepiaofei
  1. 信息检索与数据挖掘

  2. 所属分类:专业指导

    • 发布日期:2012-10-14
    • 文件大小:7340032
    • 提供者:plaofchina
  1. Apache-Lucene.Net-3.0.3_源代码

  2. Lucene.Net是一个搜索引擎库,C#编写的。NET运行时用户和有针对性的。Lucene搜索库是基于倒排索引。Lucene.Net有三个主要目标: 1.保持现有生产线,由线端口从Java到C#,完全自动化和商品化的过程中,该项目可以很容易地与Java Lucene的发布日程同步; 2.一流的C#搜索引擎库的预期保持高性能的要求; 3.最大化可用性和功率范围内使用。NET运行时。为了达到这个目的,它会给出一个非常地道,精心定制的API,充分利用。NET运行时的许多特殊功能。
  3. 所属分类:C#

    • 发布日期:2013-01-08
    • 文件大小:57671680
    • 提供者:gemyong
  1. 新词发现方法

  2. 不错的新词发现方法,利用了pat-array, 倒排索引
  3. 所属分类:其它

    • 发布日期:2013-01-14
    • 文件大小:1048576
    • 提供者:tt163789
  1. Google_MapReduce中文版-系统架构

  2. MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建 一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然 后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足 上述处理模型的例子,本论文将详细描述这个模型。 MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关 心:如何分割输入数据,在大量
  3. 所属分类:其它

    • 发布日期:2013-04-29
    • 文件大小:693248
    • 提供者:yg359547115
  1. 十五个经典算法研究与总结、目录+索引(定稿版)

  2. 前言: 本人的原创作品经典算法研究系列,自从10年12月末至11年12月,写了近一年。可以这么说,开博头俩个月一直在整理微软等公司的面试题,而后的四个月至今,则断断续续,除了继续微软面试100题系列,和程序员编程艺术系列之外,便在写这经典算法研究系列和相关算法文章。 本经典算法研究系列,涵盖A*.Dijkstra.DP.BFS/DFS.红黑树.KMP.遗传.启发式搜索.图像特征提取SIFT.傅立叶变换.Hash.快速排序.SPFA.快递选择SELECT等15个经典基础算法,共计31篇文章,包括
  3. 所属分类:其它

    • 发布日期:2018-12-14
    • 文件大小:13631488
    • 提供者:awenjie
  1. 管理海量数据-压缩、索引和查询 第2版.zip

  2. 第1章 概览 1.1 文档数据库(document databases) 1.2 压缩(compression) 1.3 索引(indexes) 1.4 文档索引 1.5 MG海量文档管理系统 第2章 文本压缩 2.1 模型 2.2 自适应模型 2.3 哈夫曼编码 范式哈夫曼编码 计算哈夫曼编码长度 总结 2.4 算术编码 算术编码是如何工作的 实现算术编码 保存累积计数 2.5 符号模型 部分匹配预测 块排序压缩 动态马尔科夫压缩 基于单字的压缩 2.6 字典模型 自适应字典编码器的LZ77
  3. 所属分类:数据库

    • 发布日期:2019-08-04
    • 文件大小:236978176
    • 提供者:harlensaint
« 1 2 3 4 5 67 8 9 10 11 ... 14 »