您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 中英文发现系统的转接层子系统、索引子系统的设计与实现_雷鸣_北京大学硕士论文

  2. 中国于1994年进入INTERNET,之后INTERNET在中国得到了迅速的发展,中文的WWW信息也迅速增加。这使得在搜索中文信息时也需要一定的搜索工具。由于世界上现有的搜索引擎大部分都是针对英文设计的,它们或支持中文的能力很差,或根本不支持中文。个别支持中文搜索的搜索引擎,它们的数据库中所包含的中文信息的数量十分小,搜索的结果非常不理想。对于日益增长的中国INTERNET来说,实现一个具有大量中文信息数据库,能够良好支持中文检索的搜索引擎已是一种迫切的需求。 本论文所描述的系统即是作者参与设
  3. 所属分类:专业指导

    • 发布日期:2009-07-08
    • 文件大小:560kb
    • 提供者:rockychan1206
  1. 微软sql server 2005全文检索的BUG解决方案

  2. 微软sql server 2005全文检索的BUG解决方案,因sql server 2005的分词方法与2000不同,导致全文检索出现不可预见性的查询失败.
  3. 所属分类:其它

    • 发布日期:2009-09-22
    • 文件大小:7kb
    • 提供者:dlcustom
  1. 有序HASH(Trie)树 win32 SDK V2.0

  2. 1、SDK开发包包括:动态库、头文件、开发手册、产品手册、解决方案、demo等。 2、有序HASH(Trie)树SDK中的API支持以下功能 1)插入节点 2)精确删除节点 3)正向模糊匹配 4)反向模糊匹配 5)精确查询节点 6)获取头(尾)节点 7)删除头(尾)节点 8)排序 9)支持多级树 10)支持强大的查询节点功能 。。。。。。 3、基于有序HASH(Trie)树SDK可以开发以下功能 1)查询 2)分类统计 3)集合(交集、并集)运算 4 )快速排序 5)前缀匹配 6)中文分词 7
  3. 所属分类:其它

    • 发布日期:2009-10-24
    • 文件大小:635kb
    • 提供者:freeland008
  1. 基于多Agent的信息搜索引擎技术研究与应用

  2. 搜索引擎就提供了这样一个导航工具.而随着多Agent技术的发展,为了满足用户日益增长的需要,基于多Agent的搜索引擎也被广泛研究.本论文在对Intemet信息收集处理及多Agent技术的研究基础上,设计开发了一个用于Web信息搜索的基于多Agent的搜索引擎试验系统SEBMA(Search Engine Based on Multi-Agent),它使用基于多Agent的体系结构来实现信息收集过程的并行、分布式处理,较好地解决了大规模Internet信息收集和提高信息检索准确率的问题.文中首
  3. 所属分类:网络基础

    • 发布日期:2008-03-07
    • 文件大小:5mb
    • 提供者:ansonla
  1. 中文搜索引擎中的中文信息处理技术 pdf

  2. 就中文搜索引擎中的若干中文信息处理技术作了较深入的探讨,对诸如中文分词、中文码制转换和中文全半角处理等方面提出了较完整的解决方案。
  3. 所属分类:电子商务

    • 发布日期:2011-04-14
    • 文件大小:1mb
    • 提供者:ligary2002
  1. 基于统计方案的自动摘要系统(含源代码)

  2. 中文分词 领域相关算法 两者相互融合得到的算法 基于字符串匹配的分词方法 正向最大匹配法(由左到右的方向); 2)逆向最大匹配法(由右到左的方向); 3)最少切分(使每一句中切出的词数最小)
  3. 所属分类:Java

    • 发布日期:2011-04-26
    • 文件大小:345kb
    • 提供者:wjjfeng
  1. 迅龙中文Web搜索引擎源码

  2. 迅龙中文Web搜索引擎是基于.NET的面向Web的信息检索解决方案。开发使用了dotLucene、WordNet、Program#等开源项目。在HTML和RSS的基础搜索模块上,增加改进型的AIML模块和英文的WordNet 模块。项目还采用了中文分词、集群文件系统、数据过滤、广告智能匹配等技术。
  3. 所属分类:Web开发

    • 发布日期:2008-04-23
    • 文件大小:5mb
    • 提供者:ivorytower
  1. 文檔管理系統

  2. 1、高效且低成本的解决方案 多可文档协同系统不需要其他附带软件和其他数据库的支持,三分钟完成系统安装和实施,同时系统支持windows 2000、XP、2003、Vista操作系统。 软件高度知识产权和核心技术为用户大大节约了软件成本、实施成本和学习使用成本。 2、文档的集中安全管理 文档数据仓库为文档管理提供安全可靠的平台,使文档的交流和共享变得更加简单快捷。 3、简单的IE使用方式 用户只需通过IE浏览器访问,即可实现对系统及文档的管理,类似windows的操作习惯,最大限度减少用户的学习
  3. 所属分类:C#

  1. Xunsearch 免费开源的专业全文检索解决方案

  2. 帮助一般开发者针对既有的海量数据,快速而方便地建立自己的全文搜索引擎。全文检索可以帮助您降低服务器搜索负荷、极大程度的提高搜索速度和用户体验。 高性能:后端是采用 C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存),参见 Scalability。 简单易用:前端是使用脚本语言编写的开发工具 (SDK),目前支持 PHP 语言。API 简单清晰,开发难度极低,
  3. 所属分类:Web开发

    • 发布日期:2012-03-22
    • 文件大小:8mb
    • 提供者:mypoints
  1. 2012最新中文搜索引擎技术-解密分词技术

  2. 2012最新中文搜索引擎技术-解密分词技术
  3. 所属分类:专业指导

    • 发布日期:2012-08-23
    • 文件大小:604kb
    • 提供者:dhyuan520
  1. 分布式搜索 elasticsearch 方案研究 - 基础知识

  2. 分布式搜索elasticsearch几个概念解析 3 分布式搜索elasticsearch单机与服务器环境搭建 4 分布式搜索elasticsearch中文分词集成 5 分布式搜索elasticsearch配置文件详解 8 分布式搜索elasticsearch安装步骤详解 12 分布式搜索elasticsearch高级配置之(一)--- 分片分布规则设置 13 分布式搜索elasticsearch高级配置之(二)--- 线程池设置 16 分布式搜索elasticsearch研究--- shar
  3. 所属分类:Java

    • 发布日期:2012-11-21
    • 文件大小:1mb
    • 提供者:lishiyin
  1. pscws23-20081221.tar.bz2【中文分词】

  2. php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写,它是 SCWS 项目的前身。 现 SCWS 已作为
  3. 所属分类:PHP

    • 发布日期:2013-09-08
    • 文件大小:2mb
    • 提供者:yao__shun__yu
  1. 轻松互联网开发平台(Easy do it,原来WebEasy)20150120更新

  2. 集成IKAnalyzer,简化了中文分词。终身免费使用,能开发:大型手机App服务端系统 大型功能性网站开发(如:电子商务网站、社区、门户等) 大数据系统应用开发(与vertica无缝集成) 应用解决方案,如电子政务系统、管理系统、协作系统、企业ERP/DRP/MRP等
  3. 所属分类:Web开发

    • 发布日期:2015-01-21
    • 文件大小:8mb
    • 提供者:tx18
  1. scws23-php

  2. ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写,它是 SCWS 项目的前身。 现 SCWS 已作为 FTPHP 项目
  3. 所属分类:PHP

    • 发布日期:2015-03-24
    • 文件大小:3mb
    • 提供者:u014581691
  1. 达观数据NLP特刊:从原理到实践.pdf

  2. 达观数据NLP特刊:从原理到实践,包含基于深度学习的中文分词,个性化推荐,搜索引擎排序,推荐系统冷启动问题解决方案
  3. 所属分类:深度学习

    • 发布日期:2018-05-23
    • 文件大小:21mb
    • 提供者:lbluesky01
  1. 分词解决方案idata,包括同NIPIR分词后的效果对比

  2. 该资源采用第三方解决方案来完成汉语的相关分词包括情感分析,关键词抽取,实体抽取等,该资源附带一份同NLPIR的效果对比报告,NLPIR的中国科院分词是我上一篇的分享,可自行选择分词。
  3. 所属分类:Java

  1. C#实现前向最大匹、字典树(分词、检索)的示例代码

  2. 场景:现在有一个错词库,维护的是错词和正确词对应关系。比如:错词“我门”对应的正确词“我们”。然后在用户输入的文字进行错词校验,需要判断输入的文字是否有错词,并找出错词以便提醒用户,并且可以显示出正确词以便用户确认,如果是错词就进行替换。   首先想到的就是取出错词List放在内存中,当用户输入完成后用错词List来foreach每个错词,然后查找输入的字符串中是否包含错词。这是一种有效的方法,并且能够实现。问题是错词的数量比较多,目前有10多万条,将来也会不断更新扩展。所以pass了这种方案,
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:86kb
    • 提供者:weixin_38610870
  1. 【项目小结】GEC模型中的难点:分词(Tokenizer)与回译(Backtranslation)

  2. 前排提示本文涉及的数据集及外部文件在以下链接共享。包括 Lang-8 语料库,词形转换表(涉及79024组变换)与一些有用的pickle文件。 链接:https://pan.baidu.com/s/1fW266ZSLoZeEaRCl2yVQCg 提取码:yfhm 序言 GEC模型的概念及解决方案可以参考我之前写的一些论文提纲,但无论采用什么样的解决思路,都绕不开很多瓶颈性的问题。笔者根据自己近期基于 CONLL2014 任务尝试的经验,就训练数据短缺的解决方案给出两点参考及其代码实现: 寻
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:120kb
    • 提供者:weixin_38551376
  1. ES使用热词 停用词注意事项

  2. elasticsearch对无意义的词进行屏蔽——停用词 介绍 在使用elasticsearch进行搜索业务的时候,发现一篇和搜索关键字完全不匹配的文章排在最前面.打开它发现原来是这篇文章含有非常多的”的”这个无意义的词.而我的搜索关键字假设为”历史上的 今天”,它可能就被ik_max_word分词后,刚好就有”的”这个词.所以会造成一篇含有很多”的”的文章,即使跟搜索关键字无关,也可能得分很高,排在前面. 那么我们需要做的就是如何对这些无意义的词——停用词进行屏蔽. 解决方案 其实这个问题很好
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:67kb
    • 提供者:weixin_38516040
  1. 麻将:开源中文分词工具包,中文分词Web API,Lucene中文分词,中英文混合分词-源码

  2. 麻将中文分词 简介 麻将一直是广受欢迎的传统娱乐活动,字牌的组合千变万化。汉字的组合也是变化多端,麻将这个项目希望能从汉字组合中发现汉语的秘密,为自然语言处理提供好的中文分词工具。 麻将是基于Scala的语言实现的中文分词软件包。这个项目的核心是最大概率分词,整个项目专为搜索引擎,文本信息抽取和自然语言处理设计,参考我来实现。性能优异,速度快。整个分词包易于使用,测试覆盖率高。 在线展示 :链接 ,您可以自己测试它的功能。有任何问题,可以发邮件至: 。 分词歧义解决方案 分词的方法有很多,现
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:14mb
    • 提供者:weixin_42097533
« 12 3 4 5 6 »