搜索资源 - 分词方案 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 分词方案

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

中英文发现系统的转接层子系统、索引子系统的设计与实现_雷鸣_北京大学硕士论文
中国于1994年进入INTERNET，之后INTERNET在中国得到了迅速的发展，中文的WWW信息也迅速增加。这使得在搜索中文信息时也需要一定的搜索工具。由于世界上现有的搜索引擎大部分都是针对英文设计的，它们或支持中文的能力很差，或根本不支持中文。个别支持中文搜索的搜索引擎，它们的数据库中所包含的中文信息的数量十分小，搜索的结果非常不理想。对于日益增长的中国INTERNET来说，实现一个具有大量中文信息数据库，能够良好支持中文检索的搜索引擎已是一种迫切的需求。本论文所描述的系统即是作者参与设
所属分类：专业指导
- 发布日期：2009-07-08
- 文件大小：560kb
- 提供者：rockychan1206

微软sql server 2005全文检索的BUG解决方案
微软sql server 2005全文检索的BUG解决方案,因sql server 2005的分词方法与2000不同,导致全文检索出现不可预见性的查询失败.
所属分类：其它
- 发布日期：2009-09-22
- 文件大小：7kb
- 提供者：dlcustom

有序HASH(Trie)树 win32 SDK V2.0
1、SDK开发包包括：动态库、头文件、开发手册、产品手册、解决方案、demo等。 2、有序HASH（Trie）树SDK中的API支持以下功能 1）插入节点 2）精确删除节点 3）正向模糊匹配 4）反向模糊匹配 5）精确查询节点 6）获取头（尾）节点 7）删除头（尾）节点 8）排序 9）支持多级树 10）支持强大的查询节点功能。。。。。。 3、基于有序HASH（Trie）树SDK可以开发以下功能 1）查询 2）分类统计 3）集合（交集、并集）运算 4 ）快速排序 5）前缀匹配 6）中文分词 7
所属分类：其它
- 发布日期：2009-10-24
- 文件大小：635kb
- 提供者：freeland008

基于多Agent的信息搜索引擎技术研究与应用
搜索引擎就提供了这样一个导航工具.而随着多Agent技术的发展,为了满足用户日益增长的需要,基于多Agent的搜索引擎也被广泛研究.本论文在对Intemet信息收集处理及多Agent技术的研究基础上,设计开发了一个用于Web信息搜索的基于多Agent的搜索引擎试验系统SEBMA(Search Engine Based on Multi-Agent),它使用基于多Agent的体系结构来实现信息收集过程的并行、分布式处理,较好地解决了大规模Internet信息收集和提高信息检索准确率的问题.文中首
所属分类：网络基础
- 发布日期：2008-03-07
- 文件大小：5mb
- 提供者：ansonla

中文搜索引擎中的中文信息处理技术 pdf
就中文搜索引擎中的若干中文信息处理技术作了较深入的探讨，对诸如中文分词、中文码制转换和中文全半角处理等方面提出了较完整的解决方案。
所属分类：电子商务
- 发布日期：2011-04-14
- 文件大小：1mb
- 提供者：ligary2002

基于统计方案的自动摘要系统（含源代码）
中文分词领域相关算法两者相互融合得到的算法基于字符串匹配的分词方法正向最大匹配法（由左到右的方向）； 2）逆向最大匹配法（由右到左的方向）； 3）最少切分（使每一句中切出的词数最小）
所属分类：Java
- 发布日期：2011-04-26
- 文件大小：345kb
- 提供者：wjjfeng

迅龙中文Web搜索引擎源码
迅龙中文Web搜索引擎是基于.NET的面向Web的信息检索解决方案。开发使用了dotLucene、WordNet、Program#等开源项目。在HTML和RSS的基础搜索模块上，增加改进型的AIML模块和英文的WordNet 模块。项目还采用了中文分词、集群文件系统、数据过滤、广告智能匹配等技术。
所属分类：Web开发
- 发布日期：2008-04-23
- 文件大小：5mb
- 提供者：ivorytower

文檔管理系統
1、高效且低成本的解决方案多可文档协同系统不需要其他附带软件和其他数据库的支持，三分钟完成系统安装和实施，同时系统支持windows 2000、XP、2003、Vista操作系统。软件高度知识产权和核心技术为用户大大节约了软件成本、实施成本和学习使用成本。 2、文档的集中安全管理文档数据仓库为文档管理提供安全可靠的平台，使文档的交流和共享变得更加简单快捷。 3、简单的IE使用方式用户只需通过IE浏览器访问，即可实现对系统及文档的管理，类似windows的操作习惯，最大限度减少用户的学习
所属分类：C#
- 发布日期：2011-10-11
- 文件大小：1mb
- 提供者：zhangbordergate

Xunsearch 免费开源的专业全文检索解决方案
帮助一般开发者针对既有的海量数据，快速而方便地建立自己的全文搜索引擎。全文检索可以帮助您降低服务器搜索负荷、极大程度的提高搜索速度和用户体验。高性能：后端是采用 C/C++ 开发多线程服务端，索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据，在 500 万网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)，参见 Scalability。简单易用：前端是使用脚本语言编写的开发工具 (SDK)，目前支持 PHP 语言。API 简单清晰，开发难度极低，
所属分类：Web开发
- 发布日期：2012-03-22
- 文件大小：8mb
- 提供者：mypoints

2012最新中文搜索引擎技术－解密分词技术
2012最新中文搜索引擎技术－解密分词技术
所属分类：专业指导
- 发布日期：2012-08-23
- 文件大小：604kb
- 提供者：dhyuan520

分布式搜索 elasticsearch 方案研究 - 基础知识
分布式搜索elasticsearch几个概念解析 3 分布式搜索elasticsearch单机与服务器环境搭建 4 分布式搜索elasticsearch中文分词集成 5 分布式搜索elasticsearch配置文件详解 8 分布式搜索elasticsearch安装步骤详解 12 分布式搜索elasticsearch高级配置之（一）--- 分片分布规则设置 13 分布式搜索elasticsearch高级配置之（二）--- 线程池设置 16 分布式搜索elasticsearch研究--- shar
所属分类：Java
- 发布日期：2012-11-21
- 文件大小：1mb
- 提供者：lishiyin

pscws23-20081221.tar.bz2【中文分词】
php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为
所属分类：PHP
- 发布日期：2013-09-08
- 文件大小：2mb
- 提供者：yao__shun__yu

轻松互联网开发平台（Easy do it，原来WebEasy）20150120更新
集成IKAnalyzer，简化了中文分词。终身免费使用，能开发：大型手机App服务端系统大型功能性网站开发（如：电子商务网站、社区、门户等）大数据系统应用开发（与vertica无缝集成）应用解决方案，如电子政务系统、管理系统、协作系统、企业ERP/DRP/MRP等
所属分类：Web开发
- 发布日期：2015-01-21
- 文件大小：8mb
- 提供者：tx18

scws23-php
===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为 FTPHP 项目
所属分类：PHP
- 发布日期：2015-03-24
- 文件大小：3mb
- 提供者：u014581691

达观数据NLP特刊：从原理到实践.pdf
达观数据NLP特刊：从原理到实践，包含基于深度学习的中文分词，个性化推荐，搜索引擎排序，推荐系统冷启动问题解决方案
所属分类：深度学习
- 发布日期：2018-05-23
- 文件大小：21mb
- 提供者：lbluesky01

分词解决方案idata，包括同NIPIR分词后的效果对比
该资源采用第三方解决方案来完成汉语的相关分词包括情感分析，关键词抽取，实体抽取等，该资源附带一份同NLPIR的效果对比报告，NLPIR的中国科院分词是我上一篇的分享，可自行选择分词。
所属分类：Java
- 发布日期：2018-09-29
- 文件大小：4mb
- 提供者：weixin_41512217

C#实现前向最大匹、字典树（分词、检索）的示例代码
场景：现在有一个错词库，维护的是错词和正确词对应关系。比如：错词“我门”对应的正确词“我们”。然后在用户输入的文字进行错词校验，需要判断输入的文字是否有错词，并找出错词以便提醒用户，并且可以显示出正确词以便用户确认，如果是错词就进行替换。　　首先想到的就是取出错词List放在内存中，当用户输入完成后用错词List来foreach每个错词，然后查找输入的字符串中是否包含错词。这是一种有效的方法，并且能够实现。问题是错词的数量比较多，目前有10多万条，将来也会不断更新扩展。所以pass了这种方案，
所属分类：其它
- 发布日期：2020-12-17
- 文件大小：86kb
- 提供者：weixin_38610870

【项目小结】GEC模型中的难点：分词（Tokenizer）与回译（Backtranslation）
前排提示本文涉及的数据集及外部文件在以下链接共享。包括 Lang-8 语料库，词形转换表（涉及79024组变换）与一些有用的pickle文件。链接：https://pan.baidu.com/s/1fW266ZSLoZeEaRCl2yVQCg 提取码：yfhm 序言 GEC模型的概念及解决方案可以参考我之前写的一些论文提纲，但无论采用什么样的解决思路，都绕不开很多瓶颈性的问题。笔者根据自己近期基于 CONLL2014 任务尝试的经验，就训练数据短缺的解决方案给出两点参考及其代码实现：寻
所属分类：其它
- 发布日期：2020-12-22
- 文件大小：120kb
- 提供者：weixin_38551376

ES使用热词停用词注意事项
elasticsearch对无意义的词进行屏蔽——停用词介绍在使用elasticsearch进行搜索业务的时候,发现一篇和搜索关键字完全不匹配的文章排在最前面.打开它发现原来是这篇文章含有非常多的”的”这个无意义的词.而我的搜索关键字假设为”历史上的今天”,它可能就被ik_max_word分词后,刚好就有”的”这个词.所以会造成一篇含有很多”的”的文章,即使跟搜索关键字无关,也可能得分很高,排在前面. 那么我们需要做的就是如何对这些无意义的词——停用词进行屏蔽. 解决方案其实这个问题很好
所属分类：其它
- 发布日期：2021-01-06
- 文件大小：67kb
- 提供者：weixin_38516040

麻将：开源中文分词工具包，中文分词Web API，Lucene中文分词，中英文混合分词-源码
麻将中文分词简介麻将一直是广受欢迎的传统娱乐活动，字牌的组合千变万化。汉字的组合也是变化多端，麻将这个项目希望能从汉字组合中发现汉语的秘密，为自然语言处理提供好的中文分词工具。麻将是基于Scala的语言实现的中文分词软件包。这个项目的核心是最大概率分词，整个项目专为搜索引擎，文本信息抽取和自然语言处理设计，参考我来实现。性能优异，速度快。整个分词包易于使用，测试覆盖率高。在线展示：链接，您可以自己测试它的功能。有任何问题，可以发邮件至：。分词歧义解决方案分词的方法有很多，现
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：14mb
- 提供者：weixin_42097533

« 12 3 4 5 6 »