搜索资源 - 快速分词算法 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 快速分词算法

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

基于新的关键词提取方法的快速文本分类系统
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑，对传统的最大匹配分词法进行了改进，提出一种基于动词、虚词和停用词三个较小词库的快速分词方法（,-），并利用.,/0, 算法来筛选出关键词以完成将123 文档进行快速有效分类的目的。实验表明，该方法在不影响分类准确率的情况下，分类的速度明显提高。
所属分类：其它
- 发布日期：2009-08-10
- 文件大小：114kb
- 提供者：taipinghai

一种基于改进最大匹配快速中文分词算法
提出了一种基于最大匹配快速中文分词算法的改进算法。通过对最大匹配分词算法做出改进,从而解决了最大匹配快速中文分词算法所不能解决的一些问题,并得出较准确的粗分结果
所属分类：其它
- 发布日期：2009-11-02
- 文件大小：29kb
- 提供者：ykeyan

淘特站内搜索引擎(C#版)
+系统介绍+ 淘特站内搜索引擎是由淘特JSP搜索引擎发展而来，系统基于Lucene.Net核心，通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时，通过读取索引文件查询，避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库，为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。 +安装说明+ 本系统使用asp.net+C#开发，系统运行于.net framework2.0以上版本环境中。通过将文件上传到服务器，并开通系统中tot目录e
所属分类：C#
- 发布日期：2010-04-26
- 文件大小：363kb
- 提供者：cctcc

淘特站内搜索引擎(C#版) v2.1 源码
淘特站内搜索引擎是由淘特JSP搜索引擎发展而来，系统基于Lucene.Net核心，通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时，通过读取索引文件查询，避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库，为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。本系统使用asp.net+C#开发，系统运行于.net framework2.0以上版本环境中
所属分类：C#
- 发布日期：2010-10-31
- 文件大小：583kb
- 提供者：yuanhongcs

基于关键词提取方法的快速文本分类系统
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法 ( FS) ,并利用TFIDF算法来筛选出关键词以完成将Web文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。关键词: 计算机应用; 中文信息处理; 关键词提取; Web文档分类
所属分类：其它
- 发布日期：2011-07-08
- 文件大小：192kb
- 提供者：vcd

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法
word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file
所属分类：Java
- 发布日期：2014-11-05
- 文件大小：10mb
- 提供者：love_hachi

基于lucene的搜索引擎总结
浅谈网络搜索引擎的实现知识管理系统网络搜索模块开发实践交流功能需求可自定义要搜索的网站列表（以下简称目标列表）可对目标列表网站的网页内容进行检索可对目标列表网站的网页内容进行自动分类处理可自定义更新周期及一些相关性能参数系统主要功能模块网络蜘蛛采集、解析并保存目标列表网站的内容（网页）全文索引/检索为目标列表网站内容建立索引提供内容的全文检索自动分类对目标列表网站内容进行分类基本流程网络蜘蛛功能概要目标文档地址队列 w/r 目标文档（网页）获取目标文档保存
所属分类：网络基础
- 发布日期：2008-10-28
- 文件大小：155kb
- 提供者：xinkeji

基于KMP思想的模式匹配算法及vc++实现
一种改进的字符串匹配算法，由D.E.Knuth与J.H.Morris和V.R.Pratt同时发现，简称KMP。关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现的关键是next函数。简述分词算法之正向最大匹配法。
所属分类：讲义
- 发布日期：2015-09-22
- 文件大小：18mb
- 提供者：CXHPLY

jcseg-1.9.7.zip
Jcseg是基于mmseg算法的一个轻量级开源中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了最新版本的lucene, solr, elasticsearch的分词接口， Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用，例如：最大匹配词长，是否开启中文人名识别，是否追加拼音，是否追加同义词等！ PS：压缩包中含有jcseg-core-1.9.7.jar、jcseg-analyzer-1.9.7.ja
所属分类：Java
- 发布日期：2015-12-17
- 文件大小：804kb
- 提供者：li277967151

多次Hash快速分词算法
一个分词算法，搜索引擎都会用的分词算法，多次Hash快速分词算法
所属分类：其它
- 发布日期：2008-11-24
- 文件大小：231kb
- 提供者：sjlianan

易搜索站内全文检索搜索引擎
导航的根源在于分类，当有100条信息的时候，我们使用类别来定位信息，当有10000条信息的时候，我们用标签来定位信息，当有100..00条信息的时候，无论怎么分类都是难以寻找的，于是就有了搜索… 当一个网站信息越积越多，搜索将会变得越来越重要。以至于终于有一天，当网站发现50%以上的用户来到你的网站第一件事是搜索的时候，搜索就将成为没有“导航”的导航。因此站内搜索成了网站建设的当务之急。随着网络应用的深入，信息量的爆炸性增长，站内搜索成为每个优秀网站必须具备的功能。纵观中国大中小网站，绝大多数
所属分类：其它
- 发布日期：2008-12-27
- 文件大小：223kb
- 提供者：redmethod

一种快速分词方法可以分词10MB/s
一种快速分词方法,是一种较好的算法策略，可以作为课程设计使用，代码包含其中，但仅仅作为学习使用，不可以用于商业用途，否则后果自负。
所属分类：其它
- 发布日期：2009-01-04
- 文件大小：429kb
- 提供者：lijizhuangcomputer

jcseg,Jcseg 是基于 mmseg 算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于 Jetty 的 web 服务器，方便各大语言直接 http 调用，同时提供了最
Jcseg是基于 mmseg 算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于 Jetty 的 web 服务器，方便各大语言直接 http 调用，同时提供了最新版本的 lucene, solr, elasticsearch 的分词接口！Jcseg自带了一个 jcseg.properties 文件用于快速配置而得到适合不同场合的分词应用，例如：最大匹配词长，是否开启中文人名识别，是否追加拼音，是否追加同义词等！
所属分类：其它
- 发布日期：2019-10-13
- 文件大小：2mb
- 提供者：weixin_38744153

快速构建PHP全文检索——马明练
信息检索，全文检索，IR基础，反向索引，同步机制，批量处理检索比较全文检索数据库LKE 索引使用事先建好的全文索引用不到索引,只能遍历匹配 % eight%也会匹配 height 匹配效笑/通过分词器切割匹配,良好\9m%me就不能匹配颠支持中文、英文词干倒的ⅹx.net. XXX. COm 相关度基于概率模型的相关性算无相关算法,匹配一次或多次法,越相关的排在越前面无明显区别可定制通过定制分词器,实现不同索引规则难以定制结论支持大数据,性能高效果好/效率低,相关性差,模糊检索
所属分类：PHP
- 发布日期：2019-03-04
- 文件大小：1mb
- 提供者：danyidanfei

Jcseg中文分词器 v2.6.2
为您提供Jcseg中文分词器下载，Jcseg是基于mmseg算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于Jetty的web服务器，方便各大语言直接http调用，同时提供了最新版本的lucene，solr，elasticsearch的分词接口！Jcseg自带了一个jcseg.properties文件用于快速配置而得到适合不同场合的分词应用，例如：最大匹配词长，是
所属分类：其它
- 发布日期：2020-09-28
- 文件大小：4mb
- 提供者：weixin_38608379

scws:开源免费的简易中文分词系统，PHP分词的上乘之选！-源码
SCWS的自述文件 $ Id $ SCWS简介是Simple Chinese Word Segmentation的首字母缩写（即：简易中文分词系统）。这是一套基于词频词典的机械式中文分词引擎，它能将一整段的中文文本基本正确地切分开的词。词是中文的最小语素单位，但在书写时并不像英语会在词之间用间隔分开，所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS采用纯C语言开发，不依赖任何外部库函数，可直接使用动态链接库嵌入应用程序，支持的中文编码包括GBK ， UTF-8等。几乎还提供了扩展模
所属分类：其它
- 发布日期：2021-03-11
- 文件大小：7mb
- 提供者：weixin_42181545

一种基于主题词表的快速中文文本分类技术
针对中文文本的自动分类问题,提出了一种新的算法。该算法的基本思路是构造一个带权值的分类主题词表,该词表采用键树的方式构建,然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。
所属分类：其它
- 发布日期：2021-02-20
- 文件大小：509kb
- 提供者：weixin_38519763

Introduction-NLP：HanLP作者的新书《自然语言处理入门》详细笔记！业界良心之作，书中不是枯燥无味的公式罗列，甚至用白话分解的通俗易懂的算法模型。从基本概念出发，逐步介绍中文分词，词性标注，命名实体识别，信息删除，文本聚类，
简介-自然语言处理汉良作者何晗老师的新书《自然语言处理入门》详细的笔记！业界良心之作，书中不是枯燥无味的公式罗列，甚至用白话分解的通俗易懂的算法模型。从基本概念出发，逐步介绍中文分词，词性标注，命名实体识别，信息删除，文本聚类，文本分类，句法分析这几个热门问题的算法原理与工程实现。本项目初步帮助更多同路人能够快速的掌握NLP的专业知识，理清知识要点，在工作中发挥作用的作用。以书本为主，记录本人学习此书的心路历程，总结和笔记。机器学习与深度学习请转至本人项目： HanLP项目：思维导
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：6mb
- 提供者：weixin_42150360

jcseg：Jcseg是用Java开发的轻量级NLP框架。提供基于MMSEG算法的CJK和英语细分，并基于TEXTRANK算法实现关键词提取，关键句提取，摘要提取。 Jcseg具有内置的http服务器和用于最新lucene，solr，el
Jcseg是什么？ Jcseg是基于mmseg算法的一个轻量级中文分词器，同时集成了关键字提取，关键在于提取，关键句提取和文章自动摘要等功能，并提供了一个基于Jetty的web服务器，方便各大语言直接Jcseg自带了一个jcseg.properties文件用于快速配置而得到适合不同场合的分词应用，例如：最大匹配词长，是否开启中文人名识别，是否追加拼音，是否追加名词等！ Jcseg核心功能：中文分词：mmseg算法+ Jcseg独创的优化算法，七种切分模式。关键字提取：基于textRank算
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：4mb
- 提供者：weixin_42123296

开源php中文分词系统SCWS安装和使用实例
一、SCWS简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写（即：简易中文分词系统）。这是一套基于词频词典的机械式中文分词引擎，它能将一整段的中文文本基本正确地切分成词。词是中文的最小语素单位，但在书写时并不像英语会在词之间用空格分开，所以如何准确并快速分词一直是中文分词的攻关难点。SCWS 采用纯 C 语言开发，不依赖任何外部库函数，可直接使用动态链接库嵌入应用程序，支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：62kb
- 提供者：weixin_38581405

« 12 3 »