您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于新的关键词提取方法的快速文本分类系统

  2. 关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度 考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法 (,-),并利用.,/0, 算法来筛选出关键词以完成将123 文档进行快速有效分类的目的。实验表明,该方法在不 影响分类准确率的情况下,分类的速度明显提高。
  3. 所属分类:其它

    • 发布日期:2009-08-10
    • 文件大小:114kb
    • 提供者:taipinghai
  1. 一种基于改进最大匹配快速中文分词算法

  2. 提出了一种基于最大匹配快速中文分词算法的改进算法。通过对最大匹配分词算法做出改进,从而解决了最大匹配快速中文分词算法所不能解决的一些问题,并得出较准确的粗分结果
  3. 所属分类:其它

    • 发布日期:2009-11-02
    • 文件大小:29kb
    • 提供者:ykeyan
  1. 淘特站内搜索引擎(C#版)

  2. +系统介绍+ 淘特站内搜索引擎是由淘特JSP搜索引擎发展而来,系统基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。 +安装说明+ 本系统使用asp.net+C#开发,系统运行于.net framework2.0以上版本环境中。通过将文件上传到服务器,并开通系统中tot目录e
  3. 所属分类:C#

    • 发布日期:2010-04-26
    • 文件大小:363kb
    • 提供者:cctcc
  1. 淘特站内搜索引擎(C#版) v2.1 源码

  2. 淘特站内搜索引擎是由淘特JSP搜索引擎发展而来,系统基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。 本系统使用asp.net+C#开发,系统运行于.net framework2.0以上版本环境中
  3. 所属分类:C#

    • 发布日期:2010-10-31
    • 文件大小:583kb
    • 提供者:yuanhongcs
  1. 基于关键词提取方法的快速文本分类系统

  2. 关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度 考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法 ( FS) ,并利用TFIDF算法来筛选出关键词以完成将Web文档进行快速有效分类的目的。实验表明,该方法在不 影响分类准确率的情况下,分类的速度明显提高。 关键词: 计算机应用; 中文信息处理; 关键词提取; Web文档分类
  3. 所属分类:其它

    • 发布日期:2011-07-08
    • 文件大小:192kb
    • 提供者:vcd
  1. 中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

  2. word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 分词使用方法: 1、快速体验 运行项目根目录下的脚本demo-word.bat可以快速体验分词效果 用法: command [text] [input] [output] 命令command的可选值为:demo、text、file
  3. 所属分类:Java

    • 发布日期:2014-11-05
    • 文件大小:10mb
    • 提供者:love_hachi
  1. 基于lucene的搜索引擎总结

  2. 浅谈网络搜索引擎的实现 知识管理系统网络搜索模块开发实践交流 功能需求 可自定义要搜索的网站列表(以下简称目标列表) 可对目标列表网站的网页内容进行检索 可对目标列表网站的网页内容进行自动分类处理 可自定义更新周期及一些相关性能参数 系统主要功能模块 网络蜘蛛 采集、解析并保存目标列表网站的内容(网页) 全文索引/检索 为目标列表网站内容建立索引 提供内容的全文检索 自动分类 对目标列表网站内容进行分类 基本流程 网络蜘蛛 功能概要 目标文档地址队列 w/r 目标文档(网页)获取 目标文档保存
  3. 所属分类:网络基础

    • 发布日期:2008-10-28
    • 文件大小:155kb
    • 提供者:xinkeji
  1. 基于KMP思想的模式匹配算法及vc++实现

  2. 一种改进的字符串匹配算法,由D.E.Knuth与J.H.Morris和V.R.Pratt同时发现,简称KMP。关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现的关键是next函数。简述分词算法之正向最大匹配法。
  3. 所属分类:讲义

    • 发布日期:2015-09-22
    • 文件大小:18mb
    • 提供者:CXHPLY
  1. jcseg-1.9.7.zip

  2. Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口, Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等! PS:压缩包中含有jcseg-core-1.9.7.jar、jcseg-analyzer-1.9.7.ja
  3. 所属分类:Java

    • 发布日期:2015-12-17
    • 文件大小:804kb
    • 提供者:li277967151
  1. 多次Hash快速分词算法

  2. 一个分词算法,搜索引擎都会用的分词算法,多次Hash快速分词算法
  3. 所属分类:其它

    • 发布日期:2008-11-24
    • 文件大小:231kb
    • 提供者:sjlianan
  1. 易搜索站内全文检索搜索引擎

  2. 导航的根源在于分类,当有100条信息的时候,我们使用类别来定位信息,当有10000条信息的时候,我们用标签来定位信息,当有100..00条信息的时候,无论怎么分类都是难以寻找的,于是就有了搜索… 当一个网站信息越积越多,搜索将会变得越来越重要。以至于终于有一天,当网站发现50%以上的用户来到你的网站第一件事是搜索的时候,搜索就将成为没有“导航”的导航。因此站内搜索成了网站建设的当务之急。随着网络应用的深入,信息量的爆炸性增长,站内搜索成为每个优秀网站必须具备的功能。纵观中国大中小网站,绝大多数
  3. 所属分类:其它

    • 发布日期:2008-12-27
    • 文件大小:223kb
    • 提供者:redmethod
  1. 一种快速分词方法可以分词10MB/s

  2. 一种快速分词方法,是一种较好的算法策略,可以作为课程设计使用,代码包含其中,但仅仅作为学习使用,不可以用于商业用途,否则后果自负。
  3. 所属分类:其它

  1. jcseg,Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接 http 调用,同时提供了最

  2. Jcseg是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接 http 调用,同时提供了最新版本的 lucene, solr, elasticsearch 的分词接口!Jcseg自带了一个 jcseg.properties 文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!
  3. 所属分类:其它

  1. 快速构建PHP全文检索——马明练

  2. 信息检索,全文检索,IR基础,反向索引,同步机制,批量处理检索比较 全文检索数据库LKE 索引使用事先建好的全文索引用不到索引,只能遍历匹配 % eight%也会匹配 height 匹配效笑/通过分词器切割匹配,良好\9m%me就不能匹配颠 支持中文、英文词干 倒的ⅹx.net. XXX. COm 相关度基于概率模型的相关性算无相关算法,匹配一次或多次 法,越相关的排在越前面 无明显区别 可定制通过定制分词器,实现不同 索引规则 难以定制 结论支持大数据,性能高效果好/效率低,相关性差,模糊检索
  3. 所属分类:PHP

    • 发布日期:2019-03-04
    • 文件大小:1mb
    • 提供者:danyidanfei
  1. Jcseg中文分词器 v2.6.2

  2. 为您提供Jcseg中文分词器下载,Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr,elasticsearch的分词接口!Jcseg自带了一个jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是
  3. 所属分类:其它

  1. scws:开源免费的简易中文分词系统,PHP分词的上乘之选!-源码

  2. SCWS的自述文件 $ Id $ SCWS简介 是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分开的词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用间隔分开,所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS采用纯C语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的中文编码包括GBK , UTF-8等。几乎还提供了扩展模
  3. 所属分类:其它

  1. 一种基于主题词表的快速中文文本分类技术

  2. 针对中文文本的自动分类问题,提出了一种新的算法。该算法的基本思路是构造一个带权值的分类主题词表,该词表采用键树的方式构建,然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:509kb
    • 提供者:weixin_38519763
  1. Introduction-NLP:HanLP作者的新书《自然语言处理入门》详细笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,

  2. 简介-自然语言处理 汉良作者何晗老师的新书《自然语言处理入门》详细的笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,文本分类,句法分析这几个热门问题的算法原理与工程实现。 本项目初步帮助更多同路人能够快速的掌握NLP的专业知识,理清知识要点,在工作中发挥作用的作用。以书本为主,记录本人学习此书的心路历程,总结和笔记。 机器学习与深度学习请转至本人项目: HanLP项目: 思维导
  3. 所属分类:其它

  1. jcseg:Jcseg是用Java开发的轻量级NLP框架。 提供基于MMSEG算法的CJK和英语细分,并基于TEXTRANK算法实现关键词提取,关键句提取,摘要提取。 Jcseg具有内置的http服务器和用于最新lucene,solr,el

  2. Jcseg是什么? Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键在于提取,关键句提取和文章自动摘要等功能,并提供了一个基于Jetty的web服务器,方便各大语言直接Jcseg自带了一个jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加名词等! Jcseg核心功能: 中文分词:mmseg算法+ Jcseg独创的优化算法,七种切分模式。 关键字提取:基于textRank算
  3. 所属分类:其它

  1. 开源php中文分词系统SCWS安装和使用实例

  2. 一、SCWS简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:62kb
    • 提供者:weixin_38581405
« 12 3 »