搜索资源 - 分词部分代码 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 分词部分代码

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

lucene开发部分例子
主要包括： Web搜索引擎开发实例搜索结果的处理和显示搜索请求的构建和解析索引的管理中文分词桌面搜索引擎开发实例
所属分类：Web开发
- 发布日期：2010-07-12
- 文件大小：14mb
- 提供者：MyCentury

php搜索引擎之分词算法
本人写的搜索引擎部分抓词，里面含有数据库配置文件，以及本人开发心得。需要的可以下载来看看。采用的是正向最大匹配算法。目前只是分词部分结束。前台是简单的页面。使用了smarty模版分离代码。
所属分类：其它
- 发布日期：2010-07-14
- 文件大小：250kb
- 提供者：robert8803

网趣网上购物系统的部分特点与精华
网趣网上购物系统的部分特点与精华：　　一、支持商品批量增加、批量修改功能，所有商品可一次修改完成，特别方便！　　二、支持7种在线支付：北京网银、NPS、快钱、贝宝、云网、支付宝、财付通接口。　　三、率先支持Excel批量导入商品功能，下载Excel模板批量添加商品一次完成！　　四、删除商品的同时，可以自动删除商品图片，大大节约空间! 　　五、可以选择修改商品时上传图片是否覆盖原有图片，节约宝贵的空间! 　　六、率先支持商品图片水印设置，彰显网站的独特风格！　　七、支持商品三级分类设置
所属分类：Flash
- 发布日期：2010-08-08
- 文件大小：4mb
- 提供者：yjiawen

搜索引擎代码
E桶金行业搜索引擎系统（包含多线程客户端蜘蛛系统） V1.6 版发布！ E桶金行业搜索引擎特别适用于超大、中型信息门户、行业门户、电子商务等网站使用。它是一款真正意义上的搜索引擎:具有自己的蜘蛛、分词、索引、搜索等全套功能。而且所有功能全部基于web页面完成，您只需要购买一款支持asp.net的虚拟主机就能完成本程序的部署，网站轻松上线。本程序具有毫秒级高速搜索, 搜索结果相关度排序。多关键词搜索、超长词条搜索、关键词高亮显示。该程序为ASP.NET2.0版本程序，只要空间支持as
所属分类：C#
- 发布日期：2011-09-19
- 文件大小：8mb
- 提供者：ntk2006

中文分词部分代码
中文分词已实现了1、一维线性表 2、首字Hash 3、双Hash 三种词典的存储结构与表现形式。首先来看一下词典结构的接口Interface： java 代码
所属分类：Java
- 发布日期：2012-08-21
- 文件大小：4kb
- 提供者：lq1121028216

信息检索中knn分类器
代码包括两部分：第一部分：控制台程序，实现了包括从下载网页到构建vsm的knn分类的整个预处理过程。设计到下载网页、提取网页文本、将文本分词（用到计算所分词系统）、构建词典及vsm。第二部分：knn分类器。
所属分类：C++
- 发布日期：2012-09-11
- 文件大小：17mb
- 提供者：handongyexue

《ajax+Lucene构建搜索引擎》源代码完全版
本下载包含了原书提供的光盘代码并补全了所缺少的部分，完全可用。 1.添加了Lucene1.4.3的Jar包。 2.添加了所有和中科院中文分词相关的程序如ICTCLAS.dll文件和data目录下的词库。 3.添加org.apache.lucene.analysis.cjk包下的两个文件。 5.添加了在ch13中缺少的MockFilter.java类本书实例丰富。本书包括了大量的代码片断，并都给予了充分了注释。在Ajax的部分中，除了基本的理论讲解外，我们专门拿出了一章来讲解一些实用的Ajax
所属分类：Web开发
- 发布日期：2006-05-28
- 文件大小：0byte
- 提供者：microrain

mmseg4j-all-1.9.0.v20120712-SNAPSHOT.jar (非Bug版）
mmseg4j是一个很出色的中文分词器，当前最新版本为1.9，官方的版本和solr4.0组合使用时因为solr4.0接口的变化导致无法正常运行，所以需要对mmseg4j中的部分代码进行修改，该版本是本人修改后的版本，测试后可以正常工作！
所属分类：Java
- 发布日期：2013-01-14
- 文件大小：99kb
- 提供者：keepthinking_

pscws23-20081221.tar.bz2【中文分词】
php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为
所属分类：PHP
- 发布日期：2013-09-08
- 文件大小：2mb
- 提供者：yao__shun__yu

自然语言处理全集_代码结构说明.doc
自然语言处理(汉语)算法实现，Java语言实现，经过优化，效率很高。主要包括： 1）汉语分词，采用ICTCLAS系统和Lucene+庖丁解牛系统 2）情感倾向性分析，包括基于统计学习的SVM算法，基于情感词典的词语权重算法，给出文档的情感权重和情感倾向 3）文本聚类，包括KMeas算法实现，文档向量建模，以及采用Weka API 库效率比较 4）词语关系网络，包括词语距离计算，构建词语的近似程度，并刻画词语网络图 5）抽象摘要，采用TFIDF计算文档关键词进行摘要和关键字提取经过部分优化，对
所属分类：Java
- 发布日期：2014-11-29
- 文件大小：25kb
- 提供者：lixufeng1992

scws23-php
===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为 FTPHP 项目
所属分类：PHP
- 发布日期：2015-03-24
- 文件大小：3mb
- 提供者：u014581691

高版本Lucene的IK分词器
maven库中现有的ik分词器只支持低版本的Lucene，想要支持高版本的Lucene，需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目，在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。
所属分类：Java
- 发布日期：2017-08-30
- 文件大小：2kb
- 提供者：w26245

java版结巴分词工具
java版结巴分词工具，一个很好的中文分词工具。直接用eclipse打开，输入是一篇文章，然后输出是每个词的词频，并且词频是按照大小从次数最高到次数最低排的，只需要在test包里改部分代码就可以使用了。不下你会后悔的。
所属分类：Java
- 发布日期：2017-11-29
- 文件大小：3mb
- 提供者：qq_33654685

贝叶斯分类实现垃圾信息分类支持中文分词
基于贝叶斯分类的中文垃圾信息分类识别核心核心代码，可直接运行的源程序。public void loadTrainingDataChinies(File trainingDataFile,String infoType) { //加载中文分词其 NLPIR.init("lib"); // System.out.println(trainingDataFile.isFile()+"=============="); // 尝试加载学习数据文件 try { // 针对学习数据文件构建缓存的字符流，利
所属分类：机器学习
- 发布日期：2018-11-28
- 文件大小：14kb
- 提供者：fsgood520

Python中文分词库Yaha.zip
"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能：精确模式，将句子切成最合理的词。全模式，所有的可能词都被切成词，不消除歧义。搜索引擎模式，在精确的基础上再次驿长词进行切分，提高召回率，适合搜索引擎创建索引。备选路径，可生成最好的多条切词路径，可在此
所属分类：其它
- 发布日期：2019-07-16
- 文件大小：6mb
- 提供者：weixin_39841856

中文分词器jcseg支持人名识别mmseg四种过滤算法分词准确率达到了97%以上。支持自定义词库。在lexicon文件夹下可以随便添加删除更改词库和词库内容并且对词库进行了分类.zip
中文分词器jcseg支持人名识别mmseg四种过滤算法分词准确率达到了97%以上。支持自定义词库。在lexicon文件夹下可以随便添加删除更改词库和词库内容并且对词库进行了分类.zip,太多无法一一验证是否可用，程序如果跑不起来需要自调，部分代码功能进行参考学习。
所属分类：其它
- 发布日期：2019-07-30
- 文件大小：2mb
- 提供者：weixin_39840387

PHP中文分词的简单实现代码分享
对于中文搜索引擎来说，中文分词是整个系统最基础的部分之一，因为目前基于单字的中文搜索算法并不是太好。
所属分类：其它
- 发布日期：2020-10-28
- 文件大小：47kb
- 提供者：weixin_38712548

python jieba 分词的一系列代码
jieba snownlp bs4 等包的使用，包括tf-idf算法等，具体方法见代码注释部分。练习数据也在文件夹中 11111111111
所属分类：Python
- 发布日期：2020-11-28
- 文件大小：5mb
- 提供者：weixin_44555728

Witcher-nlp-analysis:对《猎魔人》系列小说中文译本（主要是没找到英文原版的数据集）做的一个简单的nlp分析，包括分词，词频统计，词向量的计算，相似度的计算和二维，三维的可视化-源码
巫师nlp分析假期刷了猎魔人的美剧，又心血来潮重新半通关了而巫师3主线，无意间看到了一个把冰与火之歌拿出来做分析的项目，于是我就想《猎魔人》系列能不能也做一个这种简单的nlp分析和可视化。找了全网也没见到相似的项目（Github上一搜Witcher全都是mod），决定自己动手试一试。核心部分的代码放在了里面，很多结果已经可视化，甚至不懂数据分析和python的同学也可以看。洗数据的代码放在了里面
所属分类：其它
- 发布日期：2021-03-11
- 文件大小：28mb
- 提供者：weixin_42131424

C++代码实现逆波兰式
100行以内C++代码实现逆波兰式逆波兰式（Reverse Polish notation，RPN，或逆波兰记法），也叫后缀表达式（将运算符写在操作数之后）。算术表达式转逆波兰式例子：逆波兰式整体的算法流程图如下：下面给出我基于C++ 语言对逆波兰式算法的实现代码，值得注意的是： 1、算法中对操作数，仅支持一个字符的字母或数字的操作数，如：x，y，j，k，3，7等；如果要支持多个字符的操作数，如：var1，3.14等。需要读者自己扩展对算术表达式操作数的分词部分的代码。 2、为了为
所属分类：其它
- 发布日期：2021-01-19
- 文件大小：84kb
- 提供者：weixin_38599712

« 12 3 4 5 »