搜索资源 - 自动分词实现 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 自动分词实现

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

用lucene实现摘要的高亮点
类主要是符合本人项目的需求,内容摘要的高亮点实现没这么复杂,此类中不仅仅包含了内容的高亮点实现,还包含了获取xml内容和html纯文本的提取。注意一点的是在对内容进行高亮度化的过程中，其实也就是进行全文检索的过程，所以对文本内容进行分词是必不可少的。否则将无法找到文本中对应的关键词。详细请看类的实现
所属分类：Java
- 发布日期：2009-08-28
- 文件大小：132kb
- 提供者：lsyaxue

中文网页自动分类器
利用knn算法实现了一个中文网页自动分类器，包括网页预处理，ictclas中文分词，基于tf-idf的文本特征表示，基于df的特征选取和基于knn的分类算法，最后通过struts2框架web发布
所属分类：其它
- 发布日期：2007-11-26
- 文件大小：173kb
- 提供者：Mars587

中文分词十年回顾自动分词系统
过去的十年间，尤其是2003年国际中文分词评测活动Bakeoff开展以来，中文自动分词技术有了可喜的进步。其主要表现为：(1)通过“分词规范+词表+分词语料库”的方法，使中文词语在真实文本中得到了可计算的定义，这是实现计算机自动分词和可比评测的基础；(2)实践证明，基于手工规则的分词系统在评测中不敌基于统计学习的分词系统；(3)在Bakeoff数据上的评估结果表明，未登录词造成的分词精度失落至少比分词歧义大5倍以上；(4)实验证明，能够大幅度提高未登录词识别性能的字标注统计学习方法优于
所属分类：其它
- 发布日期：2011-04-10
- 文件大小：1mb
- 提供者：lwccb

中文自动分词和词性标注
本资源包括源代码，ppt，技术报告，能够实现中文的自动分词，词性标注。代码是java编写，用eclipse工具实现。是我们自然语言的课程设计。供大家之用
所属分类：Java
- 发布日期：2011-12-31
- 文件大小：7mb
- 提供者：hexiangnc

中文分词的小系统
中文分词得小系统，基本功能已实现，但还有很多地方有待改进，没有实现自动学习，人名识别等功能
所属分类：C++
- 发布日期：2013-02-19
- 文件大小：1mb
- 提供者：qq1377203712

pscws23-20081221.tar.bz2【中文分词】
php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为
所属分类：PHP
- 发布日期：2013-09-08
- 文件大小：2mb
- 提供者：yao__shun__yu

中文自动分词控件演示
何谓自动分词，自动分词就是将用自然语言书写的文章、句段经电子计算机处理后，以词为单位给以输出，为后续加工处理提供先决条件。此技术对于信息分析、情报检索、机器翻译、数据库管理和人工智能等IT应用方面有着关键性的作用。自动分词的实现，对于拉丁语系来说并不困难，其语言文字的形成结构中，词与词之间本身就有着明显的间隔符（如：空格、标点符号等），但对于中文来说，就是一个至今仍未能得以很好解决的技术难题，中文词与词之间没有着明显的间隔符，甚至连标点符号都没有的古文更是为难了。当今，国内外IT界的一些仁人
所属分类：VB
- 发布日期：2013-10-05
- 文件大小：1mb
- 提供者：u012338840

基于java的中文自动分词（自然语言处理）
java语言实现的中文自动分词软件，包含工程源码、可执行文件以及测试文件。该分词程序的切词正率和召回率较高。
所属分类：Java
- 发布日期：2014-03-09
- 文件大小：3mb
- 提供者：ma718001

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法
word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file
所属分类：Java
- 发布日期：2014-11-05
- 文件大小：10mb
- 提供者：love_hachi

汉语自动分词
调用“海量智能分词”提供的动态链接库，实现汉语自动分词，并且搭建图形界面用于操作和显示。首先下载“海量智能分词”软件，解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.lib。同时要将HLSSplit.lib、HLSegFunc.h、HLPubDef.h拷贝至工程目录下，将HLSSplit.dll、HLSplitWord.dat拷至Debug目录下。（上述文件已经
所属分类：C++
- 发布日期：2014-12-30
- 文件大小：6mb
- 提供者：u010839382

word-1.3.1.jar中文分词
word 分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。
所属分类：Hadoop
- 发布日期：2017-09-26
- 文件大小：24mb
- 提供者：shuaigexiaobo

~中文网页自动分类器~
利用knn算法实现了一个中文网页自动分类器，包括网页预处理，ictclas中文分词，基于tf-idf的文本特征表示，基于df的特征选取和基于knn的分类算法，最后通过struts2框架web发布
所属分类：其它
- 发布日期：2008-12-13
- 文件大小：173kb
- 提供者：liuchuanfengok

中文自动分词哈工大-中文信息处理实验二实验报告
中文自动分词 1. 使用任意分词方法实现汉语自动分词； 2. 给出至少1000个句子的分词结果（以附件形式）； 3. 计算出分词结果的正确率，并给出计算依据； 4. 用实例说明所用分词方法分别对“交叉歧义”和“组合歧义”的处理能力； 5. 提交实验报告，给出详细实验过程和结果；提交源代码和可执行程序。
所属分类：Python
- 发布日期：2018-07-06
- 文件大小：376kb
- 提供者：qq_32285991

C++中文分词+自动标引范例
C++中文分词，实现自动标引.可用于信息检索课程时间学习资料。
所属分类：C/C++
- 发布日期：2013-10-27
- 文件大小：934kb
- 提供者：jiangxue_666

Python 结巴分词实现关键词抽取分析
1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。除了这些，关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文档看成一个团簇，可以大大提高聚类算法的收敛速度；从某天所有的新闻中提取出这些新闻的关键词，就可以大致了解那天发生了什么事情；或者将某段时间内几个人的微博拼成一篇长文本，然后抽取关键
所属分类：其它
- 发布日期：2020-12-25
- 文件大小：123kb
- 提供者：weixin_38661939

pinyin-plus：简繁体汉字转拼音的项目，解决多音字的问题。ElasticSearch，solr的拼音分词工具-源码
拼音加汉字转拼音的库，有如下特点拼音数据基于，开放词库基于拼音词库的数据初始化分词引擎进行分词，正确度高，解决多音字的问题支持繁体字支持自定义词库，词库格式同cc-cedict字典格式 api简单，分为普通模式，索引模式使用场景汉字转拼音，常用于索引引擎场景创建拼音的索引，这个场景的问题一般由两种实现路径，一种是直接使用带拼音的分词插件，会自动帮你创建出拼音的索引，还有一种就是自己将汉字转换为拼音字符串，采用间隔分隔分词来达到自定义化索引的目的。恰恰是实现路径，都离不开分词和拼
所属分类：其它
- 发布日期：2021-03-03
- 文件大小：3mb
- 提供者：weixin_42128988

ansj_seg：ansj分词.ict的真正的Java实现。分词效果速度都超过了开源版的ict。中文分词，人名识别，词性标注，用户自定义词典-源码
Ansj中文分词使用帮助开发文档：，摘要这是一个基于n-Gram + CRF + HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96％以上。目前实现了中文分词，中文姓名识别，用户自定义词典，关键字提取，自动摘要，关键字标记等功能。可以应用到自然语言处理等方面，适用于对分词效果要求高的各种项目。专家 org.ansj ansj_seg
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：24mb
- 提供者：weixin_42102401

HanLP：中文分词词性标注命名实体识别依存句法分析语义依存分析新词发现用自动生成的摘要进行文本分类聚类拼音简繁转换自然语言处理-源码
HanLP：汉语言处理 || || 面向生产环境的多语种自然语言处理工具包，基于PyTorch和TensorFlow 2.x双引擎，目标是普及落地最前沿的NLP技术。HanLP实现功能完善，性能高效，架构清晰，语料时新，可自定义的特点。穿越世界上最大的多语言种语料库，HanLP2.1支持包括简繁中英日俄法德内部的104种语言上的10种联合任务：分词（粗分，细分2个标准，强制，合并，校正3种），词性标注（PKU，863，CTB，UD四套词性规范），命名实体识别（PKU，MSRA，OntoNot
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：757kb
- 提供者：weixin_42134054

基于DRIS系统中的中文自动分词模块设计与实现
随着信息检索技术越来越受到人们的重视，其中的中文自动分词技术就显得越来越重要。计算机通过对文本中的词语进行识别与处理，直接将结果传送给搜索引擎进行检索。文中在域内资源整合系统（DRIS）的基础上，设计并开发了一个全新的中文自动分词模块。通过算法的比对，选择了正向匹配算法作为该模块的基本算法，对其文件结构，中文词典初始化及识别处理过程做出详细介绍。经后期使用后可比较出该模块在检索效率与服务质量上都有了很大程度上的提高，达到了设计要求。
所属分类：其它
- 发布日期：2021-01-27
- 文件大小：3mb
- 提供者：weixin_38732924

用python实现前向分词最大匹配算法的示例代码
理论介绍分词是自然语言处理的一个基本工作，中文分词和英文不同，字词之间没有空格。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。可以将中文分词方法简单归纳为： 1.基于词表的分词方法 2.基于统计的分词方法 3.基于序列标记的分词方法其中，基于词表的分词方法最为简单，根据起始匹配位置不同可以
所属分类：其它
- 发布日期：2021-01-19
- 文件大小：64kb
- 提供者：weixin_38534352

« 12 3 4 5 6 7 8 9 10 »