您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 中文自动分词&全文检索@统计工具(GBK版

  2. 本系统具备中文自动分词、全文检索、统计等基本功能,具体介绍如下: 1、中文自动分词 1)能对给定的中文文本进行自动分词、词性一级、词性二级标注; 2)支持大批量文本的自动分词及词性标注处理,可处理各级子文件夹下的文件; 3)能根据待分词及标注文本的类别,加挂用户自定义词典,进一步提高分词和标注的精确度; 4)用户可对系统词典进行扩展,可添加、删除、查看系统词典,可将系统词典输出为TXT文本编辑后再转换为系统用的电子词典; 5)支持人名、地名、机构名等未登录词识别,支持基于GBK字符集的简、繁体
  3. 所属分类:专业指导

    • 发布日期:2010-04-22
    • 文件大小:3mb
    • 提供者:lonewar
  1. 中科院中文分词ictclaszyfc-v2009.zip

  2. 一、ICTCLAS简介   中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精
  3. 所属分类:嵌入式

  1. 灵柩软件 可用于汉语分词处理

  2. LJParser文本搜索与挖掘开发平台的十大功能: 1. 全文精准检索 支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现: 从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。 3. 分词标注: 对原始语料进行分词
  3. 所属分类:Web开发

    • 发布日期:2010-11-05
    • 文件大小:672kb
    • 提供者:zhangguoqiang52
  1. ICTCLAS2009版中文分词系统

  2. 中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展 用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。 分词粒度可调 可以
  3. 所属分类:C++

    • 发布日期:2012-01-02
    • 文件大小:9mb
    • 提供者:yahawami
  1. 汉语文本聚类

  2. 程序利用中科院的软件,分词、词性标注以后聚类,利用tf-idf值求出30个特征性,生成特征向量,可放在weka中聚类!
  3. 所属分类:C++

    • 发布日期:2012-03-05
    • 文件大小:5mb
    • 提供者:bengyu
  1. 中文分词软件

  2. 包含分词、词性分析、句法分析功能的小软件
  3. 所属分类:C/C++

    • 发布日期:2012-05-19
    • 文件大小:3mb
    • 提供者:luobochaofan
  1. 中文分词器nlpir Java32位开发接口

  2. 需配合完整开发包使用,NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
  3. 所属分类:Java

    • 发布日期:2013-04-15
    • 文件大小:770kb
    • 提供者:wskings
  1. 298032条中文分词词库,分词专用词性词频

  2. 298032条中文分词词库,分词专用词性词频,mdb格式,直接可导入的数据库,格式为id 自增序号、key 中文分词、att词性、num词的频率,用office Access 打开
  3. 所属分类:其它

    • 发布日期:2015-04-22
    • 文件大小:14mb
    • 提供者:xmp3x
  1. java调用NLPIR接口实现词频,词性,分词、情感等Demo(控制台输出测试)

  2. 此项目为调用NLPIR借口实现(大数据算法调用)。提供内容可实现词频,词性,分词、情感预判、聚类授权等大数据相关算法。纯java编写,二次开发性高
  3. 所属分类:Java

    • 发布日期:2016-10-20
    • 文件大小:23mb
    • 提供者:ctct2007
  1. NLPIR分词例子

  2. 中文分词、词性标注、词频统计、关键词提取、文本分类、情感分析、摘要提取
  3. 所属分类:Java

    • 发布日期:2016-10-20
    • 文件大小:26mb
    • 提供者:yulongkuke
  1. 结巴分词、词性标注以及停用词过滤

  2. 因为比赛需要用到结巴分词,所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。
  3. 所属分类:Python

    • 发布日期:2016-10-31
    • 文件大小:7mb
    • 提供者:qq_34068735
  1. 中文分词及词性标注语料

  2. 中文分词及词性标注语料,包含微软亚研院、搜狗、北京大学等的语料库
  3. 所属分类:机器学习

    • 发布日期:2017-12-18
    • 文件大小:40mb
    • 提供者:jklhj123
  1. 微软亚研的中文分词、词性标注和命名实体识别语料

  2. 微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型
  3. 所属分类:机器学习

    • 发布日期:2018-10-17
    • 文件大小:4mb
    • 提供者:u010732327
  1. klsstt_Java分词器word.1.3.1.jar

  2. 这是一个支持java的分词库,word分词库,实现语法分析和语料库统计相结合的方法,具备汉语切分技术、汉语语法分析技术、汉语依存关系分析技术。通过分词、词性标注等语义分析算法,再基于各类词库(包括专业词库、错误词库等),实现对客户提交的文献中的普通中文词汇、英文拼写、标点、数字、科技计量、重句、异形词、领导人姓名职务、领导人排序、政治性问题、目录、标题和图例公式序号等各种类型的错误。
  3. 所属分类:机器学习

    • 发布日期:2020-03-20
    • 文件大小:24mb
    • 提供者:klsstt
  1. 自然语言处理 中英文分词、词性标注与命名实体识别——文本和代码

  2. 中英文分词工具有很多,今天我们来使用Jieba、SnowNlp、nltk、thunlp、NLPIR、Stanford等六种工具来对给定中英文文本进行分词、词性标注与命名实体识别。
  3. 所属分类:Python

    • 发布日期:2019-05-24
    • 文件大小:7kb
    • 提供者:godsolve
  1. NLTK健康领域英文文本分词、词性标注、词频统计

  2. import re import numpy as np import pandas as pd import nltk.tokenize as tk import nltk.corpus as nc handel_file = 'health_handel.csv' #分词好要保存的数据文件路径 #读取数据 data=pd.read_excel('health.xlsx') print(data.head(10)) stopwords = nc.stopwords.words('engl
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:513kb
    • 提供者:weixin_38726712
  1. OpenNLP:驾驭文本,分词那些事

  2. 字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库,这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词,对于英文分词工具很多,笔者经比较ApacheOpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。维基百科:ApacheOpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包,它支持自然语言处理中一些共有的任务,例如:标记化、句子分割、词性标注、
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:183kb
    • 提供者:weixin_38722464
  1. 基于字符的中文分词、词性标注和依存句法分析联合模型

  2. 基于字符的中文分词、词性标注和依存句法分析联合模型
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:128kb
    • 提供者:weixin_38526823
  1. OpenNLP:驾驭文本,分词那些事

  2. 字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库,这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词,对于英文分词工具很多,笔者经比较Apache OpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。维基百科:ApacheOpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包,它支持自然语言处理中一些共有的任务,例如:标记化、句子分割、词性标注
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:183kb
    • 提供者:weixin_38703123
  1. Python结巴中文分词工具使用过程中遇到的问题及解决方法

  2. 本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法。分享给大家供大家参考,具体如下: 结巴分词是Python语言中效果最好的分词工具,其功能包括:分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下。 官网地址:https://github.com/fxsjy/jieba 1、安装。 按照官网上的说法,有三种安装方式, 第一种是全自动安装:easy_install jieba 或者 pip
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:97kb
    • 提供者:weixin_38632046
« 12 3 4 5 6 7 »