搜索资源 - 分词训练语料库 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 分词训练语料库

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

sogou语料库迷你版本
sogou 预料库的迷你版本，可用于中文分词的测试，就是一个训练集
所属分类：Java
- 发布日期：2009-06-05
- 文件大小：166kb
- 提供者：chang84629

人民日报（北大）语料库
分词训练语料库，仅供学习和研究使用，禁止用于商业行为
所属分类：专业指导
- 发布日期：2009-10-31
- 文件大小：8mb
- 提供者：xufengye256

svmcls文本分类程序（含C++源代码+语料库）完整版
svmcls 2.0文本自动分类器支持中文和英文文档，特征选择方式包括全局和按类别选取，概率估算方法支持基于文档（布尔）统计和基于词频统计，支持三种特征加权方式，特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计，文本证据权重，右半信息增益，分类方法包括支持向量机SVM和K近邻KNN，由李荣陆老师于2004年开发完成。网上流传很多版本的svmcls文本分类程序，但几乎全部都是不能编译通过的，有些是缺少xercesc文件夹，有些是缺少xerces-c_2_2_0D.dll，有些是缺少分词
所属分类：C
- 发布日期：2010-04-30
- 文件大小：19mb
- 提供者：moxibingdao

最大匹配法文本分词
基于最大匹配的正向分词和反向分词。通过与训练语料库中进行比对，来对指定文本文件进行分词。训练语料库是人民日报1998年1月的文章，训练语料库是已经分好词的
所属分类：C++
- 发布日期：2011-12-25
- 文件大小：7mb
- 提供者：hzh416

英文语料库
用于英文分类的测试集和训练集应用，分词，去停用词处理
所属分类：Java
- 发布日期：2016-03-04
- 文件大小：16mb
- 提供者：zhangsiyututu

基于NLPIR分词工具的识别准确语句程序java版（2-Gram）
自然语言处理(Natural Language Processing)，马尔科夫假设，根据给出的语料库（大量语法合法的文本），训练n-gram模型。根据训练出的模型，判断测试集中每个句子是不是语法合法的句子.。根据语料库训练n-gram模型。根据训练出来的n-gram模型对测试集中的每个句子赋予概率值，判断句子是否符合语法。
所属分类：Java
- 发布日期：2016-03-21
- 文件大小：10mb
- 提供者：hongtao_scau

维基百科中文语料word2vec训练后结果
中文维基百科语料库，将其转换为文本文件后，进行繁体字转换为简体字，字符集转换，分词，然后训练得到模型以及向量。由于文件上传的大小限制是60MB，而训练后的所有文件大小有1G以上，所以这里只提供了下载链接，地址在网盘中。使用python中的gensim包进行训练得到的，运行时间较长，纯粹的维基百科中文语料训练后的结果，拿去可以直接使用。
所属分类：机器学习
- 发布日期：2017-06-03
- 文件大小：234byte
- 提供者：yangyangrenren

香港城市大学语料库；微软亚洲研究院语料库；北京大学语料库；
香港城市大学语料库（1 772 202 字，训练集）、微软亚洲研究院语料库（1 089 050 字，训练集）、北京大学语料库（1 833 177 字，训练集）
所属分类：其它
- 发布日期：2017-06-14
- 文件大小：41mb
- 提供者：u010105243

人民日报中文分词语料库
用于HMM中文分词训练，代码可以参见：https://blog.csdn.net/qq_38593211/article/details/81637029
所属分类：机器学习
- 发布日期：2018-08-13
- 文件大小：16mb
- 提供者：qq_38593211

小黄鸡对话语料，一共三份，未处理、单个词切分、结巴分词处理
该文档是网传的小黄鸡语料库，经过简单的数据预处理，已保存为conv文件格式，每一个E代表一段对话的开始，详见语料库内容，经本人测试，语料训练效果还不错，有志于学习NLP相关课程的同学可以下载做个小案例
所属分类：深度学习
- 发布日期：2019-01-03
- 文件大小：16mb
- 提供者：xl12306

小黄鸡-未分词-语料库
来源于人人网小黄鸡语料库，经过一部分处理后，但是并没有分词，可以用于对于中文的常用对话系统训练，也可以进行普通的中文自然语言处理。
所属分类：机器学习
- 发布日期：2019-01-15
- 文件大小：9mb
- 提供者：hampeter

搜狗文本分类语料库-中文文本分类
实现文本分类的主要包括几个步骤文本分词处理，特征选择，特征权重计算，文本特征向量表示，基于训练文本的特征向量数据训练SVM模型，对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类，达到93%的准确率
所属分类：机器学习
- 发布日期：2019-02-25
- 文件大小：26mb
- 提供者：wydewy

Android代码-Java 实现的自然语言处理中文分词
HanLP: Han Language Processing 汉语言处理包 HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP提供下列功能：中文分词 HMM-Bigram（速度与精度最佳平衡；一百兆内存）最短路分词、N-最短路分词由字构词（侧重精度，全世界最大语料库，可识别新词；适合NLP任务）感知机分词、CRF分词词典分词（侧重速度，每
所属分类：其它
- 发布日期：2019-08-06
- 文件大小：21mb
- 提供者：weixin_39840924

中文文本分类_新闻语料库.zip
做毕设自用的中文新闻文本分类语料库，整理自搜狗新闻和清华新闻语料，共八个类别，每类已分好4000条训练集和1000条测试集。附赠一份停用词表，综合了哈工大停用词及川大停用词。
所属分类：机器学习
- 发布日期：2020-04-06
- 文件大小：47mb
- 提供者：qq_39496504

中文维基百科语料库百度网盘网址.txt
本资源是维基百科中文网页的语料库（包含处理过的与未处理的），版本为2020-8-3版本，可适用于中文语料处理等训练集。由于文件过大，放在的百度网盘中，如果网盘被和谐或者其他原因造成的无法打开，请评论留言，本人看到后立即更改。文件中包含的内容有：未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码，读者可根据自己的需要进行相应的提取。
所属分类：Python
- 发布日期：2020-08-10
- 文件大小：769byte
- 提供者：qq_35357274

【项目小结】GEC模型中的难点：分词（Tokenizer）与回译（Backtranslation）
前排提示本文涉及的数据集及外部文件在以下链接共享。包括 Lang-8 语料库，词形转换表（涉及79024组变换）与一些有用的pickle文件。链接：https://pan.baidu.com/s/1fW266ZSLoZeEaRCl2yVQCg 提取码：yfhm 序言 GEC模型的概念及解决方案可以参考我之前写的一些论文提纲，但无论采用什么样的解决思路，都绕不开很多瓶颈性的问题。笔者根据自己近期基于 CONLL2014 任务尝试的经验，就训练数据短缺的解决方案给出两点参考及其代码实现：寻
所属分类：其它
- 发布日期：2020-12-22
- 文件大小：120kb
- 提供者：weixin_38551376

文本分析——gensim库word2vec学习笔记
文章目录模型原理模型参数建立模型模型的建立模型的保存保存与继续训练模型还是保存模型问题再训练模型评估模型使用查看每一个词语对应的向量表示查看与某个词语相似度排名的其他词语找到不同类型的词语写在前面：word2vec模型最后生成的是一个词嵌入矩阵，每一列对应一个单词的词向量，这个词向量是从高维映射到低维中得到的。采用这个gensim库中的word2vec函数，输入是一个分词后的嵌套语料列表，输出一个词嵌入矩阵。模型原理参见：这篇文章同时更加建议去看看吴恩达深度学习序列模型部分，介绍得深入浅
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：114kb
- 提供者：weixin_38528888

ID-CNN-CWS：源代码和论文“用于中文分词的迭代扩张卷积”的语料库-源码
ID-CNN-CWS 源代码和论文“用于中文分词的迭代膨胀卷积”的论文集。它为CWS实现以下4种模型：双LSTM 双LSTM-CRF 身份识别 ID-CNN-CRF 依存关系 Python> = 3.6 TensorFlow> = 1.2 同时支持CPU和GPU。 GPU训练速度提高了10倍。制备运行以下脚本以将语料库转换为TensorFlow数据集。 $ ./scr ipts/make.sh 训练与测试快速开始 $ ./scr ipts/run.sh $d
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：27mb
- 提供者：weixin_42109545

GPT2-中文：使用BERT标记工具的中文版GPT2培训代码-源码
GPT2-中文描述中文版本的GPT2培训代码，使用BERT标记程序或BPE标记程序。它基于HuggingFace团队的极其强大的存储库。可以写诗，新闻，小说或训练通用语言模型。支持字符级别，单词级别和BPE级别。支持大型训练语料库。中文的GPT2训练代码，使用BERT的令牌生成器或句子的BPE模型（感谢的贡献，实现BPE模式需要略微修改train.py的代码）。可以写诗，新闻，小说，或者训练通用语言模型。支持字为单位或分词模式或BPE模式（需要略微修改train.py的代码）。支持
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：13mb
- 提供者：weixin_42168265

TextClassification：基于scikit-learn实现对新浪新闻的文本分类，数据集为100w篇文档，总计10类，测试集与训练集1：1划分。分类算法采用SVM和Bayes，其中Bayes作为基线-源码
新浪新闻文本分类语料库重建本项目的语料来源新浪新闻网，通过spider.py爬虫模块获得全部语料，总计获得10类新闻文本，每一类新闻文本有10条。采纳新浪新闻网的一个api获取新闻文本，api的url为使用进度池并发执行爬虫，加快抓取速度。数据预处理本项目的数据预处理包括：分词处理，去噪，向量化，由stopwords.py模块，text2term.py模块，vectorizer.py模块实现。本项目借助第三方库解霸完成文本的分词处理。通过停用词表移除中文停用词，通过正则表达式消除
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：98kb
- 提供者：weixin_42128270

« 12 »