搜索资源 - 分词数据集 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 分词数据集

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

基于CRFs 的中文分词和短文本分类技术.pdf
本文的工作主要包括两部分：第一部分，我们借用了文本分类领域的特征选择算法对中文分词中的特征进行分析。分析结果表明，特征选择算法在中文分词的任务中也是适用的。在中文分词领域，基于字标注的方法得到广泛应用。通过字标注系统，中文分词任务被转换为序列标注任务，许多成熟的机器学习算法得以应用。评测结果表明，在众多的机器学习算法中，基于CRFs的分词器可以达到state-of-the-art的分词效果。CRFs分词器对于给出的每一个切分，都可以提供置信度。在本文中，我们深入调研了CRFs提供的置信度，在此
所属分类：其它
- 发布日期：2011-01-04
- 文件大小：1mb
- 提供者：chwbin

基于文本集密度的特征词选择与权重计算方法
数据挖掘文献,分词权重计算
所属分类：专业指导
- 发布日期：2008-03-24
- 文件大小：188kb
- 提供者：linseng129

python写的基于感知机的中文分词系统
基于字的用感知机实现的中文分词系统。完全训练后对微软的测试集精度可以达到96%多。我上传的版本是完整的代码（训练和分词），大家自己用附带的微软训练数据训练就可以了，只有一个文件。代码总的来说写的还是很清楚的，方便自己也方便别人阅读。欢迎大家共讨论,xiatian@ict.ac.cn。
所属分类：Python
- 发布日期：2008-05-26
- 文件大小：4mb
- 提供者：SummerRain2008

百度分词词库
中文分词不同于英文分词。该数据集是百度中文分词词库。
所属分类：其它
- 发布日期：2014-01-02
- 文件大小：416kb
- 提供者：nacozz

庖丁分词测试数据集工具
庖丁分词测试数据集工具
所属分类：Java
- 发布日期：2016-02-29
- 文件大小：14mb
- 提供者：qq1010885678

微软亚洲研究院中文分词语料_icwb2-data
微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
所属分类：机器学习
- 发布日期：2018-04-09
- 文件大小：40mb
- 提供者：crdxg

11款开放中文分词引擎测试数据
11款开放中文分词引擎测试数据 benchmark 人工标注“标准答案” origin 标注原始数据 news 新闻数据 weibo 微博数据 auto_comments 汽车论坛数据 food_comments 餐饮点评数据 itp_cloud 语言云 jieba 结巴分词 pangu 盘古分词 paoding 庖丁解牛分词器 qcloud 腾讯文智 sina 新浪云 sogou 搜狗分词
所属分类：机器学习
- 发布日期：2018-04-12
- 文件大小：2mb
- 提供者：bleadge

SIGHAN国际汉语分词数据集backoff2005
2nd International Chinese Word Segmentation Bakeoff - Data Release Release 1, 2005-11-18 * Introduction This directory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included
所属分类：其它
- 发布日期：2018-05-08
- 文件大小：50mb
- 提供者：u012570056

国际安全事件关系发现_数据集
网络媒体上充斥着各种热点话题，同时也蕴含着大量有价值的信息，有些话题之间会隐含着错综复杂的国际关系，尤其国际安全事件之间的内在联系更为敏感重要。如何从庞大且杂乱无序的网络舆情数据中准确有效地发现多个安全事件之间隐藏的关联关系并做出及时反应，对挖掘具体安全事件发生的深层次或根本原因、正确处理国际关系、维护公共安全具有十分重要的现实意义。对海量媒体数据进行智能挖掘，通过提供一段时间内多个舆情话题的新闻报道，参赛者需要将每个报道进行分词，发现对应的安全事件，挖掘出安全事件之间存在的关系，并给出发生
所属分类：互联网
- 发布日期：2018-06-23
- 文件大小：41mb
- 提供者：kamo54

TF-IDF中文文章数据集
我的博客：TF-IDF原理及算法实现https://blog.csdn.net/weixin_34566605/article/details/106228012。该资源是有关中文文章的数据集，适合进行TF-IDF词频分析，数据集中的词已经用分词工具按空格切割过，可以直接使用，代码实现部分在博客中有写
所属分类：机器学习
- 发布日期：2020-05-20
- 文件大小：901kb
- 提供者：weixin_34566605

酒店评论的数据集与名称
酒店的两种不同的评价，关于正面与反面的评价，这些资源有助于做数据分词，与情感分类。
所属分类：互联网
- 发布日期：2020-07-17
- 文件大小：582kb
- 提供者：weixin_45133592

分词-停用词数据集，基本停用词
分词用的停用词数据集
所属分类：机器学习
- 发布日期：2020-10-14
- 文件大小：3kb
- 提供者：qq_30285985

Jieba分词.rar
针对jieba的各种分词模式进行测试，并且给出了对三国演义的关键词提取，以及数据集，同时包括其他常用分词数据集
所属分类：Python
- 发布日期：2020-11-21
- 文件大小：5mb
- 提供者：qq_44465615

自然语言处理：用paddle对人民日报语料进行分词，停用词，数据清洗和熵计算
自然语言处理：用paddle对人民日报语料进行分词，停用词，数据清洗和熵计算数据集提取：公众号：YOLO的学习进阶日常然后回复：nlp1 安装本地飞桨本人 win10 python3.7 用的CPU 安装方式： pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple pip install –upgrade paddlepaddle -i https://pypi.tuna.tsinghua.edu.c
所属分类：其它
- 发布日期：2020-12-22
- 文件大小：167kb
- 提供者：weixin_38733382

【项目小结】GEC模型中的难点：分词（Tokenizer）与回译（Backtranslation）
前排提示本文涉及的数据集及外部文件在以下链接共享。包括 Lang-8 语料库，词形转换表（涉及79024组变换）与一些有用的pickle文件。链接：https://pan.baidu.com/s/1fW266ZSLoZeEaRCl2yVQCg 提取码：yfhm 序言 GEC模型的概念及解决方案可以参考我之前写的一些论文提纲，但无论采用什么样的解决思路，都绕不开很多瓶颈性的问题。笔者根据自己近期基于 CONLL2014 任务尝试的经验，就训练数据短缺的解决方案给出两点参考及其代码实现：寻
所属分类：其它
- 发布日期：2020-12-22
- 文件大小：120kb
- 提供者：weixin_38551376

Titanic数据集：仅用名字列就取得0.8的正确率
文章目录前言表格机器学习的4类特征text 特征组数据处理载入数据数据清洗分词删除低频词建模sklearnTF-IDFNMFTruncatedSVDgensimLDALSIRPHDP 前言表格机器学习的4类特征最近在思考表格机器学习，或者说对表格数据、结构化数据的有监督机器学习的工作流。我认为在大部分场景下，大概有4类特征： categorical numerical date text text 特征组最近在调研text特征组。如果一个表格中有一列全是文本，其实这个文本是可以包含很多信
所属分类：其它
- 发布日期：2020-12-21
- 文件大小：55kb
- 提供者：weixin_38665046

icwb2-data 中文分词数据集-数据集
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集，用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集，PK 和 MSR 为简体中文数据集。 icwb2-data 中文分词数据集_datasets.txt icwb2-data 中文分词数据集_datasets.zip
所属分类：其它
- 发布日期：2021-03-19
- 文件大小：50mb
- 提供者：weixin_38734269

中文分词数据集.zip
分词数据集，用于训练一个用来分词的模型。详细看压缩包里的内容。
所属分类：互联网
- 发布日期：2021-02-28
- 文件大小：91mb
- 提供者：qq_42658739

ID-CNN-CWS：源代码和论文“用于中文分词的迭代扩张卷积”的语料库-源码
ID-CNN-CWS 源代码和论文“用于中文分词的迭代膨胀卷积”的论文集。它为CWS实现以下4种模型：双LSTM 双LSTM-CRF 身份识别 ID-CNN-CRF 依存关系 Python> = 3.6 TensorFlow> = 1.2 同时支持CPU和GPU。 GPU训练速度提高了10倍。制备运行以下脚本以将语料库转换为TensorFlow数据集。 $ ./scr ipts/make.sh 训练与测试快速开始 $ ./scr ipts/run.sh $d
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：27mb
- 提供者：weixin_42109545

TextClassification：基于scikit-learn实现对新浪新闻的文本分类，数据集为100w篇文档，总计10类，测试集与训练集1：1划分。分类算法采用SVM和Bayes，其中Bayes作为基线-源码
新浪新闻文本分类语料库重建本项目的语料来源新浪新闻网，通过spider.py爬虫模块获得全部语料，总计获得10类新闻文本，每一类新闻文本有10条。采纳新浪新闻网的一个api获取新闻文本，api的url为使用进度池并发执行爬虫，加快抓取速度。数据预处理本项目的数据预处理包括：分词处理，去噪，向量化，由stopwords.py模块，text2term.py模块，vectorizer.py模块实现。本项目借助第三方库解霸完成文本的分词处理。通过停用词表移除中文停用词，通过正则表达式消除
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：98kb
- 提供者：weixin_42128270

« 12 3 4 5 6 7 8 »