搜索资源 - 语料库标注 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 语料库标注

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

LJCorpus中文语料库分析软件
LJCorpus试用版本下载地址下载地址：http://www.lingjoin.com/download/LJCorpus.rar 介绍： LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统，应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术，目前，东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析，极大提高了研究的效率。 LJCorpus中文语料库分析软件的四大功能主要包括： 1. 新词发现：
所属分类：专业指导
- 发布日期：2010-04-17
- 文件大小：12mb
- 提供者：lingjoin

基于条件随机场（CRFs）的中文词性标注方法
本文提出一种基于CRFs 模型的中文词性标注方法。该方法利用CRFs 模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1 月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98. 56 %和96. 60 %。
所属分类：专业指导
- 发布日期：2010-05-20
- 文件大小：345kb
- 提供者：jiangtinghaha

北大语料库（一月份)
自然语言处理，命名实体识别语料库，分词，测试使用，仅用于研究学习，严禁商业使用
所属分类：讲义
- 发布日期：2014-05-29
- 文件大小：8mb
- 提供者：hj398984059

方言普通话语音识别语料库样例
本数据是600人方言普通话语音识别语料库的样例，包括4个发音人（两男两女）录制的少量数据。完整语料库包括600名发音人，发音人覆盖全国不同地区、年龄、性别及文化程度，录音环境覆盖安静、座机、手机、车载、背景音乐及嘈杂声等场景，录音语料覆盖单字、词汇、语句、自然对话及语篇，采样率分8K和44K两种，采用16比特量化，标注粒度包括文字、拼音、韵律及音频标注。用途：语音识别
所属分类：其它
- 发布日期：2015-01-26
- 文件大小：3mb
- 提供者：ly4910242

词性自动标注系统——自然语言理解
自然语言课程的结课大作业之一，源码、语料库什么的都有，便宜卖啦！
所属分类：Java
- 发布日期：2015-04-25
- 文件大小：7mb
- 提供者：blue_fat

北京大学自然语言语料库
难以下载的北京大学自然语言处理语料库，适合分词，词性标注！
所属分类：讲义
- 发布日期：2015-05-21
- 文件大小：8mb
- 提供者：u014803202

人民日报1998年1月中文标注语料库
人民日报标注语料库(版本1.0，下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下，以1998年人民日报语料为对象，由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注，其被作为原始数据应用于大量的研究和论文中。
所属分类：专业指导
- 发布日期：2016-11-11
- 文件大小：10mb
- 提供者：xudaliang_

语料库标注工具SUTDAnnotator
语料库标注工具SUTDAnnotator，研究自然语言处理的同学推荐使用。
所属分类：Java
- 发布日期：2017-11-18
- 文件大小：2mb
- 提供者：crack521

自然语言处理语料库标注集以及符号说明
花费大量时间搜集的自然语言处理语料库标注集，包括词性标注集、命名实体识别BIO标注、中文组块分析chunk标记。
所属分类：机器学习
- 发布日期：2017-12-09
- 文件大小：165kb
- 提供者：wustjk124

汉语语料库加工规范
《现代汉语语料库加工规范——词语切分与词性标注》词性标记
所属分类：搜索引擎
- 发布日期：2018-01-12
- 文件大小：167kb
- 提供者：johnson219

英语语料库LOB语料库
LOB语料库创建时间: 1970年代初创建单位:英国Lancaster大学和挪威Oslo大学以及Bergen大学规模层级: 100万词次基本情况:研究当代英国英语,与美国英语对比,使用了TAGIT系统,以统计方式建立换算几率矩阵,提高标注正确率。 The Lancaster-Oslo Bergen Corpus (LOB) was compiled by researchers in Lancaster, Oslo and Bergen. It consists of one mill
所属分类：机器学习
- 发布日期：2018-10-10
- 文件大小：94mb
- 提供者：chenheng1114

现代汉语语料库
语言所公开的现代汉语语料库，通过分别查询3500个常用汉字，将所有数据进行清洗去重后的集合。共554026行，解压后约93.8M，带分词和词性标注。
所属分类：算法与数据结构
- 发布日期：2019-04-20
- 文件大小：25mb
- 提供者：archeng

现代汉语语料库加工规范(pku)
北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范Ｖ1.0》。几年来已完成了约60万字语料的切分与标注，并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后，最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行，北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范Ｖ2.0》（征求意见稿）。因这次加工的任务超出词语
所属分类：专业指导
- 发布日期：2010-10-20
- 文件大小：295kb
- 提供者：yjsmzq

人民日报语料库（中文分词语料库）
人民日报1998年1月份的语料库，加入了词性标注，北京大学开发，中文分词统计的好资料人民日报1998年1月份的语料库，加入了词性标注，北京大学开发，中文分词统计的好资料
所属分类：专业指导
- 发布日期：2020-09-08
- 文件大小：2mb
- 提供者：starmoonh

efaqa-corpus-zh::red_heart:Emotional急救数据集，心理咨询问答，聊天机器人语料库-源码
情绪急救数据集心理咨询问答语言料库，仅限研究用途。为什么发布这个语料库心理咨询中应用人工智能，是我们认为非常有价值的一个探索。我们愿意和更多人合作，把目前领先的人工智能技术，在心理咨询不同场景定位地。扣门的，就给他开门，愿每个人都有自己的心理咨询师。 - 数据集介绍心理咨询问答语料库（以下也称为“数据集”，“语料库”）是为应用人工智能技术于心理咨询领域制作的语料。据我们所知，这是心理咨询领域首个开放的QA语料库，包括20,000条心理咨询数据，也是公开的最大的中文心理咨询对话语料。数据
所属分类：其它
- 发布日期：2021-03-20
- 文件大小：7mb
- 提供者：weixin_42164534

用于临床文本的细粒度中文分词和词性标注语料库
用于临床文本的细粒度中文分词和词性标注语料库
所属分类：其它
- 发布日期：2021-03-02
- 文件大小：495kb
- 提供者：weixin_38601390

StereoImmigrants：StereoImmigrants是一个数据集，该数据集由ParlSpeech语料库中的政治演讲对移民进行了刻板印象-源码
立体移民 StereoImmigrants是一个手动注释的数据集，具有从ParlSpeech（）对移民的定型观念。 ``non-stereotypes.xlsx''文件包含2019年的示例，这些示例被标注为针对移民的非刻板印象，但仍与移*题有关。 “ stereotypes.xlsx”文件包含1685个带有特定刻板印象类别的示例（例如，仇外心理的受害者；受难的受害者；经济资源；集体威胁；人身威胁）。这两个文件都包含以下列：-COD_1：标识语音的随机代码。 -COD_2：用于识别语音
所属分类：其它
- 发布日期：2021-02-23
- 文件大小：3mb
- 提供者：weixin_42106299

面向微博文本的情绪标注语料库构建
文本情绪分析研究近年来发展迅速，但相关的中文情绪语料库，特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估，该文在对微博文本情绪表达特点进行深入观察和分析的基础上，设计了一套完整的情绪标注规范。遵循这一规范，首先对微博文本进行了微博级情绪标注，对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后，对微博中的句子进行有无情绪及情绪类别进行标注，并标注了各情绪类别对应的强度。目前，已完成１４　０００条微博，４５　４３１句子的情绪标注
所属分类：其它
- 发布日期：2021-02-22
- 文件大小：679kb
- 提供者：weixin_38724349

text-classification-cn：中文文本分类实践，基于搜狗新闻语料库，采用传统机器学习方法以及预训练模型等方法-源码
文字分类文本分类（文本分类）是自然语言处理中的一个重要应用技术，根据文档的内容或主题，自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础，某些垃圾邮件识别，舆情分析，情感识别，新闻自动分类，智能客服机器人的合并分类等等。此处分为两个部分：第1部分：基于scikit学习机器学习的Python库，对比几个传统机器学习方法的文本分类第2部分：基于预训练词向量模型，使用Keras工具进行文本分类，用到了CNN 本文语料：，密码：P9M4。更多新闻标注语料，。预训练词向量模型来自
所属分类：其它
- 发布日期：2021-02-04
- 文件大小：207.98kb
- 提供者：weixin_42101237

基于《Kaldi语音识别》技术及开源语音语料库分享
前言：数据堂自AI开源计划发起，面向高校和科研机构首次开源的【1505小时中文普通话语音数据集】，该数据集句标注准确率达到了98%，得到了很多开发者的认可。不仅如此，数据堂基于此开源数据集还精选出了【200小时中文普通话语音数据】同期发布，并提供了基于Kaldi【200小时中文普通话语音数据】训练方法。该训练方法同时得到了广泛的关注及开发者的极度认可，并表示希望数据堂持续分享相关技术。日前，数据堂AI开放实验室发起基于《Kaldi语音识别》技术的分享会，分享会也一同邀请到了北印和北工商实验
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：2mb
- 提供者：weixin_38607554

« 12 3 4 5 »