您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 新闻语料的标记与分词——自然语言处理

  2. 该函数通过标记的机构名,人名,地名,然后来辨别大陆,港澳台,西方,日本,韩国的国籍
  3. 所属分类:C++

    • 发布日期:2009-11-10
    • 文件大小:2mb
    • 提供者:peifei_go
  1. 分词词性标记语料

  2. 分词词性标记语料
  3. 所属分类:机器学习

    • 发布日期:2017-06-21
    • 文件大小:50mb
    • 提供者:loveysuxin
  1. 自然语言处理语料库标注集以及符号说明

  2. 花费大量时间搜集的自然语言处理语料库标注集,包括词性标注集、命名实体识别BIO标注、中文组块分析chunk标记。
  3. 所属分类:机器学习

    • 发布日期:2017-12-09
    • 文件大小:165kb
    • 提供者:wustjk124
  1. 汉语语料库加工规范

  2. 《现代汉语语料库加工规范——词语切分与词性标注》词性标记
  3. 所属分类:搜索引擎

    • 发布日期:2018-01-12
    • 文件大小:167kb
    • 提供者:johnson219
  1. 新浪微博,情感分析标记语料共12万条

  2. 本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt 各60000条,适用于机器学习情感分析,训练数据原数据
  3. 所属分类:机器学习

  1. 命名实体识别标记语料

  2. 已经标记号label的中文命名实体识别的语料库,采用BIM标志形式。包括人名(PERSON)、地点(LOCATION)、时间(TIME)及机构名(ORGANIZATION)。
  3. 所属分类:机器学习

    • 发布日期:2018-11-22
    • 文件大小:17mb
    • 提供者:sinat_33864860
  1. 新浪微博,情感分析标记语料共12万条

  2. 本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt 各60000条,适用于机器学习情感分析,训练数据原数据
  3. 所属分类:机器学习

    • 发布日期:2019-01-02
    • 文件大小:8mb
    • 提供者:yujalay
  1. 新浪微博,情感分析标记语料共12万条

  2. 本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt 各60000条,适用于机器学习情感分析,训练数据原数据
  3. 所属分类:机器学习

    • 发布日期:2019-02-18
    • 文件大小:8mb
    • 提供者:treesouth
  1. 新浪微博,情感分析标记语料共12万条

  2. 本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt 各60000条,适用于机器学习情感分析,训练数据原数据
  3. 所属分类:机器学习

    • 发布日期:2020-02-21
    • 文件大小:8mb
    • 提供者:p0082743
  1. 话语标记“拉倒”演化轨迹及其修辞功能探究

  2. “拉倒”在现代汉语中使用频率很高,已基本具备了话语标记的基本特征,可以视为一个话语标记。通过对北京大学汉语语言学研究中心CCL语料库的语料进行分析,对作为话语标记的“拉倒”的演化轨迹进行探讨,较为详细地分析了其修辞功能,以期通过对一批不同类型的话语标记展开同样的研究,从而为修辞学开启一条新的研究途径。
  3. 所属分类:其它

    • 发布日期:2020-06-15
    • 文件大小:161kb
    • 提供者:weixin_38717980
  1. 新浪微博,情感分析标记语料共12万条

  2. 本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt 各60000条,适用于机器学习情感分析,训练数据原数据
  3. 所属分类:机器学习

    • 发布日期:2020-06-24
    • 文件大小:8mb
    • 提供者:chelsea131
  1. GMB(Groningen Meaning Bank)语料

  2. 这是GMB语料库的摘录,经过标记,注释和构建,专门用于训练分类器以预测命名实体,例如名称,位置等。 使用GMB(Groningen Meaning Bank)语料库进行命名实体识别的带注释语料库,该语料库通过自然语言处理将具有增强和流行特征的实体分类应用于数据集。
  3. 所属分类:机器学习

    • 发布日期:2020-08-26
    • 文件大小:24mb
    • 提供者:weixin_42691585
  1. 199801已标记词性.txt

  2. 该资源是以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。
  3. 所属分类:互联网

  1. efaqa-corpus-zh::red_heart:Emotional急救数据集,心理咨询问答,聊天机器人语料库-源码

  2. 情绪急救数据集 心理咨询问答语言料库,仅限研究用途。 为什么发布这个语料库 心理咨询中应用人工智能,是我们认为非常有价值的一个探索。我们愿意和更多人合作,把目前领先的人工智能技术,在心理咨询不同场景定位地。扣门的,就给他开门,愿每个人都有自己的心理咨询师。 - 数据集介绍 心理咨询问答语料库(以下也称为“数据集”,“语料库”)是为应用人工智能技术于心理咨询领域制作的语料。据我们所知,这是心理咨询领域首个开放的QA语料库,包括20,000条心理咨询数据,也是公开的最大的中文心理咨询对话语料。数据
  3. 所属分类:其它

  1. 斯坦福自然语言推理(SNLI)语料库-数据集

  2. SNLI语料库(1.0版)是一个570k人工编写的英语句子对的集合,这些句子对经过手动标记以实现平衡分类,并带有enume,矛盾和中性标签,支持自然语言推理(NLI)的任务,也称为识别文本蕴涵(RTE)。可用于探索知识图谱推理、长短期记忆神经网络。数据集来自斯坦福自然语言处理小组 。 斯坦福自然语言推理(SNLI)语料库_datasets.txt 斯坦福自然语言推理(SNLI)语料库_datasets.zip
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:90mb
    • 提供者:weixin_38623707
  1. plagiarism_detection:窃检测器,用于检查文本文件并执行二进制分类; 将文件标记为抄袭还是不抄袭,取决于文本文件与提供的源文本的相似程度-源码

  2. 抄袭项目,机器学习部署 该存储库包含用于使用AWS SageMaker部署a窃检测器的代码和相关文件。 项目概况 在这个项目中,您将负责构建a窃检测器,该检测器将检查文本文件并执行二进制分类。 根据该文本文件与提供的源文本的相似程度,将该文件标记为抄袭或不抄袭。 侦查窃是一个活跃的研究领域。 这项任务很艰巨,解释的答案和原始作品之间的差异通常并不那么明显。 该项目将分为三个主要笔记本: 笔记本1:数据探索 加载of窃文本数据的语料库。 探索现有的数据功能和数据分布。 这第一台笔记本是不是
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:500kb
    • 提供者:weixin_42137032
  1. 通过以集成方式合并多个功能来标记图像

  2. 图像标记是一项自动为查询图像分配名为tag的语义关键字的任务,该任务显着促进了图像搜索和组织。 由于标记和图像视觉内容表示在不同的特征空间中,因此如何通过它们的相关性合并多个特征以标记查询图像是一个重要的问题。 然而,大多数现有方法通过使用相对简单的机制来合并特征,而不是完全利用不同特征之间的相关性。 在本文中,我们提出了一种新的方法来同时融合不同的特征及其相关性以进行图像标记。 具体来说,我们使用特征相关图以集成的方式捕获不同特征之间的相关性,这些特征将特征作为节点,并将它们的相关性作为边缘。
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:710kb
    • 提供者:weixin_38640674
  1. simple-nlp-examples:使用节,spacy和NLTK的几个简单的NLP标记化示例-源码

  2. 简单的NLP示例 此存储库提供了几个使用spacy,节和NLTK的简单python NLP标记化示例。 要使用,请先执行以下操作: pip install --user -U stanza nltk spacy python -m spacy download es_core_news_sm 概念验证命令行程序,可以下载文本文件,在本地加载它们或使用字符串作为文本,并使用spacy对文本进行标记化,提供几个命令来打印文本,列出实体以及列出和过滤标记。 有点混乱。 按类型过滤和打印令牌的
  3. 所属分类:其它

  1. 120 Million Word Spanish Corpus 1.2亿字西班牙语语料库-数据集

  2. 该数据集由57个文本文件组成。每个都包含XML格式的多个Wikipedia文章。每篇文章的文字周围都带有标签。初始标签还包含有关文章的元数据,包括文章的ID和文章的标题。文字“ ENDOFARTICLE”。出现在每篇文章的结尾,在结束标记之前。 120 Million Word Spanish Corpus_datasets.txt
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:257byte
    • 提供者:weixin_38518668
  1. StereoImmigrants:StereoImmigrants是一个数据集,该数据集由ParlSpeech语料库中的政治演讲对移民进行了刻板印象-源码

  2. 立体移民 StereoImmigrants是一个手动注释的数据集,具有从ParlSpeech( )对移民的定型观念。 ``non-stereotypes.xlsx''文件包含2019年的示例,这些示例被标注为针对移民的非刻板印象,但仍与移*题有关。 “ stereotypes.xlsx”文件包含1685个带有特定刻板印象类别的示例(例如,仇外心理的受害者;受难的受害者;经济资源;集体威胁;人身威胁)。 这两个文件都包含以下列:-COD_1:标识语音的随机代码。 -COD_2:用于识别语音
  3. 所属分类:其它

« 12 3 4 5 »