您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. sharpNLP开源自然语言处理工具集

  2. SharpNLP是C#实现的一个开源的自然语言处理工具集,它提供了如下功能: * 句子分割 * 分词 * 词性标注(POS tagging) * a chunker (used to "find non-recursive syntactic annotations such as noun phrase chunks") * a parser * a name finder * a coreference tool * 访问wordent数据库的借口
  3. 所属分类:C#

    • 发布日期:2010-09-29
    • 文件大小:603kb
    • 提供者:Willyon
  1. 句子分割C++程序

  2. 本程序的作用是将一片文章分割成句子的组合。
  3. 所属分类:网络基础

    • 发布日期:2013-01-02
    • 文件大小:4mb
    • 提供者:baijianmin008
  1. 开源分词工具 opennlp

  2. 开源分词工具OpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包,它支持自然语言处理中一些共有的任务,例如:标记化、句子分割、词性标注、固有实体提取(指在句子中辨认出专有名词,例如:人名)、浅层分析(句字分块)、语法分析及指代。这些任务通常都需要较为先进的文字处理服务功能[1] [2]。
  3. 所属分类:Java

    • 发布日期:2013-04-15
    • 文件大小:3mb
    • 提供者:wskings
  1. 给定一个句子(只包含字母和空格), 将句子中的单词位置反转,单词用空格分割, 单词之间只有一个空格,前后没有空格

  2. 题目描述 给定一个句子(只包含字母和空格), 将句子中的单词位置反转,单词用空格分割, 单词之间只有一个空格,前后没有空格。 比如: (1) “hello xiao mi”-> “mi xiao hello” 输入描述: 输入数据有多组,每组占一行,包含一个句子(句子长度小于1000个字符) 输出描述: 对于每个测试示例,要求输出句子中单词反转后形成的句子
  3. 所属分类:Java

  1. opennlp, Apache OpenNLP镜像.zip

  2. opennlp, Apache OpenNLP镜像 欢迎使用 Apache OpenNLP ! Apache OpenNLP库是一种基于机器学习的自然语言文本处理工具包。这个工具包完全用Java编写,支持常见的,任务,例如标记。句子分割。part-of-speec
  3. 所属分类:其它

  1. 一步步教你构建 NLP 流水线.pdf

  2. 计算机更擅长理解结构化数据,让计算机去理解主要以文化习惯沉淀下来的人类语言实在是 太为难它们了。那自然语言处理获得的成功又是如何成就的呢?那就是,把人类语言(尽可 能)结构化。本文以简单的例子一步步向我们展示了自然语言处理流水线的每个阶段的工作 过程,也就是将语言结构化的过程,从句子分割、词汇标记化、...、到共指解析。作者的 解释很直观、好理解,对于刚入门 NLP 的小伙伴是不可多得的好文。
  3. 所属分类:搜索引擎

    • 发布日期:2019-07-02
    • 文件大小:696kb
    • 提供者:abacaba
  1. C++实现英文句子中的单词逆序输出的方法

  2. 主要介绍了C++实现英文句子中的单词逆序输出的方法,涉及C++字符串遍历、分割、截取、输出等相关操作技巧,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-08-28
    • 文件大小:44kb
    • 提供者:weixin_38546622
  1. Python jieba结巴分词原理及用法解析

  2. 1、简要说明 结巴分词支持三种分词模式,支持繁体字,支持自定义词典 2、三种分词模式 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义 精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下 搜索引擎模式:在精简模式下,对长词再度切分 # -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京*广场跳舞' a = jieba.lcut(s
  3. 所属分类:其它

    • 发布日期:2020-12-16
    • 文件大小:82kb
    • 提供者:weixin_38617196
  1. sentseg:残酷的句子分割器-源码

  2. sentseg:残酷的句子分割器
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:25kb
    • 提供者:weixin_42139302
  1. segtok:Segtok v2在这里-源码

  2. 世谷 注意:可以使用代号为segtok v2并修复了segtok的一些棘手问题,尤其是将句子分割成不带空格的终端,就像这样:-)。 句子分割和单词标记化 segtok软件包提供了两个模块,分别是segtok.segmenter和segtok.tokenizer 。 分段器提供了将(印欧语系)文本拆分为句子的功能。 令牌生成器提供了将(印欧语)句子拆分为单词和符号(统称为令牌)的功能。 这两个模块也可以从命令行使用。 尽管其他印欧语言也可以使用,但在设计时仅考虑了西班牙语,英语和德语等语言。
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:27kb
    • 提供者:weixin_42128393
  1. 句子级别情感分类的联合分段和分类框架

  2. 在本文中,我们提出了一种用于句子级情感分类的联合分割和分类框架。 众所周知,短语信息对于情感分类至关重要。 但是,现有的情感分类算法通常将句子拆分为单词序列,这不能有效地处理短语和包含的单词之间的不一致的情感极性,例如{“不错”,“不好”}和{“很好交易”,“伟大”}。 我们通过开发用于句子级情感分类的联合框架来解决此问题。 它同时生成有用的细分,并根据细分结果预测句子级别的极性。 具体来说,我们开发了一个候选词生成模型来产生句子的分割候选词; 分割排名模型,用于对分割候选者在情感分类中的有用性
  3. 所属分类:其它

  1. AttRCNN-CNN:论文介绍:针对现有模型不能充分提取语义特征,以及单一使用语义或语言学特征来进行预测等不足,使用BERT预训练模型进行句子的特征提取。以及特征融合的论文,使用LSTM-Attention和CNN进行文档特征提取,同时结

  2. AttRCNN-CNN 译文:基于BERT和多特征联合的个性识别方法 领域:文本个性识别技术:BERT,LSTM,Attention,CNN 链接: 论文介绍:针对现有模型不能充分提取语义特征,以及单个使用语义或语言学特征来进行预测等不足,使用BERT预训练模型进行句子的特征提取。同时阅读了关于多模态以及特征融合的论文,使用LSTM-Attention和CNN进行文档尺寸特征提取,同时结合Mairesse语言学特征,将多个分割提取的特征融合起来进行分析,最终使用Pytorch进行模型实现。 其中
  3. 所属分类:其它

  1. OpenNLP:驾驭文本,分词那些事

  2. 字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库,这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词,对于英文分词工具很多,笔者经比较ApacheOpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。维基百科:ApacheOpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包,它支持自然语言处理中一些共有的任务,例如:标记化、句子分割、词性标注、
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:183kb
    • 提供者:weixin_38722464
  1. flutter_break_iterator:用于把一段文字分割为单词,句子或者是一些语言或语言组中约定的逻辑字符-源码

  2. 扑击者 一个新的Flutter插件。 入门 该项目是Flutter的起点,Flutter是一个特殊的程序包,其中包括针对Android和/或iOS的平台特定的实现代码。 要获得Flutter入门方面的帮助,请查看我们的,其中提供了教程,示例,有关移动开发的指南以及完整的API参考。
  3. 所属分类:其它

    • 发布日期:2021-02-22
    • 文件大小:99kb
    • 提供者:weixin_42131601
  1. BertSimilarity:使用Google的BERT算法计算两个句子的相似度。利用Bert计算句子相似度。语义相似度计算-源码

  2. 伯特相似度 基于Google的BERT模型来进行语义相似度计算。代码基于tensorflow 1。 1.基本原理 简单来说就是将需要需要计算的相似性的两个句子先分解在一起,然后通过伯特模型获取获取整体的编码信息,然后通过全连接层将维,输出相似和不相似的概率。 1.1模型结构 模型结构所示如下: 1.1.1数据预处理 本文使用Bert模型计算相似度前,首先要对输入数据进行预处理,例如当要处理的文本是: 如何得知关闭借呗 想永久关闭借呗 首先进行文本按token化,切成分割的文字排列: [如
  3. 所属分类:其它

  1. slovnet:基于深度学习的俄语NLP建模-源码

  2. SlovNet是一个Python库,用于基于深度学习的俄语NLP建模。 库已与其他项目集成: (大型自动注释语料库), (句子分割器),tokenizer和 (紧凑的俄语嵌入)。 Slovnet为俄语NER,形态和语法提供了高质量的实用模型,请参阅以获取更多信息: NER比DeepPavlov当前的BERT SOTA差1-2%,但其大小(〜30 MB)小60倍,并且在CPU上运行速度很快(〜25新闻/秒)。 形态标记器和语法解析器在具有大型SOTA BERT模型的新闻数据集上具有可比的准
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:109kb
    • 提供者:weixin_42134878
  1. konoha::herb:易于使用的日语文本处理工具,使您只需更改少量代码即可切换令牌生成器-源码

  2. :herb: Konoha:日语令牌生成器的简单包装 Konoha是一个Python库,用于提供各种日语令牌库的易于使用的集成界面,使您能够切换令牌化程序并增强预处理。 支持的令牌生成器 另外, konoha还提供基于规则的标记器(空格,字符)和基于规则的句子分割器。 Docker快速入门 只需在计算机上运行以下命令: docker run --rm -p 8000:8000 -t himkt/konoha # from DockerHub 或者,您可以在计算机上构建映像: git c
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:506kb
    • 提供者:weixin_42181686
  1. 海底:海底-越南NLP工具包-源码

  2. 开源越南自然语言处理工具包 Underthesea是: :water_wave: 越南语NLP工具包。 Underthesea是一套开源Python模块数据集和教程,支持研究和开发。 我们提供了极其简单的API,可将经过预训练的NLP模型快速应用于越南语文本,例如分词,词性标记(PoS),命名实体识别(NER),文本分类和依存关系分析。 :water_wave: 一个Pytorch库。 Underthesea得到最流行的深度学习库之一,可以轻松地训练您的深度学习模型并使用Underthe
  3. 所属分类:其它

  1. jieba-php:“结巴”中文分词:做最好PHP。PHP中文分词,中文断词组件。“ Jieba”(中文为“ to stutter”)中文文本分割:构建为最佳PHP中文单词分割模块-源码

  2. “结巴”中文分词:做最好PHP中文分词,中文断词组件,当前翻译版本为jieba-0.33版本,未来再慢慢往上升级,效能也需要再改善,请有兴趣的开发者一起加入开发!若想使用Python版本请前往 现在已经可以支持繁体中文!只要将字典切换为big模式即可! “ Jieba”(中文为“ to stutter”)中文文本分割:内置为最好PHP中文单词分割模块。 向下滚动以获取英文文档。 线上展示 网站网址: : 网站原始码: : 特征 支持三种分词模式: 1)最小精确模式,试图将句子最精确地
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:20mb
    • 提供者:weixin_42137028
  1. OpenNLP:驾驭文本,分词那些事

  2. 字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库,这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词,对于英文分词工具很多,笔者经比较Apache OpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。维基百科:ApacheOpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包,它支持自然语言处理中一些共有的任务,例如:标记化、句子分割、词性标注
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:183kb
    • 提供者:weixin_38703123
« 12 3 4 »