搜索资源 - 中文预训练数据 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 中文预训练数据

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

CLUE打包后1G的中文预训练数据
用于BERT预训练，Bidirectional Encoder Representation from Transformers
所属分类：深度学习
- 发布日期：2020-07-11
- 文件大小：1gb
- 提供者：guotong1988

14G的中文预训练数据part1
用于BERT预训练，Bidirectional Encoder Representation from Transformers
所属分类：深度学习
- 发布日期：2020-07-10
- 文件大小：1gb
- 提供者：guotong1988

14G的中文预训练数据part3
用于BERT预训练，Bidirectional Encoder Representation from Transformers
所属分类：深度学习
- 发布日期：2020-07-10
- 文件大小：1gb
- 提供者：guotong1988

14G的中文预训练数据part2
用于BERT预训练，Bidirectional Encoder Representation from Transformers
所属分类：深度学习
- 发布日期：2020-07-10
- 文件大小：1gb
- 提供者：guotong1988

维基百科中文预训练数据
用于BERT预训练，Bidirectional Encoder Representation from Transformers
所属分类：深度学习
- 发布日期：2020-07-10
- 文件大小：489mb
- 提供者：guotong1988

中文三元组数据，可用于爬虫种子
用于BERT预训练，Bidirectional Encoder Representation from Transformers
所属分类：深度学习
- 发布日期：2020-07-10
- 文件大小：227mb
- 提供者：guotong1988

投资知道基于BERT的中文问答匹配检测
投资知道问题答案匹配本项目基于BERT中文预训练模型，使用huggingface transformers开源工具库实现中文关于投资知道的问题答案匹配检测系统的模型实现。问题适用场景：投资问答/论坛等，自动检测问题答案是否匹配，代替人工审核。模型、代码及数据下载地址所有数据、模型及代码下载链接：百度网盘地址，提取码: doh9 原始BERT预训练模型为chinese_wwm_pytorch，下载地址哈工大崔一鸣开源的中文预训练模型，网盘上也有，主要需3个文件，按huggingface
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：1mb
- 提供者：weixin_38599518

NLP中文预训练模型泛化能力挑战赛-数据集
NLP中文预训练模型泛化能力挑战赛数据集 OCNLI_a.csv OCEMOTION_a.csv OCEMOTION_train.csv OCNLI_train.csv TNEWS_a.csv TNEWS_train.csv
所属分类：其它
- 发布日期：2021-03-19
- 文件大小：5mb
- 提供者：weixin_38735887

中文预训练数据集-数据集
天池大数据“中文预训练模型”大赛数据集 OCNLI_a.csv TNEWS_a.csv OCEMOTION_a.csv OCEMOTION_train1128.csv OCNLI_train1128.csv TNEWS_train1128.csv
所属分类：其它
- 发布日期：2021-03-19
- 文件大小：6mb
- 提供者：weixin_38742460

t5-pegasus：中文生成式预训练模型-源码
T5飞马中文生成式预训练模型，以mT5为基础架构和初始权重，通过类似PEGASUS的方式进行预训练。详情可见： ://kexue.fm/archives/8209 分词器我们将T5 PEGASUS的令牌生成器转换成BERT的令牌生成器，它对中文更友好。同时，我们重新排列一版词表，从而里边的字，词都更加完善，目前的vocab.txt共包含5万个token，真正覆盖了中文的常用字，词。预训练任务具体来说，假设一个文档有n个句子，我们从中挑出大约n / 4个句子（可以不连续），因此这n /
所属分类：其它
- 发布日期：2021-03-03
- 文件大小：418kb
- 提供者：weixin_42153691

汉语单词向量：100多个汉语单词向量上百种预训练中文词向量-源码
中文单词向量该项目提供了100多个中文单词向量（嵌入），它们经过不同的表示（密集和稀疏），上下文特征（单词，ngram，字符等）和语料库训练。可以轻松获得具有不同属性的预训练向量，并将其用于下游任务。此外，我们提供了一个中文类比推理数据集CA8和一个评估工具包，供用户评估其词向量的质量。参考如果使用这些嵌入和CA8数据集，请引用该论文。沉力，赵哲，胡仁芬，李文思，刘涛，杜小勇，，ACL 2018。 InProceedings{P18-2023, author = "L
所属分类：其它
- 发布日期：2021-02-19
- 文件大小：347kb
- 提供者：weixin_42166626

tianchi_bert_nlp：天池NLP中文预训练模型泛化能力挑战赛的配套代码-源码
使用说明找个预训练的bert丢数据/ pre_model_dir文件夹，然后运行main.py就可以了模型下载地址项目介绍： : 代码说明地址：（或者直接下载本地的notebook）文件树 ├── BertRCNN # 模型文件 │ ├── args.py # 模型的默认参数，不用管它 │ └── BertRCNN.py # 模型 ├── config.py # 配置文件，看看你想改啥，最好不要动文件 ├── data # 原始数据 │ ├── NLP_A_Da
所属分类：其它
- 发布日期：2021-02-14
- 文件大小：6mb
- 提供者：weixin_42131633

albert-chinese-ner：使用预训练语言模型ALBERT做中文NER-源码
阿尔伯特·中国人前言这次的albert某种程度上可能会导致bert本质上有所重叠，恰逢中文预训练模型出来，还是按照之前的数据来做NER方面的fine-tune PS：移步传统模型资源资源文件配置下载albert中文模型，这里使用的是base 将模型文件夹重命名为albert_base_zh，加入项目中运行python albert_ner.py --task_name ner --do_train true --do_eval true --data_dir data --voc
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：3mb
- 提供者：weixin_42175035

albert_zh：用于自我监督学习语言表示的精简BERT，海量中文预训练ALBERT模型-源码
albert_zh 使用TensorFlow实现的实现 ALBert基于Bert，但有一些改进。它以30％的参数减少，可在主要基准上达到最先进的性能。对于albert_base_zh，它只有十个百分比参数与原始bert模型进行比较，并且保留了主要精度。现在已经提供了针对中文的ALBERT预训练模型的不同版本，包括TensorFlow，PyTorch和Keras。海量中文语料上预训练ALBERT模型：参数充分，效果更好。预训练小模型也能拿下13项NLP任务，ALBERT三大改造登顶G
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：969kb
- 提供者：weixin_42176827

bert-chinese-ner：使用预训练语言模型BERT做中文NER-源码
伯特·中国人前言使用预训练语言模型BERT做中文NER尝试，微调BERT模型 PS：移步最新模型代码参考使用方法从下载bert源代码，存放在路径下bert文件夹中从下载模型，放置在checkpoint文件夹下使用BIO数据标注模式，使用人民日报经典数据培养： python BERT_NER.py --data_dir=data/ --bert_config_file=checkpoint/bert_config.json --init_checkpoint=checkpoint
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：3mb
- 提供者：weixin_42127754

CLUE：中文语言理解基准测评中文语言理解评估基准：数据集，基线，预训练模型，语料库和页首横幅-源码
CLUE基准数据集，基线，预训练模型，语料库和页首横幅中文语言理解测评基准，包括预期的数据集，基准（预训练）模型，语料库，排行榜。我们会选择一系列有一定预期的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的任务，数据量，任务缺陷。更新：中文任务测评基准（CLUE基准）-排行榜排行榜会定期更新数据来源：分类任务（v1版本，正式版）模型得分参数空军质量管理委员会新闻 IFLYTEK' 中国移动通信网世界标准委员会 CSL 68.77 108M 73
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：2mb
- 提供者：weixin_42136791

ERNIE：ERNIE的语言理解实现（包括预训练模型和微调工具）-源码
|简体中文 ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架，该框架将大数据预训练与多源丰富知识相结合，通过持续学习技术，不断吸收海量文本数据中文字句，结构，语义等方面ERNIE在情感分析，文本匹配，自然语言推理，词法分析，阅读理解，智能问答等16个公开数据集上全面显着超越世界领先技术，在国际权威的通用语言理解上评估基准GLUE上，突破首次突破90分，获得全球第一。在今年3月落下帷幕的全球最大语义评价。SemEval2020上，ERNIE摘得5项世界冠军，该技术也被全球顶级科技商
所属分类：其它
- 发布日期：2021-02-04
- 文件大小：2mb
- 提供者：weixin_42120541

pytorch_chinese_lm_pretrain：pytorch中文语言模型预训练-源码
基于pytorch的中文语言模型预训练 ACL2020最佳论文有一篇论文提名奖，《不要停止预训练：使语言模型适应领域和任务》。本文涉及很多语言模型预训练的实验，系统的分析了语言模型预训练对子任务的效果提升情况。有几个主要方面：在目标领域的数据集上继续预训练（DAPT）可以提高效果；目标领域的语料与RoBERTa的原始预训练语料越不相关，DAPT效果则提升更明显。在具体任务的数据集上继续预训练（TAPT）可以十分“廉价”地提升效果。结合两者（先进行DAPT，再进行TAPT）可以进一步提升效果
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：29kb
- 提供者：weixin_42101164

中文-ELECTRA：训练有素的中文ELECTRA（中文ELECTRA预训练模型）-源码
| 谷歌与斯坦福大学共同研发的最新预训练模型ELECTRA因其小巧的模型体积以及良好的模型性能受到了广泛关注。为了进一步促进中文预训练模型技术的研究与发展，哈工大讯飞联合实验室基于官方ELECTRA ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相符美，而参数量仅为BERT-base的1 / 10。本项目基于谷歌＆斯坦福大学官方的ELECTRA： : 其他相关资源： MacBERT预训练模型： : 中文BERT-wwm预训练模型： : 中文XLNet预训练
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：314kb
- 提供者：weixin_42136365

ChineseGLUE：中文语言理解评估基准：数据集，基线，预训练模型，语料库和页首横幅-源码
中国胶汉语语言理解评估基准：数据集，基线，预训练模型，语料库和排行榜中文语言理解测评基准，包括预期的数据集，基准（预训练）模型，语料库，排行榜。「更新，2019年11月22日」 1）【推荐】新版，更加系统全面，更好的技术支持，迁移新地址： : 2）初始经典版，以实用任务如分类或句子对任务为主，将继续保留并在此项目更新我们会选择一系列有一定预期的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的任务，数据量，任务缺陷。中文任务基准测评（ChineseGLUE）-
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：2mb
- 提供者：weixin_42097189

« 12 3 4 »