您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. CLUE打包后1G的中文预训练数据

  2. 用于BERT预训练,Bidirectional Encoder Representation from Transformers
  3. 所属分类:深度学习

    • 发布日期:2020-07-11
    • 文件大小:1gb
    • 提供者:guotong1988
  1. 14G的中文预训练数据part1

  2. 用于BERT预训练,Bidirectional Encoder Representation from Transformers
  3. 所属分类:深度学习

    • 发布日期:2020-07-10
    • 文件大小:1gb
    • 提供者:guotong1988
  1. 14G的中文预训练数据part3

  2. 用于BERT预训练,Bidirectional Encoder Representation from Transformers
  3. 所属分类:深度学习

    • 发布日期:2020-07-10
    • 文件大小:1gb
    • 提供者:guotong1988
  1. 14G的中文预训练数据part2

  2. 用于BERT预训练,Bidirectional Encoder Representation from Transformers
  3. 所属分类:深度学习

    • 发布日期:2020-07-10
    • 文件大小:1gb
    • 提供者:guotong1988
  1. 维基百科中文预训练数据

  2. 用于BERT预训练,Bidirectional Encoder Representation from Transformers
  3. 所属分类:深度学习

    • 发布日期:2020-07-10
    • 文件大小:489mb
    • 提供者:guotong1988
  1. 中文三元组数据,可用于爬虫种子

  2. 用于BERT预训练,Bidirectional Encoder Representation from Transformers
  3. 所属分类:深度学习

    • 发布日期:2020-07-10
    • 文件大小:227mb
    • 提供者:guotong1988
  1. 投资知道 基于BERT的中文问答匹配检测

  2. 投资知道 问题答案匹配 本项目基于BERT中文预训练模型,使用huggingface transformers开源工具库实现中文关于投资知道的问题答案匹配检测系统的模型实现。 问题适用场景:投资问答/论坛等,自动检测问题答案是否匹配,代替人工审核。 模型、代码及数据下载地址 所有数据、模型及代码下载链接:百度网盘地址,提取码: doh9 原始BERT预训练模型为chinese_wwm_pytorch,下载地址哈工大崔一鸣开源的中文预训练模型,网盘上也有,主要需3个文件,按huggingface
  3. 所属分类:其它

  1. NLP中文预训练模型泛化能力挑战赛-数据集

  2. NLP中文预训练模型泛化能力挑战赛数据集 OCNLI_a.csv OCEMOTION_a.csv OCEMOTION_train.csv OCNLI_train.csv TNEWS_a.csv TNEWS_train.csv
  3. 所属分类:其它

  1. 中文预训练数据集-数据集

  2. 天池大数据“中文预训练模型”大赛数据集 OCNLI_a.csv TNEWS_a.csv OCEMOTION_a.csv OCEMOTION_train1128.csv OCNLI_train1128.csv TNEWS_train1128.csv
  3. 所属分类:其它

  1. t5-pegasus:中文生成式预训练模型-源码

  2. T5飞马 中文生成式预训练模型,以mT5为基础架构和初始权重,通过类似PEGASUS的方式进行预训练。 详情可见: ://kexue.fm/archives/8209 分词器 我们将T5 PEGASUS的令牌生成器转换成BERT的令牌生成器,它对中文更友好。同时,我们重新排列一版词表,从而里边的字,词都更加完善,目前的vocab.txt共包含5万个token,真正覆盖了中文的常用字,词。 预训练任务 具体来说,假设一个文档有n个句子,我们从中挑出大约n / 4个句子(可以不连续),因此这n /
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:418kb
    • 提供者:weixin_42153691
  1. 汉语单词向量:100多个汉语单词向量上百种预训练中文词向量-源码

  2. 中文单词向量 该项目提供了100多个中文单词向量(嵌入),它们经过不同的表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练。 可以轻松获得具有不同属性的预训练向量,并将其用于下游任务。 此外,我们提供了一个中文类比推理数据集CA8和一个评估工具包,供用户评估其词向量的质量。 参考 如果使用这些嵌入和CA8数据集,请引用该论文。 沉力,赵哲,胡仁芬,李文思,刘涛,杜小勇, ,ACL 2018。 InProceedings{P18-2023, author = "L
  3. 所属分类:其它

    • 发布日期:2021-02-19
    • 文件大小:347kb
    • 提供者:weixin_42166626
  1. tianchi_bert_nlp:天池NLP中文预训练模型泛化能力挑战赛的配套代码-源码

  2. 使用说明 找个预训练的bert丢数据/ pre_model_dir文件夹,然后运行main.py就可以了 模型下载地址 项目介绍: : 代码说明地址:(或者直接下载本地的notebook) 文件树 ├── BertRCNN # 模型文件 │   ├── args.py # 模型的默认参数,不用管它 │   └── BertRCNN.py # 模型 ├── config.py # 配置文件,看看你想改啥,最好不要动文件 ├── data # 原始数据 │   ├── NLP_A_Da
  3. 所属分类:其它

  1. albert-chinese-ner:使用预训练语言模型ALBERT做中文NER-源码

  2. 阿尔伯特·中国人 前言 这次的albert某种程度上可能会导致bert本质上有所重叠,恰逢中文预训练模型出来,还是按照之前的数据来做NER方面的fine-tune PS:移步传统模型 资源资源 文件 配置 下载albert中文模型,这里使用的是base 将模型文件夹重命名为albert_base_zh,加入项目中 运行python albert_ner.py --task_name ner --do_train true --do_eval true --data_dir data --voc
  3. 所属分类:其它

  1. albert_zh:用于自我监督学习语言表示的精简BERT,海量中文预训练ALBERT模型-源码

  2. albert_zh 使用TensorFlow实现的实现 ALBert基于Bert,但有一些改进。 它以30%的参数减少,可在主要基准上达到最先进的性能。 对于albert_base_zh,它只有十个百分比参数与原始bert模型进行比较,并且保留了主要精度。 现在已经提供了针对中文的ALBERT预训练模型的不同版本,包括TensorFlow,PyTorch和Keras。 海量中文语料上预训练ALBERT模型:参数充分,效果更好。预训练小模型也能拿下13项NLP任务,ALBERT三大改造登顶G
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:969kb
    • 提供者:weixin_42176827
  1. bert-chinese-ner:使用预训练语言模型BERT做中文NER-源码

  2. 伯特·中国人 前言 使用预训练语言模型BERT做中文NER尝试,微调BERT模型 PS:移步最新模型 代码参考 使用方法 从下载bert源代码,存放在路径下bert文件夹中 从下载模型,放置在checkpoint文件夹下 使用BIO数据标注模式,使用人民日报经典数据 培养: python BERT_NER.py --data_dir=data/ --bert_config_file=checkpoint/bert_config.json --init_checkpoint=checkpoint
  3. 所属分类:其它

  1. CLUE:中文语言理解基准测评中文语言理解评估基准:数据集,基线,预训练模型,语料库和页首横幅-源码

  2. CLUE基准 数据集,基线,预训练模型,语料库和页首横幅 中文语言理解测评基准,包括预期的数据集,基准(预训练)模型,语料库,排行榜。 我们会选择一系列有一定预期的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务,数据量,任务缺陷。 更新: 中文任务测评基准(CLUE基准)-排行榜 排行榜会定期更新数据来源: 分类任务(v1版本,正式版) 模型 得分 参数 空军质量管理委员会 新闻 IFLYTEK' 中国移动通信网 世界标准委员会 CSL 68.77 108M 73
  3. 所属分类:其它

  1. ERNIE:ERNIE的语言理解实现(包括预训练模型和微调工具)-源码

  2. |简体中文 ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中文字句,结构,语义等方面ERNIE在情感分析,文本匹配,自然语言推理,词法分析,阅读理解,智能问答等16个公开数据集上全面显着超越世界领先技术,在国际权威的通用语言理解上评估基准GLUE上,突破首次突破90分,获得全球第一。在今年3月落下帷幕的全球最大语义评价。SemEval2020上,ERNIE摘得5项世界冠军,该技术也被全球顶级科技商
  3. 所属分类:其它

  1. pytorch_chinese_lm_pretrain:pytorch中文语言模型预训练-源码

  2. 基于pytorch的中文语言模型预训练 ACL2020最佳论文有一篇论文提名奖,《不要停止预训练:使语言模型适应领域和任务》。本文涉及很多语言模型预训练的实验,系统的分析了语言模型预训练对子任务的效果提升情况。有几个主要方面: 在目标领域的数据集上继续预训练(DAPT)可以提高效果;目标领域的语料与RoBERTa的原始预训练语料越不相关,DAPT效果则提升更明显。 在具体任务的数据集上继续预训练(TAPT)可以十分“廉价”地提升效果。 结合两者(先进行DAPT,再进行TAPT)可以进一步提升效果
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:29kb
    • 提供者:weixin_42101164
  1. 中文-ELECTRA:训练有素的中文ELECTRA(中文ELECTRA预训练模型)-源码

  2. | 谷歌与斯坦福大学共同研发的最新预训练模型ELECTRA因其小巧的模型体积以及良好的模型性能受到了广泛关注。为了进一步促进中文预训练模型技术的研究与发展,哈工大讯飞联合实验室基于官方ELECTRA ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相符美,而参数量仅为BERT-base的1 / 10。本项目基于谷歌&斯坦福大学官方的ELECTRA: : 其他相关资源: MacBERT预训练模型: : 中文BERT-wwm预训练模型: : 中文XLNet预训练
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:314kb
    • 提供者:weixin_42136365
  1. ChineseGLUE:中文语言理解评估基准:数据集,基线,预训练模型,语料库和页首横幅-源码

  2. 中国胶 汉语语言理解评估基准:数据集,基线,预训练模型,语料库和排行榜 中文语言理解测评基准,包括预期的数据集,基准(预训练)模型,语料库,排行榜。 「更新,2019年11月22日」 1)【推荐】新版,更加系统全面,更好的技术支持,迁移新地址: : 2)初始经典版,以实用任务如分类或句子对任务为主,将继续保留并在此项目更新 我们会选择一系列有一定预期的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务,数据量,任务缺陷。 中文任务基准测评(ChineseGLUE)-
  3. 所属分类:其它

« 12 3 4 »