您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. word2vec词向量训练及中文文本相似度计算 【源码+语料】

  2. 该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。 同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。 国家包括了Python的Jieba分词代码,详见博客。 免费资源希望对你有所帮助~
  3. 所属分类:C

    • 发布日期:2016-02-18
    • 文件大小:142mb
    • 提供者:eastmount
  1. 维基百科中文语料(已分词)

  2. 自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
  3. 所属分类:机器学习

    • 发布日期:2017-05-23
    • 文件大小:300byte
    • 提供者:huanxtt
  1. 维基百科中文语料word2vec训练后结果

  2. 中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60MB,而训练后的所有文件大小有1G以上,所以这里只提供了下载链接,地址在网盘中。使用python中的gensim包进行训练得到的,运行时间较长,纯粹的维基百科中文语料训练后的结果,拿去可以直接使用。
  3. 所属分类:机器学习

    • 发布日期:2017-06-03
    • 文件大小:234byte
    • 提供者:yangyangrenren
  1. 中文维基百科语料

  2. 数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。
  3. 所属分类:机器学习

    • 发布日期:2018-10-19
    • 文件大小:146mb
    • 提供者:chenbjin2011
  1. 英文维基百科词向量训练语料

  2. enwiki-latest-pages-articles1.xml-p10p30302.bz2,维基百科用来训练英文word2vec词向量的语料
  3. 所属分类:深度学习

    • 发布日期:2018-11-22
    • 文件大小:166mb
    • 提供者:xiedelong
  1. 中文维基百科语料库(截止2019年2月20日)

  2. 这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来
  3. 所属分类:机器学习

    • 发布日期:2019-02-24
    • 文件大小:4mb
    • 提供者:qq_32294855
  1. 中文维基语料Word2Vec训练模型

  2. 原文件为zhwiki-latest-pages-articles.xml.bz2,大小为1.7G,最新时间为19年7月下载,转为txt文本,繁转简,分词,gensim训练后的model文件
  3. 所属分类:机器学习

    • 发布日期:2019-07-25
    • 文件大小:15mb
    • 提供者:k183000860
  1. 维基中文语料.txt

  2. 我搜索了很多,发现关于维基百科物料的下载方式都很慢,努力了很久终于有所收获,和大家分享。有两个内容,一个为json接口版本,一个为已分词版本
  3. 所属分类:讲义

    • 发布日期:2020-03-19
    • 文件大小:238byte
    • 提供者:yh1208975072
  1. 维基百科中文语料(已分词)

  2. 自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
  3. 所属分类:机器学习

    • 发布日期:2020-02-22
    • 文件大小:650byte
    • 提供者:ximo881206
  1. 维基百科中文语料(已分词)

  2. 自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
  3. 所属分类:机器学习

    • 发布日期:2020-01-21
    • 文件大小:650byte
    • 提供者:coffee2008yy
  1. 维基百科中文语料(已分词)

  2. 自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
  3. 所属分类:机器学习

    • 发布日期:2020-06-28
    • 文件大小:650byte
    • 提供者:liqibiao666
  1. 中文维基百科语料库百度网盘网址.txt

  2. 本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
  3. 所属分类:Python

    • 发布日期:2020-08-10
    • 文件大小:769byte
    • 提供者:qq_35357274
  1. 维基百科中文词向量.zip

  2. 维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训
  3. 所属分类:深度学习

    • 发布日期:2020-11-26
    • 文件大小:336mb
    • 提供者:wwmmddz
  1. 自然语言处理系列:中文维基语料词向量训练.pdf

  2. 自然语言处理系列:中文维基语料词向量训练PPT
  3. 所属分类:讲义

    • 发布日期:2021-03-22
    • 文件大小:162kb
    • 提供者:qq_40430888
  1. WordEmbedding-WikiChinese:基于中文维基百科文本数据训练词向量-源码

  2. 基于中文维基百科文本数据训练词向量 一,数据获取 本词向量利用的是中文维基百科的语料进行训练。 语料地址: (大小1.16G) 也可以在我的网盘上下载:链接: 提取码:ihu4 二,数据转换 原数据的格式是xml,我们可以将其转换为txt。 这里使用的是gensim自带的WikiCorpus,首先读取xml文件到input_file中,然后其中的get_texts方法会生成一个get_texts器,每一个继承蕴含了一篇文章,这样我们就可以将其写入新的txt文件中了。 三,繁体数据转换为简体数据
  3. 所属分类:其它

  1. 马来语数据集:马来西亚马来语文本语料库,https:malaya.readthedocs.ioenlatestDataset.html-源码

  2. 马来语数据集,我们收集了马来西亚语料库! 该存储库用于存储和。 我们将不断更新此存储库。 我们如何收集数据集? 对于新闻,文章和字幕,我们使用搜寻器,您可以从此处获取代码 。 对于Bahasa,大多数情况下我们使用Google Translator,您可以从此处获取代码 。 使用社交媒体,我们使用爬虫从Twitter,Facebook和Instagram捕获大多数实时数据,因此我们仅使用Elasticsearch查询进行搜索。 对于语音,我们使用Macbook Air 2013附带的
  3. 所属分类:其它

    • 发布日期:2021-02-08
    • 文件大小:236mb
    • 提供者:weixin_42107491
  1. WikiSQL:用于开发自然语言界面的大型带注释的语义分析语料库-源码

  2. 维基SQL 一个庞大的众包数据集,用于为关系数据库开发自然语言界面。 WikiSQL是与我们的工作《 一起发布的数据集。 引文 如果您使用WikiSQL,请引用以下内容: 钟国,、熊才明和理查德·索赫。 2017年。Seq2SQL:使用强化学习从自然语言生成结构化查询。 article{zhongSeq2SQL2017, author = {Victor Zhong and Caiming Xiong and Richa
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:25mb
    • 提供者:weixin_42151729
  1. 维基中文语料库(非最新)(两部分此为Part2) zhwiki-latest-pages-articles.xml.bz2_.part2

  2. 维基中文语料库(非最新)(两部分此为Part2) zhwiki-latest-pages-articles.xml.bz2_.part2 | 原压缩包太大需要分两次上传,part1链接:https://download.csdn.net/download/Joker_Q/14967708
  3. 所属分类:机器学习

    • 发布日期:2021-01-30
    • 文件大小:676mb
    • 提供者:Joker_Q
  1. 维基中文语料库(非最新)(两部分此为Part1) zhwiki-latest-pages-articles.xml.bz2_.part1.rar

  2. 维基中文语料库(非最新)(两部分此为Part1) zhwiki-latest-pages-articles.xml.bz2_.part1 | Part2不需要积分, Part2链接:https://download.csdn.net/download/Joker_Q/14967774
  3. 所属分类:机器学习

    • 发布日期:2021-01-30
    • 文件大小:800mb
    • 提供者:Joker_Q
  1. [中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)

  2. 维基百科的中文语料库质量高、领域广泛而且开放,其每月会将所有条目打包供大家下载使用,可以点击: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版(也可以访问:https://dumps.wikimedia.org/zhwiki/ 获取历史版本)。 1、维基百科数据下载 (分享了一份到百度网盘:链接:https://pan.baidu.com/s/1LgJvdhvJLScDZ
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:249kb
    • 提供者:weixin_38529486
« 12 3 »