您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. word2vec词向量训练及中文文本相似度计算 【源码+语料】

  2. 该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。 同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。 国家包括了Python的Jieba分词代码,详见博客。 免费资源希望对你有所帮助~
  3. 所属分类:C

    • 发布日期:2016-02-18
    • 文件大小:142mb
    • 提供者:eastmount
  1. 中文维基语料Word2Vec训练模型

  2. 原文件为zhwiki-latest-pages-articles.xml.bz2,大小为1.7G,最新时间为19年7月下载,转为txt文本,繁转简,分词,gensim训练后的model文件
  3. 所属分类:机器学习

    • 发布日期:2019-07-25
    • 文件大小:15mb
    • 提供者:k183000860
  1. WORD2VEC.zip

  2. word2vec训练维基中文语料的三个文件,process.py为处理维基中文保存为wiki.zh.text,然后用opencc把繁体化为简体中文wiki.zh.text.jian.txt,然后用fenci_model.py进行分词生成wiki.zh.seg.text.jian.txt,最后用train_word2vec_model.py进行训练
  3. 所属分类:机器学习

    • 发布日期:2020-04-14
    • 文件大小:3kb
    • 提供者:SS51SS
  1. 维基中文语料.txt

  2. 我搜索了很多,发现关于维基百科物料的下载方式都很慢,努力了很久终于有所收获,和大家分享。有两个内容,一个为json接口版本,一个为已分词版本
  3. 所属分类:讲义

    • 发布日期:2020-03-19
    • 文件大小:238byte
    • 提供者:yh1208975072
  1. 中文维基百科语料库百度网盘网址.txt

  2. 本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
  3. 所属分类:Python

    • 发布日期:2020-08-10
    • 文件大小:769byte
    • 提供者:qq_35357274
  1. 维基百科中文词向量.zip

  2. 维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训
  3. 所属分类:深度学习

    • 发布日期:2020-11-26
    • 文件大小:336mb
    • 提供者:wwmmddz
  1. WordEmbedding-WikiChinese:基于中文维基百科文本数据训练词向量-源码

  2. 基于中文维基百科文本数据训练词向量 一,数据获取 本词向量利用的是中文维基百科的语料进行训练。 语料地址: (大小1.16G) 也可以在我的网盘上下载:链接: 提取码:ihu4 二,数据转换 原数据的格式是xml,我们可以将其转换为txt。 这里使用的是gensim自带的WikiCorpus,首先读取xml文件到input_file中,然后其中的get_texts方法会生成一个get_texts器,每一个继承蕴含了一篇文章,这样我们就可以将其写入新的txt文件中了。 三,繁体数据转换为简体数据
  3. 所属分类:其它

  1. [中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)

  2. 维基百科的中文语料库质量高、领域广泛而且开放,其每月会将所有条目打包供大家下载使用,可以点击: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版(也可以访问:https://dumps.wikimedia.org/zhwiki/ 获取历史版本)。 1、维基百科数据下载 (分享了一份到百度网盘:链接:https://pan.baidu.com/s/1LgJvdhvJLScDZ
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:249kb
    • 提供者:weixin_38529486