搜索资源 - 维基语料 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 维基语料

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

word2vec词向量训练及中文文本相似度计算【源码+语料】
该资源主要参考我的博客：word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码（从官网下载），自定义爬取的三大百科（百度百科、互动百科、维基百科）中文语料，涉及到国家、景区、动物和人物。同时包括60M的腾讯新闻语料，是一个txt，每行相当于一个新闻。国家包括了Python的Jieba分词代码，详见博客。免费资源希望对你有所帮助~
所属分类：C
- 发布日期：2016-02-18
- 文件大小：142mb
- 提供者：eastmount

维基百科中文语料（已分词）
自己用来训练word2vec的，已提取文本，做了分词处理，过滤了大部分的特殊字符。共包含3273626个段落的文本（一个段落包含了多个语句）。处理后的语料有1.1G，由于文件较大，提供百度网盘下载地址。
所属分类：机器学习
- 发布日期：2017-05-23
- 文件大小：300byte
- 提供者：huanxtt

维基百科中文语料word2vec训练后结果
中文维基百科语料库，将其转换为文本文件后，进行繁体字转换为简体字，字符集转换，分词，然后训练得到模型以及向量。由于文件上传的大小限制是60MB，而训练后的所有文件大小有1G以上，所以这里只提供了下载链接，地址在网盘中。使用python中的gensim包进行训练得到的，运行时间较长，纯粹的维基百科中文语料训练后的结果，拿去可以直接使用。
所属分类：机器学习
- 发布日期：2017-06-03
- 文件大小：234byte
- 提供者：yangyangrenren

中文维基百科语料
数据来源于中文维基百科，利用gensim进行数据抽取，再经过繁体字转换成简体字，得到纯净的文本语料，可用于词向量训练。
所属分类：机器学习
- 发布日期：2018-10-19
- 文件大小：146mb
- 提供者：chenbjin2011

英文维基百科词向量训练语料
enwiki-latest-pages-articles1.xml-p10p30302.bz2，维基百科用来训练英文word2vec词向量的语料
所属分类：深度学习
- 发布日期：2018-11-22
- 文件大小：166mb
- 提供者：xiedelong

中文维基百科语料库（截止2019年2月20日）
这是最新的中文维基百科语料库（截至2019年2月20日），可以用来训练word2vec词向量，做文本分类，官网特别难下载，因此分享出来
所属分类：机器学习
- 发布日期：2019-02-24
- 文件大小：4mb
- 提供者：qq_32294855

中文维基语料Word2Vec训练模型
原文件为zhwiki-latest-pages-articles.xml.bz2，大小为1.7G，最新时间为19年7月下载，转为txt文本，繁转简，分词，gensim训练后的model文件
所属分类：机器学习
- 发布日期：2019-07-25
- 文件大小：15mb
- 提供者：k183000860

维基中文语料.txt
我搜索了很多，发现关于维基百科物料的下载方式都很慢，努力了很久终于有所收获，和大家分享。有两个内容，一个为json接口版本，一个为已分词版本
所属分类：讲义
- 发布日期：2020-03-19
- 文件大小：238byte
- 提供者：yh1208975072

维基百科中文语料（已分词）
自己用来训练word2vec的，已提取文本，做了分词处理，过滤了大部分的特殊字符。共包含3273626个段落的文本（一个段落包含了多个语句）。处理后的语料有1.1G，由于文件较大，提供百度网盘下载地址。
所属分类：机器学习
- 发布日期：2020-02-22
- 文件大小：650byte
- 提供者：ximo881206

维基百科中文语料（已分词）
自己用来训练word2vec的，已提取文本，做了分词处理，过滤了大部分的特殊字符。共包含3273626个段落的文本（一个段落包含了多个语句）。处理后的语料有1.1G，由于文件较大，提供百度网盘下载地址。
所属分类：机器学习
- 发布日期：2020-01-21
- 文件大小：650byte
- 提供者：coffee2008yy

维基百科中文语料（已分词）
自己用来训练word2vec的，已提取文本，做了分词处理，过滤了大部分的特殊字符。共包含3273626个段落的文本（一个段落包含了多个语句）。处理后的语料有1.1G，由于文件较大，提供百度网盘下载地址。
所属分类：机器学习
- 发布日期：2020-06-28
- 文件大小：650byte
- 提供者：liqibiao666

中文维基百科语料库百度网盘网址.txt
本资源是维基百科中文网页的语料库（包含处理过的与未处理的），版本为2020-8-3版本，可适用于中文语料处理等训练集。由于文件过大，放在的百度网盘中，如果网盘被和谐或者其他原因造成的无法打开，请评论留言，本人看到后立即更改。文件中包含的内容有：未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码，读者可根据自己的需要进行相应的提取。
所属分类：Python
- 发布日期：2020-08-10
- 文件大小：769byte
- 提供者：qq_35357274

维基百科中文词向量.zip
维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件，有35万多个字词和符号，300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存，如果计算机的内存不够大，会直接内存溢出。所以，截取8000，20000个词汇的词向量进行使用，在配置普遍的设备也能运行。该项目提供了100多个使用不同表示（密集和稀疏），上下文特征（单词，ngram，字符等）和语料库训练的中文单词向量（嵌入）。人们可以很容易地获得具有不同属性的预训
所属分类：深度学习
- 发布日期：2020-11-26
- 文件大小：336mb
- 提供者：wwmmddz

自然语言处理系列：中文维基语料词向量训练.pdf
自然语言处理系列：中文维基语料词向量训练PPT
所属分类：讲义
- 发布日期：2021-03-22
- 文件大小：162kb
- 提供者：qq_40430888

WordEmbedding-WikiChinese：基于中文维基百科文本数据训练词向量-源码
基于中文维基百科文本数据训练词向量一，数据获取本词向量利用的是中文维基百科的语料进行训练。语料地址：（大小1.16G）也可以在我的网盘上下载：链接：提取码：ihu4 二，数据转换原数据的格式是xml，我们可以将其转换为txt。这里使用的是gensim自带的WikiCorpus，首先读取xml文件到input_file中，然后其中的get_texts方法会生成一个get_texts器，每一个继承蕴含了一篇文章，这样我们就可以将其写入新的txt文件中了。三，繁体数据转换为简体数据
所属分类：其它
- 发布日期：2021-02-19
- 文件大小：4kb
- 提供者：weixin_42099302

马来语数据集：马来西亚马来语文本语料库，https：malaya.readthedocs.ioenlatestDataset.html-源码
马来语数据集，我们收集了马来西亚语料库！该存储库用于存储和。我们将不断更新此存储库。我们如何收集数据集？对于新闻，文章和字幕，我们使用搜寻器，您可以从此处获取代码。对于Bahasa，大多数情况下我们使用Google Translator，您可以从此处获取代码。使用社交媒体，我们使用爬虫从Twitter，Facebook和Instagram捕获大多数实时数据，因此我们仅使用Elasticsearch查询进行搜索。对于语音，我们使用Macbook Air 2013附带的
所属分类：其它
- 发布日期：2021-02-08
- 文件大小：236mb
- 提供者：weixin_42107491

WikiSQL：用于开发自然语言界面的大型带注释的语义分析语料库-源码
维基SQL 一个庞大的众包数据集，用于为关系数据库开发自然语言界面。 WikiSQL是与我们的工作《一起发布的数据集。引文如果您使用WikiSQL，请引用以下内容：钟国,、熊才明和理查德·索赫。 2017年。Seq2SQL：使用强化学习从自然语言生成结构化查询。 article{zhongSeq2SQL2017, author = {Victor Zhong and Caiming Xiong and Richa
所属分类：其它
- 发布日期：2021-02-04
- 文件大小：25mb
- 提供者：weixin_42151729

维基中文语料库(非最新)(两部分此为Part2) zhwiki-latest-pages-articles.xml.bz2_.part2
维基中文语料库(非最新)(两部分此为Part2) zhwiki-latest-pages-articles.xml.bz2_.part2 | 原压缩包太大需要分两次上传，part1链接：https://download.csdn.net/download/Joker_Q/14967708
所属分类：机器学习
- 发布日期：2021-01-30
- 文件大小：676mb
- 提供者：Joker_Q

维基中文语料库(非最新)(两部分此为Part1) zhwiki-latest-pages-articles.xml.bz2_.part1.rar
维基中文语料库(非最新)(两部分此为Part1) zhwiki-latest-pages-articles.xml.bz2_.part1 | Part2不需要积分, Part2链接：https://download.csdn.net/download/Joker_Q/14967774
所属分类：机器学习
- 发布日期：2021-01-30
- 文件大小：800mb
- 提供者：Joker_Q

[中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)
维基百科的中文语料库质量高、领域广泛而且开放，其每月会将所有条目打包供大家下载使用，可以点击： https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版（也可以访问：https://dumps.wikimedia.org/zhwiki/ 获取历史版本）。 1、维基百科数据下载（分享了一份到百度网盘：链接:https://pan.baidu.com/s/1LgJvdhvJLScDZ
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：249kb
- 提供者：weixin_38529486

« 12 3 »