点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 维基语料
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
word2vec词向量训练及中文文本相似度计算 【源码+语料】
该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。 同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。 国家包括了Python的Jieba分词代码,详见博客。 免费资源希望对你有所帮助~
所属分类:
C
发布日期:2016-02-18
文件大小:142mb
提供者:
eastmount
维基百科中文语料(已分词)
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
所属分类:
机器学习
发布日期:2017-05-23
文件大小:300byte
提供者:
huanxtt
维基百科中文语料word2vec训练后结果
中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60MB,而训练后的所有文件大小有1G以上,所以这里只提供了下载链接,地址在网盘中。使用python中的gensim包进行训练得到的,运行时间较长,纯粹的维基百科中文语料训练后的结果,拿去可以直接使用。
所属分类:
机器学习
发布日期:2017-06-03
文件大小:234byte
提供者:
yangyangrenren
中文维基百科语料
数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。
所属分类:
机器学习
发布日期:2018-10-19
文件大小:146mb
提供者:
chenbjin2011
英文维基百科词向量训练语料
enwiki-latest-pages-articles1.xml-p10p30302.bz2,维基百科用来训练英文word2vec词向量的语料
所属分类:
深度学习
发布日期:2018-11-22
文件大小:166mb
提供者:
xiedelong
中文维基百科语料库(截止2019年2月20日)
这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来
所属分类:
机器学习
发布日期:2019-02-24
文件大小:4mb
提供者:
qq_32294855
中文维基语料Word2Vec训练模型
原文件为zhwiki-latest-pages-articles.xml.bz2,大小为1.7G,最新时间为19年7月下载,转为txt文本,繁转简,分词,gensim训练后的model文件
所属分类:
机器学习
发布日期:2019-07-25
文件大小:15mb
提供者:
k183000860
维基中文语料.txt
我搜索了很多,发现关于维基百科物料的下载方式都很慢,努力了很久终于有所收获,和大家分享。有两个内容,一个为json接口版本,一个为已分词版本
所属分类:
讲义
发布日期:2020-03-19
文件大小:238byte
提供者:
yh1208975072
维基百科中文语料(已分词)
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
所属分类:
机器学习
发布日期:2020-02-22
文件大小:650byte
提供者:
ximo881206
维基百科中文语料(已分词)
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
所属分类:
机器学习
发布日期:2020-01-21
文件大小:650byte
提供者:
coffee2008yy
维基百科中文语料(已分词)
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
所属分类:
机器学习
发布日期:2020-06-28
文件大小:650byte
提供者:
liqibiao666
中文维基百科语料库百度网盘网址.txt
本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
所属分类:
Python
发布日期:2020-08-10
文件大小:769byte
提供者:
qq_35357274
维基百科中文词向量.zip
维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训
所属分类:
深度学习
发布日期:2020-11-26
文件大小:336mb
提供者:
wwmmddz
自然语言处理系列:中文维基语料词向量训练.pdf
自然语言处理系列:中文维基语料词向量训练PPT
所属分类:
讲义
发布日期:2021-03-22
文件大小:162kb
提供者:
qq_40430888
WordEmbedding-WikiChinese:基于中文维基百科文本数据训练词向量-源码
基于中文维基百科文本数据训练词向量 一,数据获取 本词向量利用的是中文维基百科的语料进行训练。 语料地址: (大小1.16G) 也可以在我的网盘上下载:链接: 提取码:ihu4 二,数据转换 原数据的格式是xml,我们可以将其转换为txt。 这里使用的是gensim自带的WikiCorpus,首先读取xml文件到input_file中,然后其中的get_texts方法会生成一个get_texts器,每一个继承蕴含了一篇文章,这样我们就可以将其写入新的txt文件中了。 三,繁体数据转换为简体数据
所属分类:
其它
发布日期:2021-02-19
文件大小:4kb
提供者:
weixin_42099302
马来语数据集:马来西亚马来语文本语料库,https:malaya.readthedocs.ioenlatestDataset.html-源码
马来语数据集,我们收集了马来西亚语料库! 该存储库用于存储和。 我们将不断更新此存储库。 我们如何收集数据集? 对于新闻,文章和字幕,我们使用搜寻器,您可以从此处获取代码 。 对于Bahasa,大多数情况下我们使用Google Translator,您可以从此处获取代码 。 使用社交媒体,我们使用爬虫从Twitter,Facebook和Instagram捕获大多数实时数据,因此我们仅使用Elasticsearch查询进行搜索。 对于语音,我们使用Macbook Air 2013附带的
所属分类:
其它
发布日期:2021-02-08
文件大小:236mb
提供者:
weixin_42107491
WikiSQL:用于开发自然语言界面的大型带注释的语义分析语料库-源码
维基SQL 一个庞大的众包数据集,用于为关系数据库开发自然语言界面。 WikiSQL是与我们的工作《 一起发布的数据集。 引文 如果您使用WikiSQL,请引用以下内容: 钟国,、熊才明和理查德·索赫。 2017年。Seq2SQL:使用强化学习从自然语言生成结构化查询。 article{zhongSeq2SQL2017, author = {Victor Zhong and Caiming Xiong and Richa
所属分类:
其它
发布日期:2021-02-04
文件大小:25mb
提供者:
weixin_42151729
维基中文语料库(非最新)(两部分此为Part2) zhwiki-latest-pages-articles.xml.bz2_.part2
维基中文语料库(非最新)(两部分此为Part2) zhwiki-latest-pages-articles.xml.bz2_.part2 | 原压缩包太大需要分两次上传,part1链接:https://download.csdn.net/download/Joker_Q/14967708
所属分类:
机器学习
发布日期:2021-01-30
文件大小:676mb
提供者:
Joker_Q
维基中文语料库(非最新)(两部分此为Part1) zhwiki-latest-pages-articles.xml.bz2_.part1.rar
维基中文语料库(非最新)(两部分此为Part1) zhwiki-latest-pages-articles.xml.bz2_.part1 | Part2不需要积分, Part2链接:https://download.csdn.net/download/Joker_Q/14967774
所属分类:
机器学习
发布日期:2021-01-30
文件大小:800mb
提供者:
Joker_Q
[中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)
维基百科的中文语料库质量高、领域广泛而且开放,其每月会将所有条目打包供大家下载使用,可以点击: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版(也可以访问:https://dumps.wikimedia.org/zhwiki/ 获取历史版本)。 1、维基百科数据下载 (分享了一份到百度网盘:链接:https://pan.baidu.com/s/1LgJvdhvJLScDZ
所属分类:
其它
发布日期:2021-01-21
文件大小:249kb
提供者:
weixin_38529486
«
1
2
3
»