搜索资源 - 词向量语料 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 词向量语料

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

word2vec词向量训练及中文文本相似度计算【源码+语料】
该资源主要参考我的博客：word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码（从官网下载），自定义爬取的三大百科（百度百科、互动百科、维基百科）中文语料，涉及到国家、景区、动物和人物。同时包括60M的腾讯新闻语料，是一个txt，每行相当于一个新闻。国家包括了Python的Jieba分词代码，详见博客。免费资源希望对你有所帮助~
所属分类：C
- 发布日期：2016-02-18
- 文件大小：142mb
- 提供者：eastmount

基于海量新闻语料训练得到的实体词向量
该资源便于对词向量感兴趣的童鞋进行实验
所属分类：其它
- 发布日期：2016-11-25
- 文件大小：425kb
- 提供者：wyg7839303

Google的word2vec源码
LICENSE //Apache LICENSE README.txt //工具使用说明 compute-accuracy.c demo-analogy.sh // demo-classes.sh //词聚类的示例脚本 demo-phrase-accuracy.sh demo-phrases.sh // demo-train-big-model-v1.sh demo-word-accuracy.sh demo-word.sh distance.c makefile questions-phra
所属分类：其它
- 发布日期：2017-09-27
- 文件大小：214kb
- 提供者：u013894368

中文维基百科语料
数据来源于中文维基百科，利用gensim进行数据抽取，再经过繁体字转换成简体字，得到纯净的文本语料，可用于词向量训练。
所属分类：机器学习
- 发布日期：2018-10-19
- 文件大小：146mb
- 提供者：chenbjin2011

英文维基百科词向量训练语料
enwiki-latest-pages-articles1.xml-p10p30302.bz2，维基百科用来训练英文word2vec词向量的语料
所属分类：深度学习
- 发布日期：2018-11-22
- 文件大小：166mb
- 提供者：xiedelong

停用词和词向量.rar
包含自然语言处理中的停用词，wiki语料训练的100维的词向量。
所属分类：Python
- 发布日期：2019-07-11
- 文件大小：5mb
- 提供者：qq_32639369

Python-利用Python构建Wiki中文语料词向量模型试验
利用Python构建Wiki中文语料词向量模型试验
所属分类：其它
- 发布日期：2019-08-10
- 文件大小：1mb
- 提供者：weixin_39841856

python gensim使用word2vec词向量处理中文语料的方法
主要介绍了python gensim使用word2vec词向量处理中文语料的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
所属分类：其它
- 发布日期：2020-09-19
- 文件大小：184kb
- 提供者：weixin_38695061

维基百科中文词向量.zip
维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件，有35万多个字词和符号，300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存，如果计算机的内存不够大，会直接内存溢出。所以，截取8000，20000个词汇的词向量进行使用，在配置普遍的设备也能运行。该项目提供了100多个使用不同表示（密集和稀疏），上下文特征（单词，ngram，字符等）和语料库训练的中文单词向量（嵌入）。人们可以很容易地获得具有不同属性的预训
所属分类：深度学习
- 发布日期：2020-11-26
- 文件大小：336mb
- 提供者：wwmmddz

python gensim使用word2vec词向量处理中文语料的方法
word2vec介绍 word2vec官网：https://code.google.com/p/word2vec/ word2vec是google的一个开源工具，能够根据输入的词的集合计算出词与词之间的距离。它将term转换成向量形式，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。 word2vec计算的是余弦值，距离范围为0-1之间，值越大代表两个词关联度越高。词向量：用Distributed Representat
所属分类：其它
- 发布日期：2020-12-26
- 文件大小：184kb
- 提供者：weixin_38637764

论文阅读：基于多模态词向量的语句距离计算方法
论文信息文章来源：cnki.net 添加链接描述文章类别，发表时间华阳. 基于多模态词向量的语句距离计算方法[D].哈尔滨工业大学,2018. 摘要摘要分三段，大致阐述了本文的出发点和工作内容，基本情况如下：简述语句间的距离问题：自然语言处理任务是度量文本间的距离；不同阶段语言学习的难度可以抽象为距离，本文探索语句间的距离。从两个角度阐述传统词向量距离的缺陷：基于纯文本语料的词向量构建，与人类通过多种感官途径接受信息不符；传统的多模态词向量通过拼接词向量与图像特征略显粗糙。本文提出了
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：48kb
- 提供者：weixin_38705723

CS224n 斯坦福深度自然语言处理课笔记 Lecture03—高级词向量表示
一、word2cev 1、回顾skip-grams word2vec的主要步骤是遍历整个语料库，利用每个窗口的中心词来预测上下文的单词，然后对每个这样的窗口利用SGD来进行参数的更新。对于每一个窗口而言，我们只有2m+1个单词（其中m表示窗口的半径），因此我们计算出来的梯度向量是十分稀疏的。我们会在每个窗口更新损失函数。对于2dv的参数而言，我们只能更新一小部分。因此一个解决方法是提供一个单词到词向量的哈希映射。 2、负采样（negative sampling）在word2vec的计算中有
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：3mb
- 提供者：weixin_38690739

自然语言处理系列：中文维基语料词向量训练.pdf
自然语言处理系列：中文维基语料词向量训练PPT
所属分类：讲义
- 发布日期：2021-03-22
- 文件大小：162kb
- 提供者：qq_40430888

Pre-trained Word Vectors for Spanish 西班牙语的预训练词向量-数据集
词向量，也称为词嵌入，是一种基于词在相似上下文中的使用的词的多维表示。它们可以捕捉词语的一些含义。例如，使用大量词汇并以向量空间表示方式聚集在一起的文档更有可能是类似的主题。训练词向量需要大量的计算，并且向量本身会根据训练的文档或语料库而变化。由于这些原因，使用预先训练过的词向量通常比为每个项目从头训练词向量更方便。 Pre-trained Word Vectors for Spanish_datasets.txt
所属分类：其它
- 发布日期：2021-03-04
- 文件大小：305byte
- 提供者：weixin_38671819

word2vec词向量训练及中文文本相似度计算
PS：第一部分主要是给大家引入基础内容作铺垫，这类文章很多，希望大家自己去学习更多更好的基础内容，这篇博客主要是介绍Word2Vec对中文文本的用法。统计语言模型的一般形式是给定已知的一组词，求解下一个词的条件概率。形式如下：统计语言模型的一般形式直观、准确，n元模型中假设在不改变词语在上下文中的顺序前提下，距离相近的词语关系越近，距离较远的关联度越远，当距离足够远时，词语之间则没有关联度。但该模型没有完全利用语料的信息：1)没有考虑距离更远的词语与当前词的关系，即超出范围n的词被忽略了，而这两
所属分类：其它
- 发布日期：2021-02-25
- 文件大小：721kb
- 提供者：weixin_38643401

WordEmbedding-WikiChinese：基于中文维基百科文本数据训练词向量-源码
基于中文维基百科文本数据训练词向量一，数据获取本词向量利用的是中文维基百科的语料进行训练。语料地址：（大小1.16G）也可以在我的网盘上下载：链接：提取码：ihu4 二，数据转换原数据的格式是xml，我们可以将其转换为txt。这里使用的是gensim自带的WikiCorpus，首先读取xml文件到input_file中，然后其中的get_texts方法会生成一个get_texts器，每一个继承蕴含了一篇文章，这样我们就可以将其写入新的txt文件中了。三，繁体数据转换为简体数据
所属分类：其它
- 发布日期：2021-02-19
- 文件大小：4kb
- 提供者：weixin_42099302

汉语单词向量：100多个汉语单词向量上百种预训练中文词向量-源码
中文单词向量该项目提供了100多个中文单词向量（嵌入），它们经过不同的表示（密集和稀疏），上下文特征（单词，ngram，字符等）和语料库训练。可以轻松获得具有不同属性的预训练向量，并将其用于下游任务。此外，我们提供了一个中文类比推理数据集CA8和一个评估工具包，供用户评估其词向量的质量。参考如果使用这些嵌入和CA8数据集，请引用该论文。沉力，赵哲，胡仁芬，李文思，刘涛，杜小勇，，ACL 2018。 InProceedings{P18-2023, author = "L
所属分类：其它
- 发布日期：2021-02-19
- 文件大小：347kb
- 提供者：weixin_42166626

funNLP：中英文敏感词，语言检测，中外手机电话归属地运营商查询，名字性别，手机号删除，身份证提取，邮箱删除，中日文人名库，中文缩写库，拆字词典，词汇情感值，停用词，反动词表，暴恐词表，繁简体转换，英语模拟中文最佳，汪峰歌词生成器，职业名
NLP民工的乐园最强大的NLP武器库 NLP民工的乐园：几乎最全的中文NLP资源库词库工具包学习资料在入门到熟悉NLP的过程中，用到了很多github上的包，遂整理了一下，分享在这里。很多包非常有趣，值得收藏，满足大家的收集癖！如果觉得有用，请分享并star，谢谢！长期不定时更新，欢迎手表和叉子！涉及内容包括但不限于：中英文敏感词，语言检测，中外手机/电话归属地/运营商查询，名字，名称，性别，手机号撤回，身份证删除，邮箱删除，中日文人名库，中文缩写库，拆字字典，词汇情感值，替
所属分类：其它
- 发布日期：2021-02-09
- 文件大小：69mb
- 提供者：weixin_42139460

基于词向量和EMD距离的短文本聚类
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似
所属分类：其它
- 发布日期：2021-02-07
- 文件大小：1mb
- 提供者：weixin_38653443

awesome_Chinese_medical_NLP：中文医学NLP公开资源整理：术语集语料库词向量预训练模型知识图谱命名实体识别QA信息抽取模型论文等-源码
awesome_Chinese_medical_NLP：中文医学NLP公开资源整理：术语集语料库词向量预训练模型知识图谱命名实体识别QA信息抽取模型论文等
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：3kb
- 提供者：weixin_42140710

« 12 3 4 5 »