您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Lucene+in+Action

  2. Lucene in Action 为使用最好的 Java 开源搜索引擎的用户提供所有细节、最好的实践、警告 技巧。 本书假设读者熟悉基本的 Java 编程。Lucene 本身是个 Java 档案(JAR)文件并能集成到简 的命令行程序和大型企业级应用程序中。 Roadmap 我们在本书第 1 部分覆盖 Lucene 核心编程接口(API)使你在将 Lucene 整合到你的程序中 愿意使用它: n 第 1 章,接触 Lucene。我们介绍了一些基本的信息搜索术语和 Lucene 的主要 争对手。
  3. 所属分类:Java

  1. word2vec_basic.py源码下载

  2. Tensorflow 中文社区字词的向量表示的 word2vec_basic.py 源码下载
  3. 所属分类:机器学习

    • 发布日期:2018-05-24
    • 文件大小:10kb
    • 提供者:chnyac
  1. CRF,LSTM,最大后向匹配法实现中文分词

  2. 3种中文分词方法:最大后向匹配法,CRF,LSTM。其中LSTM又用了三种方法输入,glove向量,Word2vec向量,还有将字映射成整数再通过embedding层映射成字向量作为输入。还包含中文分词的评分脚本。
  3. 所属分类:深度学习

    • 发布日期:2018-06-18
    • 文件大小:14mb
    • 提供者:sixi5498
  1. 维基百科数据训练的字向量,可以作为分词工具的输入

  2. 维基百科数据训练的字向量,可以作为分词工具的输入,附使用代码。效果:三的上下文最相似词:四 0.9261350631713867 六 0.9203430414199829 二 0.9152765870094299 五 0.9106490612030029 八 0.8815003633499146 七 0.8814834356307983 九 0.8052943348884583 十 0.7749631404876709 百 0.6811780333518982 一 0.676212310791
  3. 所属分类:深度学习

    • 发布日期:2018-07-13
    • 文件大小:8mb
    • 提供者:u011048569
  1. Word2Vec 字词的向量表示法

  2. 本教程旨在重点介绍在Tensorflow中构建word2vec模型时的一些有趣且重要的部分。 1.我们将先说明将字词表示为向量的动机 2.我们会介绍模型的原理及其训练方式 3.我们还会在Tensorflow中展示模型的简单实现 4.我们会介绍如何提高该简单版本的扩展性能
  3. 所属分类:深度学习

    • 发布日期:2019-01-10
    • 文件大小:2mb
    • 提供者:blackkettle
  1. 智能问答算法原理及实践之路

  2. 高清版,智能问答算法原理及实践之路CONTENTS 01 智能问答算法原理 02 实践:小知客服机器人电话机器人 03 总结和挑战 腾讯小知 总览 query 中控逻辑 response 任务机器人 知识图谱机器人 FAQ机器人 闲聊机器人 阅读理解机器人 KNOWLEDGE GRAPH AQ豆豆 腾讯小知 腾讯小知 FAQ机器人 Preprocess:对 query进行预处理,抽取NLP特征 社保余额 怎么查询? 纠错 标准化文本特征提取 FAQ问题集 Retrieval:从问题索引中召回
  3. 所属分类:机器学习

  1. Python-中文自然语言处理向量合集

  2. 中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量
  3. 所属分类:其它

    • 发布日期:2019-08-10
    • 文件大小:27mb
    • 提供者:weixin_39840588
  1. Python-基于同义词词林知网指纹字词向量向量空间模型的句子相似度计算

  2. self complement of Sentence Similarity compute based on cilin, hownet, simhash, wordvector,vsm models,基于同义词词林,知网,指纹,字词向量,向量空间模型的句子相似度计算。
  3. 所属分类:其它

  1. 实训作业 (1).rar

  2. 三、 项目思路 1. 爬取一定时间内的(如最近1个月的)前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdao-snq/),部分数据可以直接在搜索结果中获取,部分数据需要进入到岗位页面中获取。 2. 将爬取的数据保存为本地文本文件(若学生掌握数据库相关知识则可以保存在数据库中)。 3. 基于爬取的数据可以形成多种数据分析结果,例如:行业薪资、地区薪资、地区与行业分布关系、行业学历需求情况等。 4. “职位信息”字段可使用jieba分词库进行分
  3. 所属分类:机器学习

  1. 爬取一定时间内的前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdao-snq/)

  2. 三、 项目思路 1. 爬取一定时间内的(如最近1个月的)前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdao-snq/),部分数据可以直接在搜索结果中获取,部分数据需要进入到岗位页面中获取。 2. 将爬取的数据保存为本地文本文件(若学生掌握数据库相关知识则可以保存在数据库中)。 3. 基于爬取的数据可以形成多种数据分析结果,例如:行业薪资、地区薪资、地区与行业分布关系、行业学历需求情况等。 4. “职位信息”字段可使用jieba分词库进行分
  3. 所属分类:机器学习

  1. 维基百科中文词向量.zip

  2. 维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训
  3. 所属分类:深度学习

    • 发布日期:2020-11-26
    • 文件大小:336mb
    • 提供者:wwmmddz
  1. 2020-powerattack-nlp:2020中国大学生保险数字科技挑战赛排名14 0.293单句方案-代码当前不开源-源码

  2. 2020中国大学生保险数字科技挑战赛-科技赛道-随便取团队方案 诺文 赛题 对话意义识别 赛题数据 由于涉及到用户隐私及数据安全等问题,本次比赛不提供原始文本,而是使用字符编号和切词后的单词编号来表示文本信息。数据格式说明: id:通话流水号 类别:角色类型(0客户,1机器人) char:基于字的id 词:基于词的id(其中词通过-进行连接) 标签:所属范畴 训练数据和预测数据(测试集)都没有经过任何清洗。 最终排名 初赛总榜排名14 初赛华东赛区第四 分数0.29305968 线上最终
  3. 所属分类:其它

  1. Language-games:用单词向量制作的简单死亡游戏-源码

  2. 语言游戏 用语言模型和字向量制作的简单简单游戏。由精彩的词向量库提供支持: 游戏1:竞争性单词猜测-玩家尝试猜测一个隐藏的单词 游戏2:猜测列表中最接近给定单词的单词 游戏3:猜测与其他单词列表不匹配的单词 游戏4:类似语义拼字游戏 安装说明 克隆仓库 根据需要输入pip install -r requirements.txt或pip3 install -r requirments.txt 。 和/或下载可用的这些词向量集之一 通过运行python3 play_game.py享受游戏 屏幕截图
  3. 所属分类:其它

  1. research-源码

  2. 公平研究 科学研究中的公平性研究。 检查不同“敏感”群体之间的推荐是否存在显着的群体差异 链接: : bag_of_words.py将两个文件名用作命令行参数,并为它们生成字词向量的unigram(或bigram)袋。 示例参数: 对于main.py --path“ ../../workingAmir/data_info/loaded_pickles_nips19/” --save_model“ lda”-时期“ 20”] 对于validate.py --data_path“ ..
  3. 所属分类:其它

    • 发布日期:2021-03-05
    • 文件大小:41kb
    • 提供者:weixin_42169674
  1. 用Bert生成中文的字、词向量-附件资源

  2. 用Bert生成中文的字、词向量-附件资源
  3. 所属分类:互联网

    • 发布日期:2021-03-05
    • 文件大小:106byte
    • 提供者:weixin_42183453
  1. 用Bert生成中文的字、词向量-附件资源

  2. 用Bert生成中文的字、词向量-附件资源
  3. 所属分类:互联网

    • 发布日期:2021-03-02
    • 文件大小:23byte
    • 提供者:weixin_42204453
  1. Word2Bits:量化字向量比常规字向量占用的空间少8x-16x-源码

  2. Word2Bits-量化词向量 Word2Bits扩展了Word2Vec算法,以输出高质量的量化词向量,该向量的存储量比常规词向量少8到16倍。 在阅读详细信息。 什么是量化词向量? 量化词向量是词向量,其中每个参数是2^bitlevel值之一。 例如,“国王”的1位量化矢量看起来像 0.33333334 0.33333334 0.33333334 -0.33333334 -0.33333334 -0.33333334 0.33333334 0.33333334 -0.33333334 0.
  3. 所属分类:其它

  1. Min_NLP_Practice:使用CNN双向lstm和crf模型并带有char嵌入功能的中英文Cws Pos Ner实体识别工具。基于字向量的CNN池化双向BiLSTM与CRF模型的网络,可能的一体化完成标记,实体识别。主要包括原始文本

  2. CwsPosNerEntityRecognition 中英文Cws Pos Ner实体识别工具,使用CNN双向lstm和crf模型,并带有char嵌入。基于字向量的CNN池化双向BiLSTM与CRF模型的网络,可能一体化的完成中文和英文分词,词性标注,实体识别。主要包括原始文本数据,数据转换,训练脚本,预训练模型,可用于序列标注研究。注意:唯一需要实现的逻辑是将用户数据转化为序列模型。分词准确率约为93%,词性标注准确率约为90%,实体标注(在本样本上)约为85%。 提示 中文分词,词性标注,
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:52mb
    • 提供者:weixin_42135073
  1. text2vec:text2vec,中文文本到vetor。(文本向量化表示工具,包括词向量化,句子向量化,句子相似度计算)-源码

  2. text2vec text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化) 特征 文本向量表示 字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。 句子粒度,通过求句子中所有单词词嵌入的预先计算得到。 篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。 文本相似度计算 基准方法,估计两个句
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:141kb
    • 提供者:weixin_42149145
  1. Keras-TextClassification:中文长文本分类,短句分类,多标签分类,两句相似度(多标签分类或句子分类,长或短),字词向量嵌入层(嵌入)和网络层(图)嵌入基类,FastText,TextCNN,CharCNN,TextRN

  2. 安装(安装) pip install Keras-TextClassification step2 : download and unzip the dir of 'data.rar' , 地址: https : // pan . baidu . com / s / 1 I3vydhmFEQ9nuPG2fDou8Q 提取码: rket cover the dir of data to anaconda , like '/anaconda/3.5.1/envs/tensorflo
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:483kb
    • 提供者:weixin_42122432
« 12 »