您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于本体的专利摘要知识抽取球

  2. 采用知识工程的方法,对“新能源汽车”中文专利摘要进行研究分析,提出一个基于本体的中文专利摘要 抽取模型。通过构建相应的本体、收集相关的词表、撰写相应的规则,并利用这些规则对专利摘要进行知识抽取 结果,抽取结果辅助完成专利知识库的自动构建。即就如何组织非结构化信息以及如何自动构建知识库进行尝 试,验证基于本体对专利摘要进行知识抽取的可行性。
  3. 所属分类:专业指导

    • 发布日期:2010-03-02
    • 文件大小:596kb
    • 提供者:wly_luffy
  1. 可应用于互联网的自学习中文关键词抽取算法

  2. 请先下载CAJ阅读器 只有算法介绍 1 使用停用词表排除常用虚词及无用实词; 2 根据文档长度确定低频阈词,并排除在文档中出现次数据低于阈值的词; 3 根据词在文档中出现的次数与关键词知识库的信息计算每个词的词频; 。。。。。。
  3. 所属分类:其它

    • 发布日期:2010-11-09
    • 文件大小:25kb
    • 提供者:qdfch
  1. GATE 13 词表.doc

  2. 用于对文本进行实体识别、语义标注的软件和源码的文档。
  3. 所属分类:企业管理

    • 发布日期:2012-12-21
    • 文件大小:542kb
    • 提供者:jakensonwjh3
  1. 文本去重(去除数组中重复项)

  2. 文本去重(去除数组中重复项),可以用来抽取汉语词表这些,用的朋友可以
  3. 所属分类:Java

    • 发布日期:2013-12-12
    • 文件大小:14kb
    • 提供者:zhengchangren
  1. GATE 自然语言处理

  2. 第一部分 GATE基础 第1章 引言 5 程显毅 第2章 安装和运行GATE 27 程显毅 第3章GATE Developer使用 36 张晓留 第4章 CREOLE: GATE组件模型 69 常俊 第5章语言资源: 语料库,文档和标注 89 杨萌萌 第6章ANNIE: 信息抽取系统 113 陆旦前,朱佳 第二部分 GATE高级用户 第7章 GATE Embedded 133 夏晓东 第8章JAPE: 标注规则表达式 181 葛秀芳,夏紫红 第9章ANNIC: 上下文标注 217 程显毅 第1
  3. 所属分类:其它

    • 发布日期:2014-07-10
    • 文件大小:3mb
    • 提供者:u011389474
  1. 中文情感分析语料整理

  2. # 语料库说明 ------------------------------------------------------------------------ ## 词典 1、HowNet 情感词典 2、ntusd 情感词典 3、情感分析停用词表 4、结巴分词自定义词典 5、常用语词典,包括流行新词,网络流行词,手机词汇,粤语,潮语潮词、*-通讯产品词汇等 ## 手机评论数据 1、HTC手机评论,包括打分,共302篇1-5 2、魅族手机评论,包括打分,共529篇1-5 3、诺基亚手机评
  3. 所属分类:机器学习

    • 发布日期:2018-08-13
    • 文件大小:12mb
    • 提供者:xhyqlbd
  1. 自然语言处理常用数据

  2. 涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中
  3. 所属分类:深度学习

    • 发布日期:2018-11-24
    • 文件大小:51mb
    • 提供者:m0_38106923
  1. 基于形式概念分析的煤矿事故本体构建

  2. 为解决煤矿事故知识管理混乱、联动不足等问题,构建了基于形式概念分析的煤矿事故本体。首先分别构建以煤矿领域的主题词表和文本集为数据源的形式背景,并通过并叠置运算得到异构资源的形式背景,然后利用概念格构造工具将形式背景转换为概念格,最后从概念格中抽取概念、属性和实例组织成煤矿事故本体。利用煤矿事故本体对煤矿事故知识进行组织和形式化表示,可实现煤矿事故知识的共享和重用,为煤矿安全预警提供帮助。
  3. 所属分类:其它

  1. stopwordlist.txt

  2. 最全中文停用词表整理(1893个),可用于自然语言处理任务,比如文本分类,文本摘要,关系抽取,事件抽取等
  3. 所属分类:深度学习

    • 发布日期:2020-04-08
    • 文件大小:15kb
    • 提供者:wieasyui
  1. VNC结构多词表达的抽取与分类

  2. VNC结构多词表达的抽取与分类,缪苗,,多词表达是指两个(或两个以上的)词单元同时出现一起的概率相对较高的词组和。多词表达涵盖了多种词单元的组合形式。多词表达在
  3. 所属分类:其它

    • 发布日期:2019-12-29
    • 文件大小:311kb
    • 提供者:weixin_38699726
  1. 阅读理解实战(一)

  2. BIDAF基线模型 基线系统实现 数据集分析 数据集是DuReader,特点是一个问题对应着多篇文章,我们要从多篇文章中抽取出正确的答案。 一条训练数据样式如下: 预处理 这里使用的是训练好的sgns.wiki.word的词向量 下载地址为sgns.wiki.word 也可以建立词表,随机初始化词向量 def prepare(args): """ checks data, creates the directories, prepare the vocabulary and e
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:256kb
    • 提供者:weixin_38641896
  1. 自然语言关键词提取

  2. 关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。 关键词提取算法一般分为有监督和无监督两类 有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点是精度较高,缺点是需要大批量的标注数据,人工成本过高,并且词表需要及时维护。 相比较而言,无监督的方法对数据的要求低,既不需要一张人工生成,维护的词表,也不需要人
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:94kb
    • 提供者:weixin_38546789
  1. 基于改进DE-Tri-Training算法的汉语多词表达抽取

  2. 基于改进DE-Tri-Training算法的汉语多词表达抽取
  3. 所属分类:其它

  1. Python结巴中文分词工具使用过程中遇到的问题及解决方法

  2. 本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法。分享给大家供大家参考,具体如下: 结巴分词是Python语言中效果最好的分词工具,其功能包括:分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下。 官网地址:https://github.com/fxsjy/jieba 1、安装。 按照官网上的说法,有三种安装方式, 第一种是全自动安装:easy_install jieba 或者 pip
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:97kb
    • 提供者:weixin_38632046