您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. csw5.0中文分词组件

  2. 一、CSW中分词组件简介 CSW中文分词组件,是一套可自动将一段文本按常规汉语词组进行拆分,并以指定方式进行分隔的COM组件。本组件采用独有的高效的分词引擎及拆分算法,具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行研究分析的需要,本组件同时提供词性及词频标注功能,可根据用户要求,对其拆分后的词组进行词性标注或词频标注。互联网信息检索、数据库信息查询、智能聊天机器人、文本校对、自动翻译、 自动摘要、自动分类及信息加工处理等各个领域。 二、本组件特点: 1.适应性强 本组全部件采用
  3. 所属分类:C#

    • 发布日期:2009-09-01
    • 文件大小:3mb
    • 提供者:madl_lxj_163
  1. sql2005全文检索.doc

  2. SQL Server 2005全文检索技术在网站上的应用实录 http://tech.ddvip.com 2008年01月21日 社区交流 Excel服务器-用Excel做管理系统 关键字: DataGuard checkpoint 动态查询 synonyms 卸载SQL 2005 SQL Server群集 内容摘要:本文提供了网站如何设计和实现基于SQL Server 2005的全文检索实例,希望能对正在使用SQL Server 2005构建网站搜索的同仁有所裨益。 一、前言 “人类失去搜索
  3. 所属分类:其它

    • 发布日期:2009-09-09
    • 文件大小:506kb
    • 提供者:a522920779a
  1. 汉语分词技术综述.pdf

  2. [摘要]首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动 分类、文本信息过滤,自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前 汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。 [关键词]汉语自动分词中文全文检索文献自动标引 自然语言检索
  3. 所属分类:专业指导

    • 发布日期:2009-12-14
    • 文件大小:594kb
    • 提供者:shan_xue_xib
  1. 汉语分词技术综述 文档 论文

  2. 首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动 分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前 汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。
  3. 所属分类:专业指导

    • 发布日期:2010-01-17
    • 文件大小:56kb
    • 提供者:tberg
  1. ACWPS(爱博汉语分词系统)分词组件 asp分词组件

  2. 爱博汉语分词系统Web服务器支持标准的HTTP协议,可以跨平台调用,支持分布式运算; 爱博汉语分词系统COM组件提供COM和DLL接口(Windows环境) 以及共享库.so(Linux)形式,可支持所有支持COM接口调用的编程语言及脚本语言。 如:PHP、JSP、ASP、ASP.net、C/C++ 、VC6.0 、VC.net、BC、C#、VB6.0 、VB.net、Delphi、Java等。 爱博汉语分词系统支持自定义词语的功能,用户可根据自己需要定义添加汉语词组。 可根据需要自行定义影响
  3. 所属分类:C#

    • 发布日期:2010-02-28
    • 文件大小:2mb
    • 提供者:selectersky
  1. LJParser文本搜索与挖掘开发平台

  2. 一、简介 LJParser文本搜索与挖掘开发平台包括:全文精准搜索,新词发现,汉语分词标注,词语统计与术语翻译,自动聚类与热点发现,分类过滤,自动摘要,关键词提取,文档去重,正文提取等十余项功能。针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供
  3. 所属分类:Web开发

    • 发布日期:2010-05-11
    • 文件大小:17mb
    • 提供者:lingjoin
  1. 灵柩软件 可用于汉语分词处理

  2. LJParser文本搜索与挖掘开发平台的十大功能: 1. 全文精准检索 支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现: 从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。 3. 分词标注: 对原始语料进行分词
  3. 所属分类:Web开发

    • 发布日期:2010-11-05
    • 文件大小:672kb
    • 提供者:zhangguoqiang52
  1. 信息检索汉语停用词表

  2. 停用词其实至少一种叫法。它是指文本中出现频率很高,但实际意义又不大的词,主要指副词、虚词、语气词等。如“是”、“而是”等。 它主要用在信息检索中。在为文本或网页建立索引的时候,会去掉这些词。
  3. 所属分类:专业指导

    • 发布日期:2010-12-23
    • 文件大小:7kb
    • 提供者:yucaocong
  1. ICTCLAS2009版中文分词系统

  2. 中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展 用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。 分词粒度可调 可以
  3. 所属分类:C++

    • 发布日期:2012-01-02
    • 文件大小:9mb
    • 提供者:yahawami
  1. 基于语义相似度计算的词汇语义自动分类系统

  2. :词汇语义分类存文本聚类、信息检索、机器翻译等多个研究领域l11拥有重要的理论及实践意义。介绍的知网语义相似 度计算的i;可汇语义自动分类系统通过设计双向索引结构,高效的组织和挖掘了知网已有数据资源,并利用成熟的知网词语 相似度计算方法,为词汇语义自动分类提供了不同于统计力‘法的新思路。目前系统的研究已取得实质性成果。在知网义原 1564个分类的基础上,对知网提供的6万余条汉语常用词进行初步语义分类,进而开发,二次分类模块,针对初步分类结 l果进一步细化为适合实际需要的子类。实验结果证明该系统
  3. 所属分类:微软认证

  1. 基于C++正则表达式的汉语文本信息检索

  2. 基于C++正则表达式的汉语文本信息检索,这是学习正则表达式的比较好的方式。。
  3. 所属分类:C++

    • 发布日期:2013-06-23
    • 文件大小:70kb
    • 提供者:halhdl
  1. 汉语自动分词与内容分析法研究

  2. 汉语自动分词是目前中文信息处理中公认的难题,因为汉语自动分词是自然语言理解、机器翻译、信息检索、语言文字研究、汉语文本自动标引、内容分析等研究领域中最基本的一个环节,也是中文信息自动处理的“瓶颈”。如果能突破这一“瓶颈”,那么中文信息的自动处理就会迎刃而解,甚至意味着中华民族文化复兴的开始,因为它已经为汉语走向全世界打开了一扇方便之门。
  3. 所属分类:C++

    • 发布日期:2014-03-28
    • 文件大小:27kb
    • 提供者:shuigsls
  1. 统计自然语言处理基础(中文版)

  2. 统计自然语言处理基础(中文版)全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
  3. 所属分类:其它

    • 发布日期:2014-04-21
    • 文件大小:25mb
    • 提供者:a09211008
  1. BFSU ParaConc

  2. 1、 该软件只支持ANSI编码文本,不支持Unicode编码文本。 2、 汉语文本可不进行分词处理。 3、 中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名。 4、 数据文件必须严格行对齐,如包含空行也必须达到文本对应,即平行文件的对应行都是空的。软件不能智能自动对齐语料。 5、 软件支持正则表达式检索。 6、 软件默认支持英文词形还原检索(lemmatized search),如,检索go,可得到含有go、goes、went、going、gone等的平行句对。去除lemma
  3. 所属分类:其它

    • 发布日期:2015-09-21
    • 文件大小:4mb
    • 提供者:wufuhehe
  1. ICTCLAS2009版中文分词系统

  2. 中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展 用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。 分词粒度可调 可以
  3. 所属分类:嵌入式

  1. 中文分词学习版

  2. 此为学习版,请勿用于商业用途或扩散。 以下描述转至互联网。 ============== 一、CSW中分词组件简介 CSW中文分词组件,是一套可自动将一段文本按常规汉语词组进行拆分,并以指定方式进行分隔的COM组件。本组件采用独有的高效的分词引擎及拆分算法,具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行研究分析的需要,本组件同时提供词性及词频标注功能,可根据用户要求,对其拆分后的词组进行词性标注或词频标注。互联网信息检索、数据库信息查询、智能聊天机器人、文本校对、自动翻译、 自
  3. 所属分类:机器学习

  1. 文本处理资料.zip

  2. 全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
  3. 所属分类:算法与数据结构

    • 发布日期:2019-07-05
    • 文件大小:70mb
    • 提供者:weixin_45343016
  1. 中文情感词汇库-极值表

  2. 目前,情感倾向分析的方法主要分为两类:一种是基于情感词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。前者需要用到标注好的情感词典,英文的词典有很多,中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。 文本情感分析的分析粒度可以是词语、句子也可以是段落或篇章。段落
  3. 所属分类:算法与数据结构

    • 发布日期:2019-03-08
    • 文件大小:152kb
    • 提供者:fengbenming
  1. 面向视频场景内容检索的文本解析工具设计与实现

  2. 在足球赛事视频的应用背景下,分析了面向视频场景内容检索的文本解析关键技术,设计并实现了面向视频场景内容检索的文本解析工具。该工具利用中文分词技术分割自然语言文本,通过汉语语法规则提取关键词,采用加权算法对关键词排序,并将关键词映射到知识表达集,从而获得关键词的语义信息,完成文本解析。实验结果表明,该工具能够满足自然语言文本的视频检索需求。
  3. 所属分类:其它

    • 发布日期:2020-10-18
    • 文件大小:296kb
    • 提供者:weixin_38696176
  1. 基于wordnet的汉语老挝语跨语言测验相似度计算

  2. 文本相似度计算被信息检索,问答系统,窃检测等广泛使用。 目前,大多数研究只是针对同一种语言的文本相似性,而跨语言文本相似度计算的研究很少,语言之间的差异使得跨语言文本相似度的计算非常困难,针对这种情况,本文提出了一种解决方案。基于WordNet的中文-老挝语跨语言文本相似度计算方法。 首先对医学上的中文文本和老挝文本进行预处理和特征选择,然后使用语义词典WordNet将中文文本和老挝文本转换为中间层语言,最后计算中间层中文和老挝文本之间的相似度。
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:128kb
    • 提供者:weixin_38708841
« 12 »