您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于隐马模型的中国人名自动识别研究

  2. 中国人名的识别是中文未登录词识别的重点和难点,目前的解决方案自身存在一些本质的缺陷,实际效果还难以满足实际需求。本文提出了一种基于角色标注的中国人名自动识别方法。即:利用从语料库中自动抽取的角色信息,采取Viterbi算法对切词结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别。通过对16M字节真实语料库的封闭与开放测试,该方法取得了接近98%的召回率,准确率也得到了实际提高。实验数据证明:该方法是行之有效、能够成功解决中国人名的自动识别问题。
  3. 所属分类:其它

    • 发布日期:2009-07-05
    • 文件大小:89088
    • 提供者:softloveman
  1. EasyXSpider

  2. EasyXSpider 是一个简单的Linux下的爬虫程序。 包括了爬虫多线程同时抓取N个网站页面,倒排序索引制作,多条件检索,分词(英文及中文二元法切词),以及Google PageRank?算法的实现。
  3. 所属分类:Linux

    • 发布日期:2009-07-15
    • 文件大小:3145728
    • 提供者:shootsoft
  1. 丘仕达SEO精华文集

  2. 我想学习SEO的人不可能不知道丘仕达,编辑这个文集除了一方面可以方便自己学习外,也希望能够为广大的SEO学习者提供优秀的学习资料。 丘仕达SEO精华文集内容目录 一、丘仕达SEO精华文集 1.丘仕达简介 2.丘仕达:个人网站如何利润最大化 3.SEO入门书籍及心得体会 4.丘仕达:写给走火入魔的SEO学习者 5.丘仕达:关键字选取及热门关键字优化方 6.丘仕达:原创文章的一些思考 7.利用百度产品进行百度优化与推广 8.写给SEO入门者 9.SEO行业回顾与展望 10.SEO资料站第一届中文博
  3. 所属分类:C

    • 发布日期:2009-10-09
    • 文件大小:302080
    • 提供者:myken
  1. 搜索引擎系统学习与开发实践总结(相生昌).doc

  2. 目  录 一、搜索引擎概述 3 搜索引擎的发展历史 3 搜索引擎分类 4 搜索引擎组成及工作原理 5 二、网络蜘蛛 6 概述 6 主要组成 6 关键技术 8 经验总结 8 三、切词器 8 概述 8 <br& gt; 切分原理 10 经验总结 13 四、索引器 14 概述 14 实现原理 14 经验总结 16 五、查询器 16 概述 16 实现原理 17 经验总结 19 六、系统关键分析 20 七、参考文献 21 ...展开收缩
  3. 所属分类:网络基础

    • 发布日期:2007-11-14
    • 文件大小:47104
    • 提供者:wwnxs
  1. 2009 达内Unix学习笔记

  2. 集合了 所有的 Unix命令大全 登陆服务器时输入 公帐号 openlab-open123 telnet 192.168.0.23 自己帐号 sd08077-you0 ftp工具 192.168.0.202 tools-toolss 老师测评网址 http://172.16.0.198:8080/poll/ 各个 shell 可互相切换 ksh:$ sh:$ csh:guangzhou% bash:bash-3.00$ 一、注意事项 命令和参数之间必需用空格隔开,参数和参数之间也必需用空格隔开
  3. 所属分类:C

    • 发布日期:2010-02-10
    • 文件大小:31744
    • 提供者:lq_1987
  1. 中文词语分析一体化系统

  2. 当前主要的中文词语分析系统 哈工大统计分词系统 自动化所三元统计模型 清华大学SEGTAG系统 词典中的每一个重要的词都加上了切分标志 无条件切出qk类词;完全切分ck类词;其他无交叉歧义的切之,否则全切分。 "动态规划"和"全切分搜索+叶子评价"
  3. 所属分类:专业指导

    • 发布日期:2010-04-20
    • 文件大小:381952
    • 提供者:hovany
  1. lucene2.3.2总结(中文api).chm

  2. Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。Lucene以其方便使用、快速实施以及灵活性受到广泛的关注。它可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能,本总结使用lucene--2.3.2。 1、analysis对需要建立索引的文本进行分词、过滤等操作 2、standard是标准分析器 3、document提供对Document和Field的各种操作的支持。 4、index是最重要的包,用于向Lucene提供建立索引时各种操作的支持 5、queryPar
  3. 所属分类:Java

    • 发布日期:2010-04-30
    • 文件大小:161792
    • 提供者:ysaas
  1. 搜索引擎-原理、技术与系统

  2. 图2-1 搜索引擎示意图................................................................................17 图2-2 搜索引擎三段式工作流程................................................................18 图2-3 搜索引擎的体系结构.........................................................
  3. 所属分类:其它

    • 发布日期:2010-08-25
    • 文件大小:3145728
    • 提供者:cailiangmu
  1. 最新lucene教程

  2. 1、analysis对需要建立索引的文本进行分词、过滤等操作 2、standard是标准分析器 3、document提供对Document和Field的各种操作的支持。 4、index是最重要的包,用于向Lucene提供建立索引时各种操作的支持 5、queryParser提供检索时的分析支持 6、search负责检索 7、store提供对索引存储的支持 8、util提供一些常用工具类和常量类的支持 Ø Lucene中的类主要组成如下: 1)org.apache.1ucene.analysis语
  3. 所属分类:Java

    • 发布日期:2010-08-29
    • 文件大小:154624
    • 提供者:bingdongguke
  1. 中文信息处理中若干关键技术的研究

  2. 随着科学技术的高速发展及名种资源数量的不断增多为了提高效率,信息处理己经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生成以及信息检索等等。其中,属性选择是一项较为重要的基础性研究工作,为其它的研究提供基础和前提。而其它研究工作 可以有效地、而且较为准确地抽取出有用信息、挖掘出新的知识,提高获取大量有用信息的效率和速度。
  3. 所属分类:专业指导

    • 发布日期:2010-09-02
    • 文件大小:8388608
    • 提供者:guofeng314
  1. 基于新的关键词提取方法的快速文本分类系统

  2. !) 文档中文信息的切词 1) 文档中文信息的切词 1.1新型机器词典的建立 1.2动词词典、虚词词典和停用词词典的建立依据 1.3基于“小容量”词库的切分技术 1.4三种切分的比对及相关规则的建立 2) 进一步过滤关键词:CD)ED 算法及其改进 3) kNN(k-Nearest-Neighbor)分类算法
  3. 所属分类:其它

    • 发布日期:2010-11-09
    • 文件大小:116736
    • 提供者:qdfch
  1. seo中神秘的分词切词_如何获取优质长尾流量

  2. 长期总结.经过实践得到的,也在网上找了点,包括自己的总结吧,不是太好,但感觉不错,希望对大家有所帮助
  3. 所属分类:互联网

    • 发布日期:2011-04-04
    • 文件大小:73728
    • 提供者:liyongjieli
  1. 基于角色标注的中国人名自动识别研究

  2.   该文提出了一种基于角色标注的中国人名自动识别方法.其基本思想是:根据在人名识别中的作用 ,采取 Viterbi 算法对切词结果进行角色标注 ,在角色序列的基础上 ,进行模式最大匹配 ,最终实现中国人名的识别.识别 过程中只需要将某个词作为特定角色的概率以及角色之间的转移概率.该方法的实用性还在于:这些角色信息完 全可以从真实语料库中自动抽取得到.通过对 16M字节真实语料库的封闭与开放测试 ,该方法取得了接近 98 %的 召回率.文中介绍了计算所汉语词法分析系统 ICTCLAS ,集成人名
  3. 所属分类:互联网

    • 发布日期:2011-04-18
    • 文件大小:439296
    • 提供者:yuqilong
  1. 简单分字程序

  2. 将图片内的汉字切分开,是汉字脱机识别的重要一步,这个程序能实现一个基本的切词
  3. 所属分类:其它

    • 发布日期:2011-12-26
    • 文件大小:3072
    • 提供者:robertden
  1. DittoSetup_3_17_0_17 剪贴板增强器

  2. Ditto:首选的剪贴板增强软件(更新) 作者: 善用佳软  日期: 2011-01-13  分类: windows, 系统工具   1. 搜索   Ditto中可以保留大量(取决于数据库容量)的历史记录。如果想搜索某条记录,只须在主界面的搜索框中输入文字,过滤后的结果会实时展现出来。   说明:   - 实时过滤的方式,比传统的“搜索词→回车→搜索结果列表”更为易用。   - 支持中文。   - 输入框键入中文时,字体为横向,目前无法修改,但不影响使用。   - 并非对每条记录的“全文”进行
  3. 所属分类:Windows Server

    • 发布日期:2012-03-17
    • 文件大小:4194304
    • 提供者:blueflywuheng
  1. 关键字生成工具

  2. 自动生成关键字,自动切词,让你更好的进行SEO的优化,有利于搜索引擎的收录。
  3. 所属分类:其它

    • 发布日期:2012-07-20
    • 文件大小:48128
    • 提供者:q280499693
  1. c# google翻译

  2. 在博客园看到的一个c#利用google发音的项目,里面有用到ui设计、屏幕取词等。屏幕取词的思路是先把选中内容复制到剪切板,再读剪切板内容。
  3. 所属分类:C#

    • 发布日期:2012-10-17
    • 文件大小:1048576
    • 提供者:lanhuazhong123
  1. 王通2010年最新SEO教程完整版.pdf

  2. 王通2010年最新SEO教程完整版.pdf 6种减少网站重复内容的方法...................................................................................- 4 - 10大WordPress SEO插件...........................................................................................- 4 - 18条SEO的铁规.
  3. 所属分类:其它

    • 发布日期:2013-09-01
    • 文件大小:973824
    • 提供者:u011920388
  1. gse:进行高效的文本分割和NLP; 支持英语,中文,日语等。 语言高级分词-源码

  2. se 进行有效的文本分割; 支持英语,中文,日语等。 用双数组特里(Double-Array Trie)实现, 算法是基于词频加动态编程的最短路径,以及DAG和HMM算法的词分割。 支持通用,搜索引擎,完整模式,精确模式和HMM模式的多种分词模式,支持用户词典,POS标记,运行。 支持HMM剪切文本使用Viterbi算法。 文本分割速度9.2MB / s, 26.8MB / s。 HMM文本分割单线程3.2MB / s。 (2core 4threads Macbook Pro)。 捆绑:
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:12582912
    • 提供者:weixin_42133753
  1. 开源php中文分词系统SCWS安装和使用实例

  2. 一、SCWS简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:63488
    • 提供者:weixin_38581405
« 1 2 3 45 6 7 8 9 10 »