搜索资源 - 新词发现算法 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 新词发现算法

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

自己动手写搜索引擎(罗刚著).doc
自己动手写搜索引擎 1 第1章了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境（10分钟） 5 2.1.2 编写代码（15分钟） 6 2.1.3 发布运行（5分钟） 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
所属分类：其它
- 发布日期：2011-04-18
- 文件大小：6mb
- 提供者：qq736655941

自己动手写搜索引擎(罗刚)
自己动手写搜索引擎 1 第1章了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境（10分钟） 5 2.1.2 编写代码（15分钟） 6 2.1.3 发布运行（5分钟） 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
所属分类：Java
- 发布日期：2012-04-25
- 文件大小：3mb
- 提供者：jayghost

《程序员》杂志2012年第7期
《程序员》封面报道：智能算法智能应用每时每刻都在影响着我们的工作和生活，然而对于许多软件开发人员来说，构建智能应用的技术—智能算法依然披着神秘的面纱。一方面，这些技术的潜在价值可以带来巨大的经济回报，商业公司往往不会轻易示人；另一方面，几乎所有的相关技术都源自学术研究，倘若缺乏引领，则难以深入其中。本期封面报道，我们将从搜索技术、社交网络数据挖掘、机器翻译、推荐引擎等角度，结合具体应用，为你揭开智能算法的面纱。（1）地图和本地搜索的最基本技术（2）搜索引擎的查询意图识别（3）社交网络：
所属分类：专业指导
- 发布日期：2012-08-11
- 文件大小：10mb
- 提供者：luckhappystar

《程序员》杂志2012年第07期
《程序员》封面报道：智能算法智能应用每时每刻都在影响着我们的工作和生活，然而对于许多软件开发人员来说，构建智能应用的技术—智能算法依然披着神秘的面纱。一方面，这些技术的潜在价值可以带来巨大的经济回报，商业公司往往不会轻易示人；另一方面，几乎所有的相关技术都源自学术研究，倘若缺乏引领，则难以深入其中。本期封面报道，我们将从搜索技术、社交网络数据挖掘、机器翻译、推荐引擎等角度，结合具体应用，为你揭开智能算法的面纱。（1）地图和本地搜索的最基本技术（2）搜索引擎的查询意图识别（3）社交网络：
所属分类：互联网
- 发布日期：2012-11-05
- 文件大小：10mb
- 提供者：xinzhengs

基于大规模语料的新词发现算法
基于大规模语料的新词发现算法文章，很好的一篇文章，共享给大家
所属分类：互联网
- 发布日期：2012-11-26
- 文件大小：44kb
- 提供者：oxiaowo1234

new words Discovery
所采用的新词发现的算法思想来源于知名博主matrix67的一篇文章《互联网时代的社会语言学：基于SNS的文本数据挖掘》，算法实现改编之《新词发现之爆笑NBA》提供的python代码。我仅仅是将原来的python代码改写成C++代码。写的比较匆忙，没有做很好规划，不过使用是完全没问题。
所属分类：C++
- 发布日期：2014-08-15
- 文件大小：54kb
- 提供者：pippohan

易搜索站内全文检索搜索引擎
导航的根源在于分类，当有100条信息的时候，我们使用类别来定位信息，当有10000条信息的时候，我们用标签来定位信息，当有100..00条信息的时候，无论怎么分类都是难以寻找的，于是就有了搜索… 当一个网站信息越积越多，搜索将会变得越来越重要。以至于终于有一天，当网站发现50%以上的用户来到你的网站第一件事是搜索的时候，搜索就将成为没有“导航”的导航。因此站内搜索成了网站建设的当务之急。随着网络应用的深入，信息量的爆炸性增长，站内搜索成为每个优秀网站必须具备的功能。纵观中国大中小网站，绝大多数
所属分类：其它
- 发布日期：2008-12-27
- 文件大小：223kb
- 提供者：redmethod

基于大规模语料的新词发现算法
基于大规模语料的新词发现算法，运用在大数据自然语言处理
所属分类：算法与数据结构
- 发布日期：2018-08-06
- 文件大小：43kb
- 提供者：weixin_42895545

易搜索站内全文检索搜索引擎 v1.0.rar
导航的根源在于分类，当有100条信息的时候，我们使用类别来定位信息，当有10000条信息的时候，我们用标签来定位信息，当有100..00条信息的时候，无论怎么分类都是难以寻找的，于是就有了搜索… 当一个网站信息越积越多，搜索将会变得越来越重要。以至于终于有一天，当网站发现50%以上的用户来到你的网站第一件事是搜索的时候，搜索就将成为没有“导航”的导航。因此站内搜索成了网站建设的当务之急。随着网络应用的深入，信息量的爆炸性增长，站内搜索成为每个优秀网站必须具备的功能。纵观中国大中小网站，绝大多数
所属分类：其它
- 发布日期：2019-07-09
- 文件大小：22mb
- 提供者：weixin_39840588

Python中文分词库Yaha.zip
"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能：精确模式，将句子切成最合理的词。全模式，所有的可能词都被切成词，不消除歧义。搜索引擎模式，在精确的基础上再次驿长词进行切分，提高召回率，适合搜索引擎创建索引。备选路径，可生成最好的多条切词路径，可在此
所属分类：其它
- 发布日期：2019-07-16
- 文件大小：6mb
- 提供者：weixin_39841856

MATLAB 7.X 系统建模与仿真.pdf
MATLAB 7.X 系统建模与仿真.pdfMATLAB 7.X 系统建模与仿真.pdf录第1章 MATLAB仿真技术与应用简介 1.l系统衍真技术概述………… 12Ⅵ ATLAB仿真技术的发展与应用… 4 13 MATLAB仿真技术的特点口■JL■p电p自l电dd山甲 ■■1■1上山■ 1,4仿真应用实例筒介第2章 Slink60快速入门…… 2, Simulink简介…… 2.1.1什么是 Simulink 2L2 Simulink6D的新特点 ■看p电1p电鲁看 2.3 Simuli
所属分类：教育
- 发布日期：2019-08-17
- 文件大小：15mb
- 提供者：ktz517

java使用Nagao算法实现新词发现、热门词的挖掘
主要介绍了java使用Nagao算法实现新词发现、热门词的挖掘的思路和详细代码,需要的朋友可以参考下
所属分类：其它
- 发布日期：2020-09-03
- 文件大小：63kb
- 提供者：weixin_38607554

pyhanlp安装介绍和简单应用
1. 前言中文分词≠自然语言处理！ Hanlp HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。功能：中文分词词性标注命名实体识别依存句法分析关键词提取新词发现短语提取自动摘要文本分类拼音简繁中文分词只是第一步；HanLP从中文分词开始，覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务，提供了丰富的API。不同于一些简陋的分词类库，HanLP精心
所属分类：其它
- 发布日期：2020-12-31
- 文件大小：143kb
- 提供者：weixin_38652636

搜狗词库新词发现算法
搜狗词库下载、新词发现算法、常见的工具类、百度应用、翻译、天气预报、汉语纠错、字符串文本数据提取时间解析、百度文库下载、实体抽取等等
所属分类：深度学习
- 发布日期：2021-01-02
- 文件大小：580kb
- 提供者：bruce__ray

搜狗词库新词发现算法
搜狗词库新词发现算法、常见的工具类、百度应用、翻译、天气预报、汉语纠错、字符串文本数据提取时间解析、实体抽取等等
所属分类：深度学习
- 发布日期：2021-01-02
- 文件大小：1mb
- 提供者：bruce__ray

基于互信息和邻接熵的新词发现算法
如何快速高效地识别新词是自然语言处理中一项非常重要的任务，针对当前新词发现存在的问题，提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展，得到候选新词；并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词，最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过 n-gram 方法导致大量重复词串和垃圾词串识别为新词的问题，最后通过实验验证了该算法的有效性。
所属分类：其它
- 发布日期：2021-03-23
- 文件大小：1mb
- 提供者：weixin_38501916

融合规则与统计的微博新词发现方法
结合微博新词的构词规则自由度大和极其复杂的特点，针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高，以及低频微博新词无法正确识别的问题，提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微博新词抽取方法。一方面，人工启发式规则是指对微博新词的分类和归纳总结，并从微博新词构词的词性(POS)、字符类别和表意符号等角度设计的微博新词的构词规则；另一方面，改进的C/NC-value方法通过引入词频、邻接熵和互信息等统计量来重构NC-value目标函
所属分类：其它
- 发布日期：2021-03-12
- 文件大小：617kb
- 提供者：weixin_38686080

一种基于动态词汇表的在线LDA算法
目前的在线潜在狄利克雷分布模型(LDA)算法大多是基于固定的词汇表,在实际应用中经常会出现词汇表和处理的语料不匹配的情况,影响了模型的实用性。针对这个现象,在置信传播算法(BP)的框架下,使主题单词分布服从狄利克雷过程,重新推导公式,使得词汇表在模型运行之前为空,并且在处理时不断向词汇表中增加发现的新词。实验证明,这种新的基于动态词汇表的算法不仅使得词汇表与语料的贴合度更高,而且使其在混淆度以及互信息指数这两个指标上能够比基于固定词汇表的LDA模型表现得更加优越。
所属分类：其它
- 发布日期：2021-03-08
- 文件大小：486kb
- 提供者：weixin_38691669

pyhanlp：汉语分词词性标注命名实体识别依存句法分析新词发现-源码
pyhanlp：HanLP1.x的Python接口的Python接口，支持自动下载和升级，兼容py2，py3。内部算法通过工业界和学术界考验，配套书籍已经出版，欢迎查阅。学习的已于2020年初发布，次世代最先进的多语种NLP技术，与1.x相辅相成，平行发展。安装非IT人士可直接使用；新手建议观看；工程师请：先安装和。要求JDK，操作系统和Python一致。然后，最后执行： conda install -c conda-forge jpype1==0.7.0 # (可选
所属分类：其它
- 发布日期：2021-03-03
- 文件大小：147kb
- 提供者：weixin_42146888