您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 多文档文摘中句子优化选择方法研究

  2. 在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法。首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序。以文摘中有效词的覆盖率作为优化指标,在各个子主题中选择文摘句。从减少子主题之间及子主题内部的信息的冗余性两个角度选择文摘句,使文摘的信息覆盖率得到很大提高
  3. 所属分类:专业指导

    • 发布日期:2010-05-09
    • 文件大小:211kb
    • 提供者:xue100sheng
  1. 刨丁解羊HTMl网页信息抽取器

  2. 刨丁解羊HTMl网页信息抽取器,是制作搜索引擎、网络蜘蛛、网络爬虫、分词索引的核心组件。采用人工智能启发式算法、高斯积分去噪算法,对HTML格式的源代码网页进行抽取,通过过滤无用的HTM标签、主题相悖信息,抽取出核心正文信息。DLL及OCX调用请联系QQ(601069289)。
  3. 所属分类:网络基础

    • 发布日期:2010-08-30
    • 文件大小:14kb
    • 提供者:henggua
  1. 中文信息处理中若干关键技术的研究

  2. 随着科学技术的高速发展及名种资源数量的不断增多为了提高效率,信息处理己经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生成以及信息检索等等。其中,属性选择是一项较为重要的基础性研究工作,为其它的研究提供基础和前提。而其它研究工作 可以有效地、而且较为准确地抽取出有用信息、挖掘出新的知识,提高获取大量有用信息的效率和速度。
  3. 所属分类:专业指导

    • 发布日期:2010-09-02
    • 文件大小:8mb
    • 提供者:guofeng314
  1. 面向主题的网页采集系统的设计与研究

  2. 对面向主题的信息采集技术进行了探索性研究。采用基于DOM的信息抽取技术, 建立混合空问模型表示内容和结构特征信息,并通过定义网贞间相似性来识别主题页面。较好的处理了Web信息抽取中主题页面识别的问题,实验结果证明了系统的可行性。
  3. 所属分类:网络基础

    • 发布日期:2010-09-16
    • 文件大小:356kb
    • 提供者:yerida
  1. 基于DIV的主题抽取

  2. 随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为 专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV 标签把HTML文档解析成DIV森林,然后过滤掉DW标签树中的噪声结点并且建立STU-DIV模型 树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站 的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。
  3. 所属分类:其它

    • 发布日期:2010-12-30
    • 文件大小:365kb
    • 提供者:heyun51
  1. 垂直搜索引擎的设计与实现

  2. 随着信息多元化的发展,通用搜索引擎己经不能满足主题用户的需求。用户迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得主题资源信息。在这种需求的推动下,垂直搜索引擎应运而生。 论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入研究,期望对推进本领域的技术发展作一点贡献。 在总体设计方面采用的是模块化思想,垂直搜索引
  3. 所属分类:其它

    • 发布日期:2011-06-28
    • 文件大小:3mb
    • 提供者:ychtxb
  1. 数据仓库(Building+the+Data+Warehouse

  2. .下载频道>资源分类>数据库>其它>数据仓库(Building The Data Warehouse中文版) 数据仓库(Building The Data Warehouse中文版)资源大小:6.69MB 上传日期:2011-06-07 资源积分:1分 下载次数:8 上 传 者:lzhoufly 标  签: 数据仓库 Data Warehouse 中文版 分 享 到: 收藏 评论 - 资源简介本书论述在设计和建造数据仓库中涉及的所有主要问题,论述分析型环境(决策支持系统
  3. 所属分类:其它

    • 发布日期:2011-10-07
    • 文件大小:6mb
    • 提供者:need21
  1. ComponentOne Doc-To-Help—用于生成各种完美文档的专业控

  2. 帮助开发人员生成完美的在线帮助文档 ComponentOne Doc-To-Help 是技术文档编辑员、帮助文档作者以及软件开发人员的首选。新版本中又增加了几十种新功能,提供了更佳的性能和可靠性。现在您能够在更为强大的环境中,依据单一来源创建您的帮助系统以及高质量的打印文档,比以往更为灵活。单一来源对于技术文档非常重要,因为这也就意味着节省时间、降低成本、提高产量。同样,您可以更快速地处理大量的图象文档,自定义HTML主题,充分利用新的所见即所得WSIWYG文档编辑器,包括内置的格式,可设置“
  3. 所属分类:Web开发

    • 发布日期:2006-03-16
    • 文件大小:23mb
    • 提供者:grapeboy
  1. HTMLParser抽取Web网页正文信息

  2. 一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性
  3. 所属分类:其它

    • 发布日期:2013-11-26
    • 文件大小:285kb
    • 提供者:np163
  1. 基于依存句法分析的多主题文本摘要研究.pdf

  2. 基于文本关系图摘要是当下多主题文本摘要中常用方法,针对该方法的不足,对其进行了改进。首先,由 于基于词频统计的文本相似度计算方法对句子作用有限,引入依存句法分析,通过挖掘语义信息来扩展句子特征 项,提高句子相似度计算准确性。其次,选择基于图结构的无尺度图K-中心点聚类算法对文本关系图进行聚类分 析,提高主题挖掘的准确性。最后,综合考虑句子相似度和位置信息来计算句子权重,提高摘要句抽取的准确性。 最后用实验证明该改进方法的有效性。
  3. 所属分类:Java

    • 发布日期:2014-10-17
    • 文件大小:1mb
    • 提供者:u013085605
  1. mallet 机器学习软件包

  2. Mallet是专门用于机器学习方面的软件包,此软件包基于java。通过mallet工具,可以进行自然语言处理,文本分类,主题建模。文本聚类,信息抽取等。
  3. 所属分类:Java

    • 发布日期:2015-08-06
    • 文件大小:8mb
    • 提供者:dsp_g
  1. 基于文档主题结构的关键词抽取

  2. 基于文档内部信息,利用文档的词聚类算法构建文档主题,进行关键词抽取。基于文档外部信息,利用隐含主题模型构建文档主题,进行关键词抽取。综合利用隐含主题模型和文档结构信息,进行关键词抽取。基于文档与关键词主题一致性的前提,提出基于机器翻译模型的关键词抽取方法。
  3. 所属分类:专业指导

    • 发布日期:2017-01-20
    • 文件大小:3mb
    • 提供者:w824429156
  1. 基于lDA模型的主题词抽取

  2. 以 LDA 模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词 扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速 Gibbs 抽样算法进行。实验结果表明,快速 Gibbs 算法的速度约比 传统 Gibbs 算法高 5 倍,准确率和抽取效率均较高。
  3. 所属分类:深度学习

    • 发布日期:2017-10-31
    • 文件大小:129kb
    • 提供者:fuyimin12
  1. 自然语言处理

  2. 本届 EMNLP 大会涉及自然语言处理的各个领域,“机器学习”毫无悬念仍然成为重点,并且还首次单独出来自成一类(EMNLP 2015 时是“统计机器学习方法”)。大会覆盖的主题包括:计算心理语言;对话和交互系统;话语分析(Discourse Analysis);文本生成(Generation);信息抽取;信息检索与问答;语言与视觉;语言理论和资源;机器学习;机器翻译;多语种和跨语种(Multilinguality and Cross-linguality);自然语言处理应用;标注、组块分析及句
  3. 所属分类:深度学习

    • 发布日期:2018-06-14
    • 文件大小:2mb
    • 提供者:dddddd6
  1. 基于 Spark 框架的文本主题特征提取与分类

  2. 主题模型目前广泛应用于机器学习与自然语言分析等领域,该模型自动分析一系列未识别的文档,试图通过统计信息发现多个抽象主题。主题模型在新闻文本智能处理与推荐领域的应用前景十分广阔。本文首先从文档自动分类为出发点,介绍文本分析的一般流程。 在此基础之上,介绍主题模型和基于 LDA 模型的文本主题特征提取原理。最后结合 Spark 大数据处理的内存迭代和分布式计算特性,实现了基于 LDA 模型的文本主题提取过程,并给 出了在新闻文本数据集上的主题抽取与分类预测结果。
  3. 所属分类:spark

    • 发布日期:2018-01-17
    • 文件大小:386kb
    • 提供者:weixin_36200363
  1. 基于网页DOM树节点路径相似度的正文抽取

  2. 由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:198kb
    • 提供者:weixin_38673694
  1. 基于树比较的Web页面主题信息抽取

  2. 为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。
  3. 所属分类:其它

    • 发布日期:2020-10-19
    • 文件大小:217kb
    • 提供者:weixin_38653508
  1. 基于加权TextRank的新闻关键事件主题句提取

  2. 为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句, 实验结果表明,该方法的抽取效果优于基于词频-逆文档
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:990kb
    • 提供者:weixin_38622227
  1. 基于LDA主题模型的移动应用相似度构建方法

  2. 随着移动互联网的快速发展,如何从大量的移动应用中抽取有效的描述信息继而为移动用户提供有效 准确的推荐策略变得尤为迫切。目前,移动应用市场对应用的推荐策略相对传统,大多是根据应用的单一属性进行 推荐,如下载量、应用名称、应用分类等。针对推荐粒度过粗和推荐不准确的问题,提出了一种基于潜在狄利克雷分布 ( LDA) 主题模型的移动应用相似度构建方法。该方法从应用的标签入手,构造应用的主题模型分布矩阵,利用该主 题分布矩阵构建移动应用的相似度矩阵,同时提出了将移动应用相似度矩阵转化为可行的存储结构的方法
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:1005kb
    • 提供者:weixin_38733333
  1. 基于LDA主题模型的移动应用相似度构建方法

  2. 随着移动互联网的快速发展,如何从大量的移动应用中抽取有效的描述信息继而为移动用户提供有效准确的推荐策略变得尤为迫切。目前,移动应用市场对应用的推荐策略相对传统,大多是根据应用的单一属性进行推荐,如下载量、应用名称、应用分类等。针对推荐粒度过粗和推荐不准确的问题,提出了一种基于潜在狄利克雷分布( LDA) 主题模型的移动应用相似度构建方法。该方法从应用的标签入手,构造应用的主题模型分布矩阵,利用该主题分布矩阵构建移动应用的相似度矩阵,同时提出了将移动应用相似度矩阵转化为可行的存储结构的方法。实验结
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:1002kb
    • 提供者:weixin_38529397
« 12 3 4 5 »