您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 大规模网页模块识别与信息提取系统设计与实现

  2. 本科生论文。本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上,通过为所有符合W3C规范的Html标签分类,逐个分析各Html标签所包含的语义信息,细化规则设置,实现了一种自底向上的无信息遗漏的网页分块算法,并在此基础上,利用统计方法得到详细的概率分布数据,实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法,并将其求交,提高了主题内容信息块的识别精确度。 上述算法已集成到天网搜索引擎平台的网页预处理模块中,并且在SEWM 2008会议中,以这套算法为
  3. 所属分类:其它

    • 发布日期:2009-11-30
    • 文件大小:1mb
    • 提供者:zjj77520
  1. 大规模网页快速去重算法.pdf

  2. 大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,
  3. 所属分类:其它

    • 发布日期:2010-11-30
    • 文件大小:417kb
    • 提供者:wang382758656
  1. BloomFilter源码

  2. 基于bloomfilter的大规模网页去重,判断是否爬过URL
  3. 所属分类:C#

    • 发布日期:2011-04-19
    • 文件大小:2kb
    • 提供者:jackiehome
  1. 大规模网页快速去重算法

  2. 大规模网页快速去重算法
  3. 所属分类:其它

  1. 红蜻蜓抓图软件

  2. 可以任意抓取图片,如大规模网页,电子文档,屏幕等内容,非常方便实用。
  3. 所属分类:其它

    • 发布日期:2012-02-27
    • 文件大小:2mb
    • 提供者:tianbian
  1. google bigtable 论文

  2. bigtable是设计来分布存储大规模结构化数据的,从设计上它可以扩展到上2^50字节,分布存储在几千个普通服务器上.Google的很多项目使用BT来存储数据,包括网页查询,google earth和google金融.这些应用程序对BT的要求各不相同:数据大小(从URL到网页到卫星图象)不同,反应速度不同(从后端的大批处理到实时数据服务).对于不同的要求,BT都成功的提供了灵活高效的服务.在本文中,我们将描述BT的数据模型.这个数据模型让用户动态的控制数据的分布和结构.我们还将描述BT的设计和
  3. 所属分类:群集服务

  1. 网页实体抽取工具Roadrunner开源包

  2. Roadrunner算法,意大利的科学家提出的用于大规模网页信息处理的一个开源工具
  3. 所属分类:Java

    • 发布日期:2012-07-16
    • 文件大小:2mb
    • 提供者:gdufs_lswu
  1. hadoop kmeans中文网页聚类 实验文档

  2. 利用Hadoop平台进行大规模(百万以上)中文网页聚类的实验文档,里面有总体设计思路和源代码的一些说明
  3. 所属分类:其它

    • 发布日期:2013-01-27
    • 文件大小:114kb
    • 提供者:sysu_arui
  1. SD大会精品讲座:大规模、高流量互联网站性能调优(英语授课)

  2. 面对规模日益增大、流量节节攀升的情况,互联网站应该如何提高网页速度?如何优化网站性能?Yahoo!的Exceptional Performance团队负责人Tenni Theurer在本课程中将为您详细介绍提高网页速度的各种方式,并演示部分开发工具。这些方式使得Yahoo!减少了25%-50%的响应时间,很有借鉴意义。更重要的是,你会从Tenni Theurer那里听到提高网页性能的准则,从而使你可以更快地构建网页,减少响应时间,从前端到后端全面挖掘网页开发更大的潜能! 课程地址:http:/
  3. 所属分类:专业指导

    • 发布日期:2008-09-05
    • 文件大小:19mb
    • 提供者:yaoqin2008
  1. H3C_网络大爬虫第6期-MPLS专题(网页).pdf

  2. H3C_网络大爬虫第6期-MPLS专题(网页) 第六期(MPLS专题) MPLS如今已不再是一个称得上“时髦”的技术名词了,实际上,MPLS技术,尤其是BGP/MPLS VPN技术,已经在某些行业得到大规模的应用,H3C的技术人员也在实际网络部署和运维中积累了大量的经验。本期网络大爬虫刊物约请部分专家对MPLS的技术及应用作了一个梳理,力图使广大网络技术爱好者,尤其是还没有涉猎这一领域的读者,对MPLS的基本原理和主要应用有一个快速的了解。
  3. 所属分类:网络基础

    • 发布日期:2013-08-13
    • 文件大小:23mb
    • 提供者:u011538384
  1. 大规模网页模块识别与信息提取系统设计与实现

  2. 大规模网页模块识别与信息提取系统设计与实现,朱磊同学的毕业设计工作属于天网搜索引擎预处理模块,提出了一套基于语义 的网页分块和主题内容信息提取算法,并在SEWM2008中文Web信息检索评测项 中得到检验。在该套算法基础上,还实现了基于Map-Reduce的分布式QuarkRank 算法。
  3. 所属分类:讲义

    • 发布日期:2014-05-30
    • 文件大小:1mb
    • 提供者:a1370283038
  1. 基于行块分布函数的通用网页正文抽取

  2. 对于 Web 信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则 表达式可以准确的抽取某一固定格式的页面,但面对形形色色的 HTML,使用规 则处理难免捉襟见肘。 能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围 内通用,这是一个直接关系上层应用的难题。
  3. 所属分类:算法与数据结构

    • 发布日期:2017-11-24
    • 文件大小:1mb
    • 提供者:u013263829
  1. 网页制作中应用的50个CSS技巧(国外)

  2. 几乎可以肯定的CSS是最好的一个网页设计的发展,因为第一次图形的Web浏览器通过了关于大规模,凡表创建笨重,缓慢加载网页,创建的CSS更加精简和实用的网页。
  3. 所属分类:其它

    • 发布日期:2020-09-25
    • 文件大小:547kb
    • 提供者:weixin_38721405
  1. Dreamweaver定义模板批量制作网页

  2. 做网站,麻烦在更新和改版,特别是大规模更新,如果不是用cms系统,手工工作量非常大
  3. 所属分类:其它

    • 发布日期:2020-09-24
    • 文件大小:64kb
    • 提供者:weixin_38653085
  1. 用DreamWeaver模板工具批量制作网页

  2. 做网站,麻烦在更新和改版,特别是大规模更新,如果不是用cms系统,手工工作量非常大。告诉你个秘密吧,其实只要用好模板工具,就能很好地“批发”网页。
  3. 所属分类:其它

    • 发布日期:2020-09-24
    • 文件大小:65kb
    • 提供者:weixin_38581447
  1. 基于大规模网络语料的藏文音节拼写错误统计与分析

  2. 针对从互联网获取的一份包含19万藏文网页,总计427万句、9328万音节字的藏文文本语料,本文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20743个藏文<span s
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:782kb
    • 提供者:weixin_38612648
  1. 通过从网页中提取文本来构建用于藏文自然语言处理的大规模文本语料库

  2. 通过从网页中提取文本来构建用于藏文自然语言处理的大规模文本语料库
  3. 所属分类:其它

  1. zvm-simplestats:一个简单的网页,显示zVM的统计信息-源码

  2. zvm-simplestats 一个简单的网页,显示z / VM的统计信息。 背景 该工具最初是作为我的“科学实验”的一部分开发的,用于在z / VM上使用DCSS和NSS进行大规模Linux克隆。 进入该系统的主要界面是通过控制它的IRC机器人,或通过z / VM命令。 作为前布里斯班TEC展示实验的一部分,我创建了原始版本。 该版本使用IRC bot作为后端来写入Javascr ipt在浏览器中读取的文件。 在FastVM项目中,我们需要一个简单的页面来显示基本的z / VM统计信息,因
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:54kb
    • 提供者:weixin_42121725
  1. woodpecker-proxy:啄木鸟网页JS代理SDK——可用于动态生成的网页JS调试的日志-源码

  2. 啄木鸟网页JS代理SDK 可用于动态生成有关网页JS调试的日志 日志,通常情况下,当我们需要定位问题的时候,才发现自己并没有输出相关的日志会比较被动。这个时候只好临时改码加日志,重新发布。有没有一种方案,可以在遇到问题的时候,再去代码中相应位置加日志,用户执行改业务流程时即可立即打印出相关日志,而不用重新走一遍发布流程。 woodpecker-proxy提供了一种解决方案,将浏览器JS请求代理到目标服务器,修改JS并发布到目标服务器后你可以在用户端随意打印上报用于调试的日志。仅支持针对特定的J
  3. 所属分类:其它

  1. DialoGPT:进行对话的大规模预培训-源码

  2. 最先进的大规模预训练响应生成模型(DialoGPT) 该存储库包含大规模预训练对话响应生成模型的源代码和训练模型。 表明,在单转对话图灵测试下,DialoGPT产生的响应与人工响应质量相当。 该存储库基于和 ,包含数据提取脚本,模型训练代码以及预训练的小型(117M)中型(345M)和大型(762M)模型检查点。 该模型在Reddit讨论线程的147M多回合对话中进行训练。 最大的模型可以在8台V100机器上进行几个小时的培训(但是这不是必需的),并具有分布式培训和FP16选项。 inc
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:46mb
    • 提供者:weixin_42131261
« 12 3 4 5 6 7 8 9 10 »