您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Google_MapReduce中文版-系统架构

  2. MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建 一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然 后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足 上述处理模型的例子,本论文将详细描述这个模型。 MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关 心:如何分割输入数据,在大量
  3. 所属分类:其它

    • 发布日期:2013-04-29
    • 文件大小:677kb
    • 提供者:yg359547115
  1. 海量数据处理

  2. 海量数据处理相关 所谓海量数据处理,是指基于海量数据的存储、处理、和操作。正因为数据量太大,所以导致要么无 法在较短时间内迅速解决,要么无法一次性装入内存。 事实上,针对时间问题,可以采用巧妙的算法搭配合适的数据结构(如布隆过滤器、哈希、位图、堆、 数据库、倒排索引、Trie 树)来解决;而对于空间问题,可以采取分而治之(哈希映射)的方法,也就是 说,把规模大的数据转化为规模小的,从而各个击破。 此外,针对常说的单机及集群问题,通俗来讲,单机就是指处理装载数据的机器有限(只要考虑 CPU、 内
  3. 所属分类:其它

    • 发布日期:2014-08-28
    • 文件大小:911kb
    • 提供者:yangdedipan1234
  1. Hadoop从业者为什么需要Spark?

  2. Hadoop从业者为什么需要Spark?答案是Hadoop已死,Spark称霸。 而Hadoop的死亡过程在2012年已经开始: 1,由于Hadoop自身架构的导致了在离线数据存储分析意外的一切领域都力不从心,理论已经证明MapReduce模型可以模拟一切分布式计算,但是效率成为其死穴,而Spark基于RDD的计算图可以轻松、完整地表达MapReduce模型,并且能极为容易的处理实时流计算、机器学习、图计算、误差查询等; 2,2012年以来Hadoop本身架构臃肿并未得到本质性的改善,很多修改
  3. 所属分类:虚拟化

    • 发布日期:2014-09-22
    • 文件大小:412kb
    • 提供者:javaniceyou
  1. 你需要Spark的10个理由

  2. 你需要Spark的十大理由: 1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoop and Spark 可以看出在Spark特别擅长的领域其速度比Hadoop快120倍以上! 2,原先支持Hadoop的四大商业机构纷纷宣布支持Spark,包含知名Hadoop解决方案供应商Cloudera和知名的Hadoop供应商MapR; 3,Spark是继Hadoop之后,成
  3. 所属分类:虚拟化

    • 发布日期:2014-09-22
    • 文件大小:27kb
    • 提供者:javaniceyou
  1. graphlab开源软件

  2. 数据分析的好软件,配合anaconda搭建虚拟环境,可以进行数据分析和绘制相关图 GraphLab 是由CMU(卡内基梅隆大学)的Select 实验室在2010 年提出的一个基于图像处理模型的开源图计算框架,框架使用C++语言开发实现。该框架是面向机器学习(ML)的流处理并行计算框架,可以运行在多处理机的单机系统、集群或是亚马逊的EC2 等多种环境下。框架的设计目标是,像MapReduce一样高度抽象,可以高效执行与机器学习相关的、具有稀疏的计算依赖特性的迭代性算法,并且保证计算过程中数据的高
  3. 所属分类:机器学习

    • 发布日期:2017-08-30
    • 文件大小:50mb
    • 提供者:sky1wyx
  1. 机器学习思维导图

  2. 常用机器学习算法的思维导图,梳理了所有相关知识,很适合对各部分的整体把握与补遗。推荐使用MindManager思维导图软件查看 目录: 1.机器学习基础.mmap 2.k-近邻算法.mmap 3.决策树.mmap 4.基于概率论的分类方法:朴素贝叶斯.mmap 5.Logistic回归.mmap 6.SVM.mmap 7.利用AdaBoost元算法提高分类性能.mmap 8.预测数值型数据:回归.mmap 9.树回归.mmap 10.利用k-均值聚类算法对未标注数据分组.mmap 11.使用A
  3. 所属分类:机器学习

    • 发布日期:2018-03-20
    • 文件大小:562kb
    • 提供者:corebox
  1. 大数据算法视频课程+课件

  2. 大数据在不论在研究还是工程领域都是热点之一,算法是大数据管理与计算的核心主题。本课程试图简要介绍大数据计算中涉及到的基本算法设计方法。适用于大数据研究与开发人员,也适用于数据科学爱好者。 大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门课程学习的同学了解大数据算法的前沿知识。通过这门课程的学习,同学可以掌握大数据算法设计的基本思想,掌握大数据算
  3. 所属分类:算法与数据结构

    • 发布日期:2018-02-05
    • 文件大小:187byte
    • 提供者:u013844840
  1. PageRank算法实时大数据实验报告广工(Map Reduce)(附源码)

  2. 实验内容 1. 采用基于“抽税”法在MapReduce框架下,分析图1的网页PageRank排名; 2. 图1中,若节点②和节点⑤是主题节点,采用面向主题的PageRank算法重新计算所有节点的PageRank值。
  3. 所属分类:Java

    • 发布日期:2019-01-10
    • 文件大小:297kb
    • 提供者:baidu_39502694
  1. 基于MapReduce的图算法

  2. 基于MapReduce的图算法
  3. 所属分类:Java

    • 发布日期:2017-04-13
    • 文件大小:1mb
    • 提供者:qq_26840065
  1. 大图的顶点驱动并行最小生成树算法

  2. 最小生成树(minimum spanning tree,MST)是图论中最经典的算法之一。基于MST结构的聚类,分类和最短路径查询等复杂图算法,在效率和结果质量方面需要显着提高。随着互联网的迅猛发展,图数据规模也越来越大,包含数百万甚至上亿个指针的大图数据越发常见。因此,如何在大图数据上实现查询处理和数据挖掘算法已成为亟待解决的问题之一。此外,由于大图数据的动态性特征,如何动态地维护算法结果也势必成为最受关注的问题之一。针对目前集中式的最小生成树算法无法解决海量和动态图数据的问题,首先提出了分区
  3. 所属分类:其它

  1. StarMR:使用MapReduce的SPARQL基本图形模式的高效基于星分解的查询处理器

  2. 随着知识图的增长,大量的RDF图已经发布,这提出了解决分布式SPARQL查询挑战的需求。 在本文中,我们提出了一种有效的分布式方法,称为StarMR,用于使用MapReduce回答大RDF图上的SPARQL基本图模式(BGP)查询。 在我们的方法中,查询图被分解为一组星形,这些星形将语义和结构信息嵌入的RDF图用作启发式方法。 提出了两种优化技术来进一步提高我们算法的效率。 一种过滤掉无效的输入数据,另一种则推迟笛卡尔乘积运算。 在合成数据集和实际数据集上的大量实验表明,我们的StarMR方法比
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:575kb
    • 提供者:weixin_38629976
  1. 大规模 RDF 图数据上高效率分布式查询处理

  2. 知识图谱是智能数据的主要表现形式,随着知识图谱领域的不断发展,大量的智能图数据以资源描述框 架(resource descr iption framework,简称 RDF)形式发布出来.RDF 图上的 SPARQL 查询语义对应于图同态,是一个 NP-完全问题.因此,如何使用分布式方法在大规模 RDF 图上有效回答 SPARQL 查询是一个富有挑战性的问题.目前 已有研究使用 MapReduce 计算模型处理大规模 RDF 数据,但其将 SPARQL 查询拆分成单个的查询子句,没有考虑 RDF
  3. 所属分类:其它

  1. 基于MapReduce的SimRank算法在图聚类中的应用

  2. 由Jeh和Widom提出的SimRank算法是一种普适"结构相似度"计算模型。由于SimRank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本文提出了基于MapReduce计算模型的分布式SimRank算法,利用该算法对RDF图进行相似度度量,然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明,该方法能够高效的完成图节点的相似度度量,实现图的有效聚类。
  3. 所属分类:其它

    • 发布日期:2021-01-28
    • 文件大小:1000kb
    • 提供者:weixin_38535808
  1. 大数据体系

  2. 开发语言 1.Java,大数据框架的编写支持很多开发语言,但是Java在大数据方面有很大的优势,目前流行的大数据Hadoop框架,MapReduce框架,很多部分都是用开源的Java语言编写,因此Java在大数据方面有很大优势 2.Scala,就大数据而言,对典型的迭代机器学习,即席查询,图计算等应用Spark比基于MapReduce,Hive,和Prgel的实现快上十倍到百倍。其中内存计算,数据本地性和传输 优化,调度优化等该居首功也与设计伊始即秉持的轻量理念不无关系,而Spark是采用Sca
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:91kb
    • 提供者:weixin_38609089