您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. goodreads_etl_pipeline:用于构建数据湖,数据仓库和分析平台的端到端GoodReads数据管道-源码

  2. GoodReads数据管道 建筑学 管道包括各种模块: ETL职位 Redshift仓库模块 分析模块 概述 使用Goodreads Python包装器从Goodreads API实时捕获数据(查看用法 )。从Goodreads API收集的数据存储在本地磁盘上,并及时移至AWS S3上的Landing Bucket。 ETL作业以火花形式编写,并按气流计划以每10分钟运行一次。 ETL流程 从API收集的数据将移至着陆区s3存储桶。 ETL作业具有s3模块,该模块将数据从着陆区复制到工作区
  3. 所属分类:其它

  1. NoMeMientas-源码

  2. NoMeMientas casos de uso por realizar lookForWinnerInGame 阿根廷首都的封印,西班牙首都的封印,西班牙首都的封印,西班牙首都的封印,墨西哥的封印,西班牙封印的封印,墨西哥封印的封印,西班牙封印的封印,西班牙封印的封印,西班牙封印的封印。 首都埃斯泰萨现实主义的恢复与重建,首都埃斯泰达托瓦拉塞拉涅河畔的塞拉文多塞拉内塞索奈斯卡塞索恩塞索塞萨塞斯恩塞萨里索的封号,雅加达存在乌纳·努埃瓦·朗达 AssignBets 确认在西班牙的阿普埃斯塔海
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:24kb
    • 提供者:weixin_42148053
  1. FuroBaseComponents:Monorepo收集与Furo相关的Web组件-源码

  2. 提交风格 我们在勒拿湖配置激活conventionalCommits。 是一种规范,用于添加人和机器可读的含义来提交消息。 快速开始 注意:本指南假定您在本地安装了npm。 第一次运行npm run bootstrap 然后运行npm run serve ,这将启动服务器 警告! 永远不要运行npm install 指令 npm run bootstrap 引导项目(lerna,...)并链接程序包 npm run doc 重建文档(分析文件) npm run serve 在端口77
  3. 所属分类:其它

  1. datalake-源码

  2. 数据湖演示 使用Dataproc模板在Dataproc上编排Spark
  3. 所属分类:其它

  1. denver-service-request-events-源码

  2. 丹佛服务请求事件 丹佛服务请求事件 该项目 前言 对于测试交付,此处的数据集相对较小(来自丹佛开放数据目录( )的数据)。 您应该进行此测试,就好像数据是实际大小的1000倍并且经常通过实时事件进行更新一样。 方法 可能有多种方法来应对这一挑战,但此处使用的方法是AWS Cloud,它通过使用EC2,Kinesis Data Firehose,S3,Glue,Athena,Redshift,Quicksight,Kinesis Data Streams, DynamoDB Lambda。
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:13mb
    • 提供者:weixin_42134769
  1. Project-4-AWS-Data-Lake-源码

  2. 数据湖 介绍 音乐流初创公司Sparkify进一步扩大了用户群和歌曲数据库,并希望将其数据仓库移至数据湖。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 我建立了一个ETL管道,该管道从S3提取数据,使用Spark进行处理,并将数据作为一组维表加载回S3。 这将使他们的分析团队能够继续发现用户正在听哪些歌曲的见解。 项目描述 在此项目中,我为S3上托管的数据湖构建了ETL管道。 数据从S3加载,使用Spark处理
  3. 所属分类:其它

  1. mdw-dataops-源码

  2. page_type 语言 产品 描述 样本 Python C# 蔚蓝 Azure数据工厂 Azure数据块 第2代Azure数据湖 Azure功能 代码示例展示了如何利用不同的Azure数据技术将DevOps概念应用于现代数据仓库体系结构。 适用于现代数据仓库的DataOps 该存储库包含大量代码示例和工件,说明如何将DevOps原理应用于根据上的架构模式构建的数据管道。 这些样本要么专注于单一的Azure服务,要么展示了根据MDW模式构建的端到端数据管道解决方案。 每个样本都包含与以
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:42mb
    • 提供者:weixin_42165018
  1. Hackintosh-Intel-i9-10850k-MSI-Z490-GAMING-EDGE-WIFI-源码

  2. Hackintosh-Intel-i9-10850k-MSI-Z490-GAMING-EDGE-WIFI 大家好 我已经在运行MSI Z490 GAMING EDGE WIFI的i9-10850k Comet Lake上成功安装(更新)了MacOS Catalina到10.15.5。 您可以在此存储库中找到我的EFI文件夹。 我认为我的配置应该可以完美地基于以下配置: LGA1200 彗星湖i7 / i9 Z490 微星GAMING EDGE WIFI 当前的引导加载程序:Ope
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:19mb
    • 提供者:weixin_42135753
  1. NBA-Teams-Analysis-源码

  2. NBA球队集群迷你项目 (进行中) 项目动机 在过去的十年中,NBA的联盟和球队都发生了巨大的变化。 例如,仅举几例: 协会 游戏风格 犯规偏向射手 提出球员权利 季后赛结构(2-3-2至2-2-1-1-1) 带零步长的行进规则 评论 联盟 詹姆斯·哈登飞往休斯敦 凯西·伦纳德飞往猛龙 勒布朗·詹姆斯飞往湖人 克里斯·保罗飞往快船 经过如此多的努力,特许经营商正在通过与关键人员建立联系来努力使拉里·奥布赖恩奖杯带回家。 哪支球队的前景最好? 哪些团队需要进行更改以及对哪些类别进行更改? 问
  3. 所属分类:其它

  1. hudi-mirror-源码

  2. 阿帕奇·胡迪(Apache Hudi) Apache Hudi(发音为Hoodie)代表Hadoop Upserts Deletes and Incrementals 。 Hudi管理DFS(云存储,HDFS或任何Hadoop FileSystem兼容存储)上的大型分析数据集的存储。 特征 快速,可插入索引的Upsert支持 通过回滚支持以原子方式发布数据 编写器和查询之间的快照隔离 数据恢复的保存点 使用统计信息管理文件大小,布局 行和列数据的异步压缩 时间轴元数据以跟踪血统 通过聚类优化数
  3. 所属分类:其它

  1. IoT-Timeseries-Datasets:选择开放的IoT数据集-源码

  2. 物联网数据集 一系列开放的IoT和时间序列数据集 物联网 :由于通常很难获得,特别是很难发布真实的预测性维护数据集,因此我们会提供并提供一个综合数据集,以我们的专业知识来反映行业中遇到的真实的预测性维护。\ :此数据集描述了一个房间的尺寸,目的是预测房间是否被占用。\ :该数据集描述了6年的地面臭氧浓度观测值,目的是预测这是否是“臭氧日”。\ :有关基于无线和蓝牙的社交互动的数据\ :2017-2018年由城市安装的传感器项目测量的结果,该传感器测量街道和人行道的水径流。\ :通过放置
  3. 所属分类:其它

  1. GeoView-Temp-源码

  2. GeoView 加拿大地理空间平台打算部署GeoCore的新基础架构,工具和Web集成,GeoCore是一个新的地理空间元数据湖库,能够支持多种元数据标准。 考虑到这些所需的功能,它需要轻量级的查看器以将其合并到其基础结构中。 需要有一个简单而灵活的查看器,以在功能有限的地图上显示来自GeoCore元数据湖的地理空间数据。 解决方案 GeoView映射功能基于开源查看器。 整个项目使用最新的框架版本17+。 考虑到这一点,这是主要依赖项列表 版本3+,用于在Leafelt和React之间建立链
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:446kb
    • 提供者:weixin_42143161
  1. alibabacloud-jindofs:阿里云jindo-sdk-源码

  2. 简体中文 介绍 JindoFS作为阿里云基于OSS的一揽子数据湖存储优化方案,完全兼容Hadoop / Spark生态,并针对Spark,Hive,Flink,Presto等大数据组件和AI生态实现扩展和优化。JindoFS项目包括JindoFS OSS支持,JindoFS分布式缓存系统(JindoFS缓存模式)和JindoFS分布式存储优化系统(JindoFS块模式)。JindoSDK是各个计算组件可以使用JindoFS这些优化扩展功能和模式的套件,包括Hadoop Java SDK,Pyth
  3. 所属分类:其它

  1. hudi-branch-ci-源码

  2. 阿帕奇·胡迪(Apache Hudi) Apache Hudi(发音为Hoodie)代表Hadoop Upserts Deletes and Incrementals 。 Hudi管理DFS(云存储,HDFS或任何Hadoop FileSystem兼容存储)上的大型分析数据集的存储。 特征 快速,可插入索引的Upsert支持 通过回滚支持以原子方式发布数据 编写器和查询之间的快照隔离 数据恢复的保存点 使用统计信息管理文件大小,布局 行和列数据的异步压缩 时间轴元数据以跟踪血统 通过聚类优化数
  3. 所属分类:其它

  1. Data-Enginer-Bootcamp-源码

  2. 本课程将重点放在开发技能上,并学习如何使用这些工具来创建满足不同组织需求的数据管道。 所有项目都将在云(AWS)中开发和实施。 获得的知识 创建健壮,易于维护的数据管道 创建和构建您的数据湖 使您的公司能够根据数据做出决策 将可靠的数据分配到BI,分析和数据科学领域 交付实时更新的指标和仪表板 安排数据转换任务的调度 将建立的技能: 了解如何将数据基础架构部署为代码 AWS概念 如何组织您的数据湖 如何部署Apache Airflow和协调任务 使用Kinesis和Spark进行数据流传输
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:975kb
    • 提供者:weixin_42114041
  1. rocrail-源码

  2. 跟踪计划 感测器 设置传感器映射到界面选项卡中的mXion上,其设置如下 md的Interface ID Z21协议的Node ID aka Bus ,实际上代表来自LocoNet的响应 Address设置为mXion加1的编程地址 用法 根据阶段1的下表,隔离器31和21 主站6和4 湖站6和4 Driweway站6和4 主线13和9 根据阶段2的下表,隔离器20和14 主站16和11 主线4和3 反馈模块 主站; 阻止轨道1和轨道2。主线块到Terrase开关,一个传感器在
  3. 所属分类:其它

  1. Udacity-Datalake-Spark:具有Spark的Udacity数据湖-源码

  2. Sparkify的Data Lake ELT流程 概括 介绍 该项目将为Sparkify提取歌曲和日志数据,以使其更易于理解其数据并对该数据进行分析。 该项目正在使用EMR将数据处理到S3上。 入门 该ELT过程是一个非常简单的过程。 如果这是您第一次运行此项目,则应复制dl.cfg.example文件,并为项目dl.cfg配置参数。 然后在您的本地计算机上: python main.py 该过程将检查目标存储桶是否存在。 如果存在,则该进程将删除存储桶以及该存储桶中的所有内容,然后在s3上
  3. 所属分类:其它

    • 发布日期:2021-02-28
    • 文件大小:499kb
    • 提供者:weixin_42133680
  1. AWS无服务器数据湖框架-源码

  2. 无服务器数据湖框架(SDLF) 开源计划| 无服务器数据湖框架(SDLF)是可重用工件的集合,旨在加快AWS上企业数据湖的交付,将生产部署时间从数月缩短至数周。 AWS团队,合作伙伴和客户可以使用它按照最佳实践来实现数据湖的基础结构。 动机 数据湖可为您的组织提供敏捷性。 它提供了一个存储库,消费者可以在其中快速找到所需的数据并在其业务项目中使用它们。 但是,建立数据湖可能很复杂。 除了文件存储之外,还有很多事情需要考虑。 例如,如何对数据进行分类,以便知道所存储的内容? 您需要什么摄取管
  3. 所属分类:其它

  1. 正湖实验室-源码

  2. 学术模板 雨果学术简历模板使您能够创建自己的求职在线简历,并展示您的学术出版物。 不到10分钟即可获得,或。 可以轻松轻松地免费创建一个漂亮的网站。 在Markdown,Jupyter或RStudio中(通过Blogdown)编辑您的网站,使用Hugo生成它,并使用Gi​​tHub或Netlify进行部署。 使用窗口小部件,主题和语言包自定义网站上的所有内容。 :backhand_index_pointing_right: :books: :speech_balloon: 或 :bi
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:24mb
    • 提供者:weixin_42169971
  1. Udacity-Data-Engineering-Projects:与数据工程相关的项目很少,包括数据建模,云上的基础设施设置,数据仓库和数据湖开发-源码

  2. 数据工程项目 项目1:使用Postgres进行数据建模 在这个项目中,我们将数据建模与Postgres结合使用,并使用Python构建ETL管道。 一家初创企业希望分析他们在新音乐流应用程序上收集的有关歌曲和用户活动的数据。 当前,他们正在以json格式收集数据,分析团队对了解用户正在收听的歌曲特别感兴趣。 链接: 项目2:使用Cassandra进行数据建模 在这个项目中,我们将Data Modeling与Cassandra结合使用,并使用Python构建ETL管道。 我们将围绕要获取答案的
  3. 所属分类:其它

« 12 3 4 »