说明:在本地模式下运行的数据转换Spark应用程序
假设:
AwesomeWorkflow和ReceiptScanner都按照命名约定将每日文件推送到同一存储桶中。 文件名包括日期键。 即AwesomeWorkflow_2018-09-15.csv
两个系统中的时间戳均采用UTC。 在此示例中,作业在2018-09-16上运行,以处理上一个日期2018-09-15的数据。
高级解决方案说明:
数据处理工作流是批量处理的。 每天使用诸如Airflow之类的调度工具,S3传感器都会监视这些文件的到达
<weixin_42144554> 上传 | 大小:8kb