本文介绍: 到这一步,我们已经使用Glue ETL对s3桶中的数据进行了清洗、分区操作。在进行上篇中的Athena操作后,我们已经可以通过Athena直接查询到清洗、分区后的数据集了。接下来,我们会通过使用APIGateway+Lambda+Athena来构建一个无服务器的数据查询分析服务。
2 数据清洗、转换
2.1 架构图
2.2 数据清洗
此步会将S3中的原始数据清洗成我们想要的自定义结构的数据。之后,我们可通过APIGateway+Lambda+Athena来实现一个无服务器的数据分析服务。
2.3 编辑脚本
2.3.1 连接数据源(s3)
2.3.2. 数据结构转换
2.3.2 数据结构拆分、定义
2.3.3 清洗后的数据写入新s3
2.3.4 运行作业
执行成功后,状态将变为“SUCCESS”,失败将会给出失败信息,可在CloudWatch 中查看详情
2.4 数据分区
2.4.1 编辑脚本
2.4.2 运行脚本
2.5 总结
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。