更多云场景实践研究案例,点击这里:
作为全球无线位置领域领跑者之一的泰为,通过基于阿里云EMR,实现了弹性调整集群规模、保证可靠性、可用性、用户作业信息安全性,SLA上升为99.999%,并且减少了企业运维的维护成本。本文将具体分析泰为ETL在阿里云EMR数据处理流程和数据准确性校验的探索与实践过程。
“阿里云EMR从2015年11月发布EMR-1.0.0版本以来,至今才1年不到,已经升级为EMR-2.1.0版本,增加了许多的功能,如用户作业信息加密、与OSS存储无私接缝等等。在开发者与用户之间的积极良好沟通之中,我们有理由地相信,阿里云EMR在未来,会越走越远,越做越好!” - 阿里云 E-MapReduce
- 阿里云对象存储 OSS
- 阿里云云服务器 ECS
- 阿里云云数据库 RDS 版
阿里云EMR产品具有易用性、和OSS、RDS等产品深度结合、较高的安全性、较低的价格四个优势,同时支持按需创建方案。
泰为公司成立于1999年,总部坐落于美国硅谷所在地加利福尼亚的桑尼维尔市。泰为公司是全球无线位置领域的领跑者之一,其手机导航产品曾服务于无线运营商AT&T, Sprint, CMCC等。Telenav自有品牌Scout产品,是当今能与Google map和Apple map竞争的为数不多的产品。也是全球车载导航产品的供应商,目前其导航产品正在Ford等世界顶级车厂中进行商用服务。
在过去的ETL业务中,使用ECS机器搭建ETL集群环境耗费资源成本过大,运维人员的的维护成本较高。公司的Product Job需要在每天凌晨运行,需要很适合公司当前ETL 业务的创建方案,而且当Job 执行结束时,无论执行计划是否成功,都需要释放集群资源来降低企业的成本。
在计划迁移Rundeck上的Product Job到阿里云EMR上,一定要先充分地了解现有业务的处理逻辑、Job脚本代码以及集群组件Hadoop、Hive环境等。为了不影响现有产品环境的稳定性,所以一般要先选择Stage的Job进行迁移,调试。其ETL业务在ETL Cluster的基本架构如图所示:
在接下来的工作中,仔细调研阿里云EMR产品,发现有四点优势:
有易用性;
有和OSS、RDS等产品深度结合;
有较高的安全性,主要整合了阿里云 RAM 资源权限管理系统,通过主子账号对服务权限进行隔离;其实还有更重要一点,在 [2016云栖大会] 上,
其价格再次降低,更加受企业青睐。由于公司的Product Job是每天凌晨run,所以阿里云EMR的
按需创建方案很适合我们当前的ETL 业务,而且当Job run结束时,无论执行计划是否成功,都会释放集群资源,降低企业的cost。
泰为ETL在阿里云EMR数据处理流程和数据准确性校验的探索与实践过程中,主要采用深究ETL业务逻辑、定制化所属自己的集群环境、迁移Stage Job至阿里云EMR、验证阿里云EMR Job Run数据的准确性、迁移Product Job 至阿里云EMR和验证结果数据准确性、停止前身Rundeck Job,正式调度阿里云EMR的执行计划几个主要环节。其中ETL业务在阿里云EMR的基本架构如下图所示。
每天调度EMR的Product执行计划,每月共只需约295元,而之前搭建ETL集群环境的5台ECS机器资源,每月共需3625元,大大降低地公司的项目费用;
可靠性和可用性得到了保证(SLA为99.999%);