博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
云场景实践研究第22期:泰为
阅读量:5958 次
发布时间:2019-06-19

本文共 1730 字,大约阅读时间需要 5 分钟。

更多云场景实践研究案例,点击这里:
作为全球无线位置领域领跑者之一的泰为,通过基于阿里云EMR,实现了弹性调整集群规模、保证可靠性、可用性、用户作业信息安全性,SLA上升为99.999%,并且减少了企业运维的维护成本。本文将具体分析泰为ETL在阿里云EMR数据处理流程和数据准确性校验的探索与实践过程。
“阿里云EMR从2015年11月发布EMR-1.0.0版本以来,至今才1年不到,已经升级为EMR-2.1.0版本,增加了许多的功能,如用户作业信息加密、与OSS存储无私接缝等等。在开发者与用户之间的积极良好沟通之中,我们有理由地相信,阿里云EMR在未来,会越走越远,越做越好!”
——武基鹏
泰为公司大数据平台产品技术工作负责人

采用的阿里云产品
  • 阿里云 E-MapReduce
  • 阿里云对象存储  OSS
  • 阿里云云服务器 ECS
  • 阿里云云数据库 RDS 版

为什么使用阿里云
阿里云EMR产品具有易用性、和OSS、RDS等产品深度结合、较高的安全性、较低的价格四个优势,同时支持按需创建方案。

关于 泰为
泰为公司成立于1999年,总部坐落于美国硅谷所在地加利福尼亚的桑尼维尔市。泰为公司是全球无线位置领域的领跑者之一,其手机导航产品曾服务于无线运营商AT&T, Sprint, CMCC等。Telenav自有品牌Scout产品,是当今能与Google map和Apple map竞争的为数不多的产品。也是全球车载导航产品的供应商,目前其导航产品正在Ford等世界顶级车厂中进行商用服务。

不足中寻求突破——运维之痛
在过去的ETL业务中,使用ECS机器搭建ETL集群环境耗费资源成本过大,运维人员的的维护成本较高。公司的Product Job需要在每天凌晨运行,需要很适合公司当前ETL 业务的创建方案,而且当Job 执行结束时,无论执行计划是否成功,都需要释放集群资源来降低企业的成本。

为什么选择阿里云?
泰为上云之路
在计划迁移Rundeck上的Product Job到阿里云EMR上,一定要先充分地了解现有业务的处理逻辑、Job脚本代码以及集群组件Hadoop、Hive环境等。为了不影响现有产品环境的稳定性,所以一般要先选择Stage的Job进行迁移,调试。其ETL业务在ETL Cluster的基本架构如图所示:
c23c05e9172358ce02911450e02838be4e890284
在接下来的工作中,仔细调研阿里云EMR产品,发现有四点优势:
有易用性
有和OSS、RDS等产品深度结合
有较高的安全性,主要整合了阿里云 RAM 资源权限管理系统,通过主子账号对服务权限进行隔离;其实还有更重要一点,在 [2016云栖大会] 上,
其价格再次降低,更加受企业青睐。由于公司的Product Job是每天凌晨run,所以阿里云EMR的
按需创建方案很适合我们当前的ETL 业务,而且当Job run结束时,无论执行计划是否成功,都会释放集群资源,降低企业的cost。
泰为ETL在阿里云EMR数据处理流程和数据准确性校验的探索与实践过程中,主要采用深究ETL业务逻辑、定制化所属自己的集群环境、迁移Stage Job至阿里云EMR、验证阿里云EMR Job Run数据的准确性、迁移Product Job 至阿里云EMR和验证结果数据准确性、停止前身Rundeck Job,正式调度阿里云EMR的执行计划几个主要环节。其中ETL业务在阿里云EMR的基本架构如下图所示。
59d4ae8c140629a18c63eb71e51a4e1ce087752e

实践中总结经验——拥抱阿里云EMR的成效
从公司方面来说:
减少运维人员的维护成本,更加易用;
每天调度EMR的Product执行计划,每月共只需约295元,而之前搭建ETL集群环境的5台ECS机器资源,每月共需3625元,大大降低地公司的项目费用;
释放集群机器资源,降低成本;
可以弹性调整集群规模;
可靠性和可用性得到了保证(SLA为99.999%);
加强用户作业信息的安全性;
提高管理控制,并建立战略继续提高生产力。
从个人方面来说:
对业务逻辑有着深刻了解;
Hive手工打补丁和编译版本;
对大数据这块有着更深刻的理解。
关于泰为的更多实践详情:
原文发布日期:2016-11-07
云栖社区场景研究小组成员:丁匀泰,仲浩。

转载地址:http://hpyax.baihongyu.com/

你可能感兴趣的文章
阿里开发者招聘节 | 面试题14:如何实现两金额数据相加(最多小数点两位)...
查看>>
企业分布式微服务云SpringCloud SpringBoot mybatis(八)消息总线(Spring Cloud Bus)
查看>>
logback pattern
查看>>
推荐的JVM参数
查看>>
PHP类UTF8编码内的繁简转换-繁体-简体
查看>>
晒晒工作中的静态文件大小控制制度
查看>>
当存储已成白菜
查看>>
Starting httpd: (13)Permission denied: make_sock: could not bind to address 0.0.0.0:9000
查看>>
vim编辑C++代码寻找标准库中结构的的定义
查看>>
CSS3 Flex布局(容器)
查看>>
Apache 重写机制
查看>>
Zabbix中禁用guest用户
查看>>
我的友情链接
查看>>
21.Azure备份Azure上的虚拟机(下)
查看>>
物理主机虚拟化环境ESXI支持VLAN
查看>>
linux备份
查看>>
TP-LINK TL-WVR300版无线路由器手工设置
查看>>
我的友情链接
查看>>
java基础(四)常用类/算法
查看>>
获取三个数的最大乘积 Maximum Product of Three Numbers
查看>>