设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 173|回复: 0

前所未见的绝对干货!你想知道eBay的Hadoop践行之旅吗? ...

[复制链接]

177

主题

0

帖子

7

积分

吃土小白

Rank: 1

积分
7
发表于 2018-2-1 10:23:46 | 显示全部楼层 |阅读模式

前所未见的绝对干货!你想知道互联网电商鼻祖eBay的Hadoop践行之旅吗?
今天跟各位小伙伴们分享的内容绝对是干活。为什么这么讲呢?因为有下面几点缘由:
1、长期以来都说大数据的领先实践源自互联网领域,尤其是大型企业。eBay作为电子商务的鼻祖自然在实际运用方面与众不同,案例和内容是绝对真实的;
2、本次内容分享的有关数字、量级来自于eBay数据中心的工程师和企业案例规整,并结合外部信息做了详细统计,具有90%以上的可信度;
3、本篇文章的内容绝对原创,在同行及外部肯定找不到第二个版本;
4、小伙伴们在后续实际项目和工作中可能会用到今天的材料,按需使用即可,这页材料的细节延展是长篇大论,能讲上几个钟头;
我们知道大数据的开源技术支撑早期是Hadoop,而自2006年Apache版本问世以来,不知道有多少中小创业公司、大型企业运用Hadoop开展相关数据存储和数据分析,又不知道有多少公司死于Hadoop(没用起来),开源社区的蓬勃发展撬动了软件领域的再一次变革。回首过去,展望未来。不得不说,能把Hadoop生态组建用起来的一定是大型企业,有研发实力并有人才投入并回馈社区的企业,那些小型企业在运用开源框架时候往往更聚焦于某一组件的能力延伸(如星环科技早期打市场只聚焦Spark计算引擎,【那会Spark未构成生态体系】)。
要知道,有多少企业投入大数据市场采购了诸多硬件设备,搭建了基础环境后却找不到业务场景,天天机房费电不说,简直是硬件浪费耽误感情;
要知道,当大数据集群规模达到一定量级以后,更多的事运维、管理和网络优化的难题需要应对;
要知道,大数据规模持续增长,Hadoop自身也是大数据的生产者(系统日志),数据存储问题是长期需要考虑的,如果缩短存储周期,那么你已经失去了大数据的优势;
要知道,一个应用上线后很容易实现SLA,但随着几圈规模急剧增大,混合负载环境下的SLA很难保障;
互联网公司eBay是怎么做的呢?首先我们先来分析一下eBay:
1、eBay是一家互联网公司,主营业务是电子商务,但却有着多个软件著作和强大的开发实力,公司全部产品开发源于自己的开发团队,人员能力强;
2、eBay是全球大型企业,人员规模量级巨大,说白了不愁人员数量,总是能找到人干活的;
3、互联网公司的产品迭代快,敏捷开发能力强。如果一条路走不通不会钻牛角尖,当机立断换一条路也通远方;
4、这样的企业运用Hadoop绝对不是小打小闹,是要投入生产真枪实干的,绝对不会弄一堆废铜烂铁耗电显摆,一定是要做大数据分析的;
有了这些分析,我们再来看eBay是如何使用Hadoop大规模实践的。
2008年,eBay已经有日志数据需要分析,这些数据量级巨大,数据为非结构化,因此传统数据仓库无法应用必须引入Hadoop。同时2008年还没有CDH,只有社区版本的使用,核心功能也不过是HDFS和MR,因此搭建了小规模四个节点的集群作为测试,每天处理几百个G的日志数据,曾建最多达到44个job。但是我们知道早期Hadoop版本不要说资源管理,就是某一组件自身的bug都是问题,而且开源社区版本乱七八糟,真的需要有一批专家团队长期耕耘,因此eBay遇到了瓶颈,社区产品的版本问题制约了eBay的Hadoop测试。
在2010年CDH问世了,商业化的产品给Hadoop发展带来了希望。eBay迅速将集群规模扩增至532个节点,拥有5PB的数据存储,拥有了业界成规模成量级的分布式集群。但是那会还不兴什么“冷热温”数据的存储,所以这些数据全部存储在同一个集群,造成了冷数据(长期不用的数据)占用了宝贵的存储资源。与此同时,我们知道Cloudera的CDH版本的企业级监控是不开源的(免费使用),因此这样一个量级的规模致使集群监控成为了难题,导致eBay再次陷入僵局。
2012年,另一家Hadoop商业化公司的全开源产品进入eBay视野,此时eBay的Hadoop集群规模已经突破3000个节点,这样一个规模监控告警及运维管理变得极其复杂,但是HDP的Ambari是集群监控管理的救星。作为有着开发实例的eBay完全能够胜任这样开源开放的市场,足以应对这样一个规模的集群管理。
伴随着eBay业务的进一步开拓,很多Hadoop集群规模突破了10000台,存储规模超过170PB。看来分集群、分地域的问题势在必行,eBay建立了多个数据中心,包括拉斯维加斯(用于生产环境),以及菲尼克斯(最主要的大数据分析环境),支撑起eBay的大数据平台建设发展。
由此可见,ebay在Hadoop的长期合作伙伴主要是CDH和HDP的提供者,选择CDH可以充分借鉴商用版的产品功能和卓越性能,选择HDP可以借鉴开源组件的亮点,以便迁移到自有产品上;但ebay的Hadoop在产品开发、迭代和优化、部署运维等方面完全自主实现(依托于后续的HDP版本)。同时,目前eBay以2000±节点作为一个clusters,一共5个集群管理域(ebay实践:大于2000以上NN压力太大,调度任务出现瓶颈、节点心跳处理迟缓),所以我们说:但系统规模的扩展,对Hadoop运维调优提出了极大挑战。
最后我们阐述一下,eBay的Hadoop扩展经验总结:
1、系统扩容稳定平缓(2年一次)
2、引入Hadoop2.0,基于YARN解决了JobTracker在大规模中的瓶颈;
3、通过数据分层存储,设定存放策略,实现分层管理;
4、创建多个集群,更换Hadoop平台(CDH改成HDP),且基于开源组件开发了集群监控告警系统;
5、根据运维经验,2000节点为一个集群,并考虑异地双活数据中心;

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册!

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表