017 | Hadoop三国之魏国Cloudera

017 | Hadoop三国之魏国Cloudera

朗读人:秭明    09′05′′ | 4.17M

今天开始,我打算介绍一下 Hadoop 领域里面的三家发行商,它们之间的关系正好和三国时候的魏蜀吴很类似,所以不妨就排演一出 Hadoop 的三国版,带你一起感受和思考下大数据领域的发展和乱相。

首先出场的是魏国 Cloudera。我们知道三国时的魏国,曹操以“挟天子以令诸侯”而知名。这句话用在 Cloudera 身上不是太合适,不如说“天子”,也即 Hadoop 的第一个作者,和 Cloudera 联合在一起,来试图“令诸侯”更为贴切。我们姑且将就一下吧,历史总是惊人得相似,但也只能到相似的程度了。

Cloudera 成立于 2008 年,由克里斯托夫 · 比塞格利亚(Christophe Bisciglia)、埃姆 · 阿瓦达拉(Amr Awadallah)以及杰夫 · 哈默巴赫(Jeff Hammerbacher)创建。如今阿瓦达拉还是 CTO,哈默巴赫虽然挂着首席科学家的头衔,但很少参与公司管理了,而比塞格利亚则混迹于硅谷 IT 圈。

2012 年大数据的概念才开始红火起来,2008 年他们几位就能够看到这个市场并创立公司,实在是值得敬佩。

2009 年 3 月发生了 Cloudera 创立以来第一件比较大的事件:第一笔融资到账。这笔 500 万美元的融资,是由全球知名的五大风险投资机构之一的 Accel Partners 提供的。Accel Partners 这个投资者,在后面的几轮投资里面都扮演了重要角色。我想它最后一定是赚了不知道多少倍的钱。

伴随融资的到来,Cloudera 发行了它的第一个 Hadoop 集成版。涉及 Cloudera 的盈利方式,我们需要展开讲一讲它的 Hadoop 集成版。

现在业界通常也把 Cloudera 发行的 Hadoop 版本叫作 CDH,CDH 里面的东西本身都开源,也可以从 Cloudera 官网获得。但是除了 CDH 发行版以外,Cloudera 还有一些私货,这些就是 Cloudera 独有的了。

Cloudera 的创始人在一次访谈中提到,2008 年他们创建公司的时候,打算做的服务类似于现在 AWS 的 Elastic MapReduce,通过在云上给大家提供服务来赚钱。然而他们很快就发现这个模式太超前,在 2008 年的时候不切实际,而且投入也很大,所以就转向了做 Hadoop 发行商的角色。

所谓的 Hadoop 发行商,有点类似于 Linux 世界里的 RedHat。公司通过开源软件的包装,整合稳定的版本形成一个套餐,通过让企业用户购买套餐来实现盈利。

企业用户愿意购买套餐无非是两个原因:一是为了对方提供的技术支持,二是对方的套餐里面有一些开源版本没有的东西,可以方便企业使用和部署这个开源的版本。

Cloudera 的盈利模式就来自于这两方面。Cloudera 给企业提供技术支持,而这些技术支持是要通过购买收费套餐获得的。

Cloudera 的价格不便宜,最新的价格差不多是 1 万美元一个节点一年。这个价格是相当高了,所以 Cloudera 在我国卖的时候,常常是用户只愿意买 10 个节点,回头自己就跑上几百个节点。盗版软件曾经一度横行,免费多用节点也就不是什么难事了。国内大致就是这个情况了。

Cloudera 在盈利模式上还依赖于套餐里面拥有的非开源的东西。Cloudera 的 CDH 是 100% 开源软件整合,在网站上可以免费下载使用。但是 Cloudera 同时又提供了一个叫作 Cloudera Manager 的企业管理组件,这个东西是不开放源代码的,在三个月试用期过后就要收费了。它提供了企业比较在乎的对计算机集群的管理、部署、升级、监控等各方面的功能。

这些功能对于普通用户,尤其是喜欢折腾的用户来说可能无所谓,但是 Cloudera 相信这些功能对于真正有钱的企业来说必不可少,而开源的 Hadoop 版本里面最差的就是这部分。

Cloudera 相信,他们自己做的这个 Manager,能够比其他 Hadoop 发行版更有价值,更加适合企业级用户使用。

等到 2009 年 9 月,Cloudera 又一次的大手笔震惊了 IT 界。他们请到了一尊“大神”——道格 · 卡丁(Doug Cutting)。

这位大神是“Hadoop 之父”,第一位作者。开始他是自己自娱自乐写 Hadoop,后来被雅虎这个“活雷锋”招安,带领一队人马做 Hadoop。有关大神的故事长篇累牍,讲也讲不完,因此这里就不展开了。

据说,因为在此之前卡丁和他的顶头上司,雅虎里面管 Hadoop 的那个副总裁之间互相看不顺眼,经常被对方鄙视或者穿小鞋,大神心里早就不爽了。于是 Cloudera 手一招,大神就毫不犹豫地跳过来,成了首席架构师。当然还有一个说法,那就是 Cloudera 给了很多钱很多股票。

至于哪个版本为真,其实不重要了。不管怎么样,大神现在肯定是发财,发大财了。至少如果大神一直继续在雅虎,肯定赚的比现在少很多。大神做了 Cloudera 的首席架构师以后,日子是过得顺风顺水,后来还荣升了著名的 Apache 基金会的主席。

自从有了卡丁以后,Cloudera 腰杆也直了,底气也足了,从此以后就以“Hadoop 正宗”自称了。

这个故事有点类似于曹操拿着天子做文章,但不同的是天子算是被曹操胁迫的,而“大神”和 Cloudera 这几个与 Hadoop 最初版本没太多关系的创始人之间,多少应该算是互相捧场,皆大欢喜。

好日子开始了,Cloudera 不断烧钱壮大,到了 2011 年又开始了新一轮融资,这次的融资引入了一个特别值得注意的角色:In-Q-Tel。

国内的朋友对 In-Q-Tel 可能不太熟悉,这个金主是 CIA 下面的投资公司,专门投资对美国国家安全有重大意义的项目。其中著名而神秘的大数据分析公司 Palantir,美国棱镜项目技术提供者的启动资金就是这家基金给的。另外,MongoDB 也接受过他们的钱,所以印度觉得 MongoDB 不安全。而有了这个机构的投资,到底是不是还安全,这只能是“公说公有理婆说婆有理”了。

这次 Cloudera 拿到了 4000 万美金。有了这么大一笔钱,Cloudera 迎来了一次大发展。这次 Cloudera 意识到 Hadoop 需要一个更快的查询引擎,并高调宣布要做一个 MPP 的产品,也就是 Impala。

这也是 Cloudera 在宣传口号上的一次调整。以前 Cloudera 总是称自己为 Hadoop 发行商,这次它华丽丽地改名了,从此以后表示自己是个数据仓库公司,而 Impala 则是他们大力推进的查询系统。

Imapla 可算是命不太好。最开始,Cloudera 试图让 Impala 成为自己控制的项目,所以并没有将其交给 Apache,于是 Impala 也就没有得到 Cloudera 以外人士的重视。结果,其他很多的竞争对手就这样起来了,尤其 Spark 更是攻城略地。等到后来 Impala 被贡献给 Apache 时,已经是为时太晚。

2014 年是 Cloudera 的丰收年。这一年里,英特尔以 7.5 亿美元的价格拿走了它 18% 的股权。跟随英特尔的还有谷歌、戴尔公司老总迈克尔 · 戴尔(Michael Dell)的私人投资基金,以及其他各路人马。这次投资也把 Cloudera 的总估值送上了 41 亿的巅峰,让 Cloudera 当之无愧地坐上了 Hadoop 发行商里的第一把交椅。

为了坐实数据仓库公司的梦想,Cloudera 又开始了另外一个项目 Kudu,即 2015 年开始主推的新一代存储系统。Kudu 的想法是让 Cloudera 有一个可以同时支持 OLAP 和 OLTP 查询,两者性能又都不会太差的存储引擎。这个项目引起了广泛关注,并让 Cloudera 再次吸引了大量的注意力。

然而俗话说得好,盛极必衰。此后的三年里,Cloudera 的业务并没有随着“大数据”这个概念进一步膨胀,相反的,它的估值到底值不值 41 亿美元,一直让人有些揪心。

Cloudera 终于走向了上市之路,而这个过程可谓非常曲折,因为上市消息宣布以后,大家首先注意的是上市材料里面的估值并没增加。2017 年,Cloudera 自砍估值一半,上市以后的估值只有 20 多亿。别人不知道,起码英特尔的投资是彻底亏了。

这种拼命也要上市的做法,充分反映了 Cloudera 可能遇到了什么问题。从各方面来看,这可能主要还是现金流的问题,缺钱却没有投资人愿意继续投入了,只能血淋淋地上市了。上市后的 Cloudera 并没有飞起来,可能大家都还希望给它一点时间,看看它到底能做多好吧。

版权归极客邦科技所有,未经许可不得转载

精选留言

  • 莲花
    现在hadoop算是稳定吗?有竞争者吗?
    2018-09-27