100 | IBM的大数据路之起早贪黑赶了晚集

100 | IBM的大数据路之起早贪黑赶了晚集

朗读人:秭明    05′48′′ | 3.16M

IBM 是一家曾经有过无比辉煌历史的计算机公司,如今却时过境迁,对计算机发展的影响力所剩无几。

进入大数据时代后,IBM 的路走得格外辛苦。IBM 踏上大数据道路的早期我正好在 IBM 实习,也因此接触到了很多外人不知道的内容。

那是 2008 年,Hadoop 刚刚开始兴起,雅虎正投入大量人力物力进行 Hadoop 核心模块的开发。我实习的部门是 IBM Almaden 研究院,这个研究院以研究数据库相关技术出名,历史上第一个关系数据库的原型系统 System R 就诞生于此。

当时我们组需要在 Hadoop 上开发两个外围项目。其一是做一种高级查询语言 JAQL(JSON Analytical Query Language),它以 JSON 作为数据模型,语法上更像是一个数据流语言。另外一个项目则是基于 JSON 做一个搜索引擎。

2008 年旧金山湾区有 Hadoop 聚会的时候,演讲内容一般针对的是 Pig、Hive、JAQL,由此可见 JAQL 在当时也是颇有建树的。可以说,IBM 很早就进入了 Hadoop 生态圈,而且有一个类似 Pig 或者 Hive 的查询语言的项目。从数据模型来看,JSON 也是非常有特色,那为什么好好的一盘棋下着下着就输了呢?

在我看来,IBM 的官僚作风是一个很重要的原因。 虽说下面有团队在做这件事,但是领导层的重视程度并不够。当时这个团队只有一个领导、两个兵,而且其他资源也是远远拼不过其他公司的。

第二个原因,是 IBM 对待开源自己项目的保守态度。 Hadoop 本身是个开源项目,但是想要 IBM 开源 JAQL 项目是一件非常不容易的事情。当时的团队负责人尤金 · 谢基塔(Eugene Shekita)为此付出了很多努力,但仍是进展缓慢。

后来 IBM 终于把 JAQL 开源了,但并没有同意把它捐献给 Apache 软件基金会,JAQL 也就没能成为 Apache 的顶级项目。这样一来,其他非 IBM 的人想要参与进来就很困难了。JAQL 的用户数量也因此受到了影响,难免显现出一些衰败的迹象,最终直接影响了团队士气,团队成员纷纷跳槽,只留下了老板尤金孤掌难鸣。后来尤金跳槽去了谷歌,这个和大数据、和 Hadoop 相关的技术研发也就嘎然而止了。

此后,IBM 决定不再开源 JAQL,而是把它整合到自己的产品中,并且不再允许其他公司使用,这种做法是以开源为主体的 Hadoop 体系完全无法接受的。慢慢地,JAQL 系统就淡出了 Hadoop 的圈子,最终变得无足轻重了。

在大数据领域,IBM 研究院另外一个重要项目是机器学习平台 System ML,这个项目始于 2010 年,也是比较早的。 但是,这个项目同样也不是开源的,所以虽然大家从论文里面知道了这个项目,但是却不知道它是怎么做出来的,自然也就无法在这个项目上进行开发了。

在大数据的道路上,IBM 因为自产自销的原因越走越窄,后来不得不做出一项重大决策:采用哪种平台继续前进。这次 IBM 的决定是全面倒向 Spark。

Spark 是加州伯克利大学 AMP 实验室研发的产品,后来又经过 Databricks 公司不断地产业化,在数据分析和处理引擎领域已经有一统天下的倾向。

IBM 决定全面倒向 Spark 以后,内部的各种分析工具也都要从原先的平台迁移到 Spark 上。

从某种程度上来说,IBM 早早地就开始了 Hadoop 相关技术的研究,但最终却决定放弃自己对底层开发的积累,使用一个别人开发的、比它还要晚的平台。对于“百年老店”IBM 来说,或许这个选择在商业上可以理解,但不管怎样看,这都不是一个好兆头。

倒向 Spark 后,整个 System ML 项目要基于 Spark 重新开发。作为支持 Spark 生态系统的一部分,在 2015 年的 Spark Summit 上,IBM 宣布将 System ML 开源。这个决定自 System ML 项目开始已经过去 5 年了,而就外界所知道的 System ML 也已经经历了两大版本的变迁。

经过一年多的孵化,System ML 终于在 2017 年夏天成为了 Apache 的顶级项目,这也算是 IBM 主导的第一个 Apache 顶级开源项目。但在机器学习和深度学习大行其道的今天,System ML 到底还能产生多大的影响,要打一个大大的问号。

作为一个老牌的计算机公司,IBM 眼光向来都不错。 在 Hadoop 刚兴起时,就进行了相关的研究。而且,行动力一点也不比其他互联网企业和社交媒体来得差。

但是,虽然 IBM 早早地就进场了,项目做得也不差,人员素质更是不低,一切却都架不住官僚体系的腐朽和不开源的偏见。IBM 内部官僚主义太重,虽然有团队在做 Hadoop 的相关技术研发,但上层的重视程度不够。更重要的是,凡是涉及了开源的问题,IBM 都毫不犹豫地选择了拒绝,这更让 IBM 失去了很多机会。

可以说,那个曾经为计算机发展做出过卓越贡献、始终走在历史发展前列的计算机公司,“蓝色巨人”已经死了。在 Hadoop 市场和大数据领域的错失,究其原因还是这个企业早就是垂垂朽已了。对此,除了一声叹气,我又能说些什么呢。

版权归极客邦科技所有,未经许可不得转载

通过留言可与作者互动