Facebook再次颠覆了数据中心基础设施管理的传统理念,将过去相对独立的机房设施和服务器硬件数据纳入统一的管理软件。
还记得2012年6月底的“闰秒事件” 吗?当时网络上关于Java、Hadoop和Apache Cassandra数据库等技术的闰秒问题吐槽声不断。包括Reddit、Foursquare等大型网站纷纷中招,Facebook服务器CPU使用率 瞬间升至100%,耗电量瞬间飙升,导致Facebook位于弗吉尼亚数据中心的断路器发生故障,结果300个机架宕机。
一个不起眼的闰秒问题给互联网带来的实质性冲击远远超过Y2K问题!
而对于Facebook的工程师来说,从闰秒问题能吸取的最大教训就是考虑开发出能整合第三方建筑管理软件和Facebook自主开发的服务器性能监测工具的新型管理软件。
Facebook网站运营副总裁Tom Furlong最近在接受媒体采访的时候透露,Facebook最新的数据中心管理软件能够将温度、湿度等户外信息与整栋建筑的能耗,以及CPU存储和内存方面的数据进行综合分析和管理。
过去几个月中,Facebook推出了新版本的数据中心基础设施管理(DCIM)项目,以及一个全新的集群规划系统用于将所有数据都可视化。Facebook计划今年内更大范围地推广其DCIM项目。
Facebook新推的数据中心管理软件可以减少工程师设计数据中心性能优化方案的时间。“从过去的12小时缩短到半个小时”Furlong说道。
与此同时,一体化的数据中心管理软件还能帮助Facebook进一步提高其数据中心的能耗效率,同时减少了新建数据中心的需求。
Furlong预计Facebook将在明年1月的开放计算峰会上讨论一体化数据中心管理软件,但还不确定是否会像Open Compute Project的数据中心硬件设计一样向公众公开。目前的一体化管理软件中集成了很多Facebook自有的监控工具,而这些是Facebook所不愿意 公开的。