首页 行业 最新信息 查看内容

IBM:POWER服务器比TensorFlow快46倍

2018-3-25 12:00| 发布者: | 查看: 31| 评论: 0

摘要:   机器学习是人工智能的分支,主要是对能通过经验自动改进的计算机算法的研究。据国外媒体报道,美国 IBM 公司近日宣称,其旗下的 POWER 服务器的机器学习不单单比谷歌云所用的 TensorFlow 快,而且是快了整整 46 ...

  机器学习是人工智能的分支,主要是对能通过经验自动改进的计算机算法的研究。据国外媒体报道,美国 IBM 公司近日宣称,其旗下的 POWER 服务器的机器学习不单单比谷歌云所用的 TensorFlow 快,而且是快了整整 46 倍。今年 2 月,谷歌公司的软件工程师安德烈亚斯·斯特本兹(Andreas Sterbenz)撰文描述了如何利用谷歌云机器学习和 TensorFlow 为大规模广告和推荐场景进行点击预测。

  他训练了一个用来预测“Criteo Labs 点击日志”上广告点击次数的模型。该网站的内容超过 1TB,包含了来自数百万条广告的特征值和点击反馈数据。

  数据在经过 60 分钟的预处理之后进行实际学习,利用 60 台工作机器和 29 台参数机器进行训练。该模型的训练时间为 70 分钟,评估损失为 0.1293。可以将这一数值视为结果准确性的粗略指标。

  接下来,斯特本兹利用不同的建模技术来获得更好的结果并减少评估损失,这么做花了更多时间;最终模型利用了一个三期(three epochs,一个 epoch 指所有训练矢量更新权重的次数)深度神经网络,这又耗费了 78 个小时。

  然而,IBM 对此并不感兴趣,他们希望证明自己的训练框架在 POWER9 和 GPU 上运行时,在基本初始训练上的表现能超过谷歌云平台的 89 台机器。

  在瑞士苏黎世的 IBM 研究中心,研究人员托马斯·帕雷尔(Thomas Parnell)和塞莱斯廷·邓纳(Celestine Dünner)利用了来自 Criteo Terabyte 点击日志的相同源数据,以及 42 亿个训练样本,100 万个特征——相同的机器学习模型和逻辑回归,但机器学习库不同。他们所用的是 Snap 机器学习库(Snap Machine Learning)。

  帕雷尔和邓纳在 4 台 Power System AC922 服务器(包含 8 个 POWER9 CPU 和 16 个 Nvidia Tesla V100 GPU)上用 Snap 机器学习库对模型进行训练,结果只用了 91.5 秒,比 70 分钟快了 46 倍。

  他们还做了一张表,对 Snap 机器学习库、谷歌 TensorFlow 和另外三个学习库的结果进行了比较。

▲IBM 研究人员做了一张表,对 Snap 机器学习库、谷歌 TensorFlow 和另外三个学习库的结果进行了比较

  比 TensorFlow 快 46 倍是不可小视的超越,其中的原因何在?两位研究者表示,Snap 机器学习库具有多层次并行的特点,能在集群中不同节点之间分配工作负载,从而利用加速器单元,并发掘各个计算单元多核并行性的优势。这一过程可以总结如下。

  1、首先,数据分布到集群中的各个工作节点上。

  2、节点上的数据在主 CPU 和加速的 GPU(CPU 和 GPU 并行运行)之间进行分配。

  3、数据被发往 GPU 的多个内核,而 GPU 的工作负载采用多线程形式。

  Snap 机器学习库对分层算法进行嵌套,从而利用这三个层级上的并行性。两位 IBM 研究员并没有说 TensorFlow 没利用并行性,也没有在这方面对 Snap 机器学习库和 TensorFlow 进行比较,但他们确实表示:“我们采用了特殊的解决方案,目的是利用 GPU 的大规模并行架构,同时顾及数据在 GPU 内存中的局部性,以避免大量的数据传输开销。”

  他们的文章称,用 NVLink 2.0 接口的 AC922 服务器比用 PCIe 接口连接 Tesla GPU 的至强(Xeon)服务器(至强黄金版 6150 CPU @ 2.70GHz)要快。文章写道:“对于基于 PCIe 的设置,我们测到了 11.8GB/秒的有效带宽,而对于基于 NVLink 的设置,我们测到的有效带宽是 68.1GB/秒。”

  训练数据在被传送到 GPU 之后,就在那里进行处理。NVLink 系统发送数据块的速度(55 毫秒)远快于 PCIe 系统(318 毫秒)。IBM 团队还表示:“在运用于稀疏数据结构时,我们对系统中用到的算法进行了一些新的优化。”

  综上所述,Snap 机器学习库能更充分地利用 Nvidia GPU。在传输数据到 GPU 的过程中,通过 NVLink 要比通过 x86 服务器的 PCIe 链接更快。我们并不知道 POWER9 服务器的 CPU 速度与至强服务器的 CPU 相比如何;就目前所知,IBM 还未公开发布任何 POWER9 和 Xeon SP 直接比较的结果。

  目前我们也不能肯定 Snap 机器学习库比 TensorFlow 好多少,只有在相同硬件配置上运行之后,我们才能对二者进行比较。

  无论如何,时间缩短 46 倍确实令人印象深刻。这样的表现也让 IBM 有了更多空间来推动 POWER9 服务器,使其作为加插 Nvidia GPU,运行 Snap 机器学习库即进行机器学习的场所。


鲜花

握手

雷人

路过

鸡蛋
毒镜头:老镜头、摄影器材资料库、老镜头样片、摄影
爱评测 aipingce.com  
返回顶部