英特尔推出全新Sunny Cove CPU架构提高计算性能

2018-12-13 09:32| 发布者: | 查看: 172| 评论: 0

摘要: 　　北京时间 12 月 12 日晚间消息，加州圣克拉拉，2018 年 12 月 12 日在英特尔架构日活动中，英特尔高管、架构师和院士们展示了下一代技术，并介绍了英特尔在驱动不断扩展的数据密集型工作负载方面的战略进展，从 ...

　　北京时间 12 月 12 日晚间消息，加州圣克拉拉，2018 年 12 月 12 日——在英特尔“架构日”活动中，英特尔高管、架构师和院士们展示了下一代技术，并介绍了英特尔在驱动不断扩展的数据密集型工作负载方面的战略进展，从而为 PC 和其他智能消费设备、高速网络、无处不在的人工智能（AI）、云数据中心和自动驾驶汽车提供支持。

第 11 代核芯显卡

　　英特尔架构日上发布的重点内容包括：

　　业界首创的逻辑芯片 3D 堆叠：英特尔展示了名为“Foveros”的全新 3D 封装技术，该技术首次引入了 3D 堆叠的优势，可实现在逻辑芯片上堆叠逻辑芯片。

　　Foveros 为整合高性能、高密度和低功耗硅工艺技术的器件和系统铺平了道路。Foveros 有望首次将晶片的堆叠从传统的无源中间互连层和堆叠存储芯片扩展到高性能逻辑芯片，如 CPU、图形和人工智能处理器。

　　该技术提供了极大的灵活性，因为设计人员可在新的产品形态中“混搭”不同的技术专利模块与各种存储芯片和I/O配置。并使得产品能够分解成更小的“芯片组合”，其中I/O、SRAM 和电源传输电路可以集成在基础晶片中，而高性能逻辑“芯片组合”则堆叠在顶部。

　　英特尔预计将从 2019 年下半年开始推出一系列采用 Foveros 技术的产品。首款 Foveros 产品将整合高性能 10nm 计算堆叠“芯片组合”和低功耗 22FFL 基础晶片。它将在小巧的产品形态中实现世界一流的性能与功耗效率。

　　继 2018 年英特尔推出突破性的嵌入式多芯片互连桥接（EMIB）2D 封装技术之后， Foveros 将成为下一个技术飞跃。

　　全新 Sunny Cove CPU 架构：英特尔推出了下一代 CPU 微架构 Sunny Cove，旨在提高通用计算任务下每时钟计算性能和降低功耗，并包含了可加速人工智能和加密等专用计算任务的新功能。明年晚些时候，Sunny Cove 将成为英特尔下一代服务器（英特尔®至强®）和客户端（英特尔®酷睿™）处理器的基础架构。Sunny Cove 的功能特性包括：

　　· 增强的微架构，可并行执行更多操作。

　　· 可降低延迟的新算法。

　　· 增加关键缓冲区和缓存的大小，可优化以数据为中心的工作负载。

　　· 针对特定用例和算法的架构扩展。例如，提升加密性能的新指令，如矢量 AES 和 SHA-NI，以及压缩/解压缩等其它关键用例。

　　Sunny Cove 能够减少延迟、提高吞吐量，并提供更高的并行计算能力，有望改善从游戏到多媒体到以数据为中心的应用体验。

　　下一代图形卡：英特尔推出全新的第 11 代集成图形卡，配备 64 个增强型执行单元，比此前的英特尔第 9 代图形卡（24 个 EU）多出一倍，旨在打破每秒 1 万亿浮点运算次数（1 TFLOPS）的壁垒。从 2019 年开始，新的集成图形卡将与 10 纳米处理器一起交付。

　　与英特尔第 9 代图形卡相比，新的集成图形卡架构有望将每时钟计算性能提高一倍。凭借高于每秒 1 万亿浮点运算次数的性能，该架构旨在提高游戏的可玩性。与英特尔第 9 代图形卡相比，英特尔在此次活动上展示的第 11 代图形卡几乎将一款流行的照片识别应用程序的性能提高了一倍。第 11 代图形卡预计还将采用业界领先的媒体编码器和解码器，在有限的功耗配额下支持 4K 视频流和 8K 内容创作。第 11 代图形卡还将采用英特尔®自适应同步技术，为游戏提供流畅的帧速率。

　　英特尔还重申了在 2020 年推出独立图形处理器的计划。

　　“One API”软件：英特尔宣布推出“One API”项目，以简化跨 CPU、GPU、FPGA、人工智能和其它加速器的各种计算引擎的编程。该项目包括一个全面、统一的开发工具组合，以将软件匹配到能最大程度加速软件代码的硬件上。公开发行版本预计将于 2019 年发布。

　　内存和存储：英特尔介绍了英特尔®傲腾™技术以及相关产品的最新情况。英特尔®傲腾™数据中心级持久内存作为一款新产品，集成了内存般的性能以及数据的持久性和存储的大容量。这项革命性的技术通过将更多数据放到更接近 CPU 的位置，使应用在人工智能和大型数据库中的更大量的数据集能够获得更快的处理速度。其大容量和数据的持久性减少了对存储进行访问时的时延损失，从而提高工作负载的性能。英特尔傲腾数据中心级持久内存为 CPU 提供缓存行（64B）读取。一般来说，当应用把读取操作定向到傲腾持久内存或请求的数据不在 DRAM 中缓存时，傲腾持久内存的平均空闲读取延迟大约为 350 纳秒。如果实现规模化，傲腾数据中心级固态盘的平均空闲读取延迟约为 10,000 纳秒（10 微秒），这将是显著的改进2。在一些情况下，当请求的数据在 DRAM 中时，不管是通过 CPU 的内存控制器进行缓存还是由应用所引导，内存子系统的响应速度预计与 DRAM 相同（小于 100 纳秒）。

　　英特尔还展示了基于英特尔 1 TB QLC NAND 裸片的固态盘如何把更多海量数据从硬盘迁移到固态硬盘，从而可以更快访问这些数据。

　　英特尔傲腾固态盘与 QLC NAND 固态盘相结合，将降低对最常用数据的访问延迟。总体来说，这些对平台和内存的改进重塑了内存和存储层次结构，从而为系统和应用提供了完善的选择组合。

　　深度学习参考堆栈（Deep Learning Reference Stack）：英特尔宣布推出深度学习参考堆栈（Deep Learning Reference Stack），这是一个集成、高性能的开源堆栈，基于英特尔®至强®可扩展平台进行了优化。该开源社区版本旨在确保人工智能开发者可以轻松访问英特尔平台的所有特性和功能。深度学习参考堆栈经过高度调优，专为云原生环境而构建。该版本可以降低集成多个软件组件所带来的复杂性，帮助开发人员快速进行原型开发，同时让用户有足够的灵活度打造定制化的解决方案。

　　· 操作系统：Clear Linux * 操作系统可根据个人开发需求进行定制，针对英特尔平台以及深度学习等特定用例进行了调优；

　　· 编排：Kubernetes*可基于对英特尔平台的感知，管理和编排面向多节点集群的容器化应用；

　　· 容器：Docker*容器和 Kata*容器利用英特尔®虚拟化技术来帮助保护容器；

　　· 函数库：英特尔® 深度神经网络数学核心函数库（MKL DNN）是英特尔高度优化、面向数学函数性能的数学库；

　　· 运行时：Python*针对英特尔架构进行了高度调优和优化，提供应用和服务执行运行时支持；

　　· 框架：TensorFlow*是一个领先的深度学习和机器学习框架；

　　· 部署：KubeFlow*是一个开源、行业驱动型部署工具，在英特尔架构上提供快速体验，易于安装和使用。