Deprecated: Creation of dynamic property db::$querynum is deprecated in /www/wwwroot/qdttd.com/inc/func.php on line 1413

Deprecated: Creation of dynamic property db::$database is deprecated in /www/wwwroot/qdttd.com/inc/func.php on line 1414

Deprecated: Creation of dynamic property db::$Stmt is deprecated in /www/wwwroot/qdttd.com/inc/func.php on line 1453

Deprecated: Creation of dynamic property db::$Sql is deprecated in /www/wwwroot/qdttd.com/inc/func.php on line 1454
将224个GPU塞进一个机柜里_新闻资讯_天博官网登录_克罗地亚app下载

新闻资讯

首页 > 新闻资讯

将224个GPU塞进一个机柜里

所属分类:【面粉机动态】发布时间:2024-12-10 04:32:22作者:天博官网登录浏览量:13 次

  如果您认为 Nvidia 的 120 kW NVL72 机架配备 72 个 Blackwell 加速器,计算密度非常高,那么它们与 HPE Cray 最新的 EX 系统相比根本不算什么,后者可以在单个机柜中装入三倍以上的 GPU。

  在机架级别,仅计算一项就将消耗 300 kW 以上的电力,因此不言而喻,就像过去的 EX 系统一样,HPE 的 Blackwell 刀片将采用液冷。

  事实上,这些系统完全无风扇,甚至包括全新的 Slingshot 400 系列以太网 NIC、电缆和交换机。顾名思义,Slingshot 400 是对其前代产品的一次可喜升级,带宽从 200 Gbps 提升至 400 Gbps,与当前一代以太网和 InfiniBand 网络保持一致。

  不幸的是,任何想要获得 Cray 超高密度 Blackwell 系统和高速 Slingshot 400 网络的人都必须等待一段时间。预计这两款产品都要到 2025 年底才能出货。

  Cray 还将开始发售升级版 E2000 存储系统,该公司声称,得益于基于 PCIe 5.0 的更快 NVMe 存储,该系统的 I/O 性能将比前几代产品提高一倍以上。HPE 预计将从 2025 年初开始发售这些存储阵列。

  虽然 HPE 的 Cray EX 平台承诺比普通服务器或机架具有更高的密度,但它们并不是那种可以部署在普通数据中心的系统。因此,HPE 还推出了两款新型风冷 ProLiant Compute 服务器,它们利用了其以企业为中心的 iLO 无人值守管理系统。

  任何见过 Nvidia HGX 平台的人都会对这些系统相当熟悉,该平台的 XD680 和 XD685 服务器均支持您选择的 8 种加速器。

  令人惊讶的是,我们并不像您预期的那样仅限于 Nvidia 和 AMD GPU。XD680 实际上标配了八个英特尔 Gaudi3 加速器,总计 1 TB HBM2e。正如我们在春季报道的那样,Gaudi3 与目前的加速器相比具有相当的竞争力。每个加速器都能够产生 1.8 petaFLOPS 的密集 BF16 性能,使其在计算密集型工作负载方面比 H100、H200 和 AMD 的 MI300X 更具优势。

  如果您不喜欢 Nvidia,或者您需要更加多内存,HPE 还推出了一款搭载 AMD 新推出的 MI325X 的系统版本。该系统于 10 月与加速器一起发布,将配备高达 2 TB 的 HBM3e 内存,并将于 2025 年第一季度发货。

  扩展的产品线包括几个新的 HPE Cray Supercoming EX 系统,以及一对新的 HPE Proliant 服务器,这些服务器针对人工智能工作负载进行了优化,包括大型语言模型训练和微调。

  HPE 表示,这些系统是为负责解决一些世界上最棘手问题的研究机构设计的。它们针对的是更传统的 HPC 工作负载,例如 DNA 测序和股票交易自动化,而不是只专注于 AI 工作负载。

  利用超级计算机制造巨头HPE 于 2019 年收购的Cray 的专业相关知识,它们也是同种类型的产品中第一台采用100% 无风扇、直接液体冷却系统架构制造的机器,该架构涵盖机器的每一层,包括计算节点、网络和存储。

  即将推出的是新的 HPE Cray Supercomputing EX4252 Gen 2 Compute Blade,将于明年春季推出。它更像是一个传统的超级计算平台,因为它经过优化,能支持更广泛的计算应用。

  它缺乏 GPU 硬件,这可能使它对 AI 的用处不大,但就传统工作负载而言,它是一款强大的产品,单个机柜中最多可容纳 98,304 个 CPU 内核,使其成为同种类型的产品中最强大的单机架系统。每个内核配备八个由 Advanced Micro Devices Inc. 制造的第五代 EPYC CPU,可提供极高的 CPU 密度,使客户能够在比以前小得多的空间内实现更高性能的计算。

  为了配合新的 Cray Supercomputing EX 型号,HPE 还推出了下一代百亿亿次级互连产品组合,捆绑了支持高达 400 千兆位/秒速度的网络接口控制器、电缆和交换机。此外,还有一个新的存储系统和服务软件值得期待。

  新的网络基础设施被称为 HPE Slingshot Interconnect 400,其线速是上一代互连的两倍。它还支持自动拥塞管理和自适应路由等高级功能,这在某种程度上预示着它可以动态重新路由和优化连接,以确保它支持的任何给定工作负载的延迟尽可能低。它将于明年秋季面向基于最新 HPE Cray 系统的集群推出。

  至于 HPE Cray 超级计算存储系统 E2000,它提供的输入/输出容量性能是 HPE 前代超级计算机存储系统的两倍多。在底层,它利用开源 Lustre 文件存储系统,这有助于减少与 I/O 操作相关的空闲时间。这一切加起来比以前快得多的存储读写速度,并将在明年初推出时明显提高超级计算操作的性能。

  最后还有新的 HPE Cray 超级计算用户服务软件,该软件旨在通过优化系统效率、管理功耗等新功能来改善其超级计算平台的用户体验。

  虽然 Cray 超级计算机针对更广泛的 HPC 工作负载进行了优化,但新的 HPE ProLiant Compute XD 服务器专为当今几乎每个企业都渴望接受的所有重要的 AI 工作负载而构建。

  HPE 高级副总裁兼 HPC 和 AI 基础设施解决方案总经理 Trish Damkroger 表示,企业和政府对“自主 AI 计划”越来越感兴趣,因为这些计划使他们可以完全控制自己的 AI 模型和训练数据。但对于自主 AI,这些组织需要访问一些很强大的硬件,而这正是 ProLiant Compute XD 服务器所提供的。

  HPE 于 3 月推出了首批用于 AI 的 ProLiant Compute 服务器,但 XD 型号是一种全新的机器类别,经过优化,可支持部署大型高性能 AI 集群。该公司一直与 Nvidia 密切合作,对它们进行微调以支持最先进的 LLM。

  至于风冷式 HPE ProLiant Compute XD680 服务器,它是一种替代方案,面向那些希望优化性价比,同时仍能处理最苛刻的 AI 训练、调优和推理任务的客户。它没用 Nvidia 的 GPU,而是使用英特尔公司的八个Gaudi 3 AI 加速器,这些加速器被压缩成一个紧凑的节点。它们将很快开始销售,发布日期定于下个月。

  这两款新服务器均采用了 HPE 的 Integrated Lights-Out 技术,用于远程管理,使选定的授权人员能够从任何位置访问它们,与传统的带内网络访问相比,提供了更高的安全性。

  HPE 表示,新款 Proliant XD 服务器附带可选服务,例如安装、定制、集成和验证,以及在公司自己的制造工厂内进行的全面测试,以满足希望加快现场部署的客户的需求。

  Damkroger 表示:“我们的客户希望我们也可以加快他们的人工智能系统部署,从而更快、更高效地实现价值,并利用我们数十年交付、部署和服务全集成系统的经验。”

  *免责声明:本文由作者原创。文章的主要内容系作者本人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

  以上内容与证券之星立场无关。证券之星发布此内容的目的是传播更多详细的信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关联的内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至,我们将安排核实处理。