加入收藏 | 设为首页 | 会员中心 | 我要投稿 聊城站长网 (https://www.0635zz.com/)- 智能语音交互、行业智能、AI应用、云计算、5G!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

Meta重磅上线定制芯片MTIA v1和全新超算

发布时间:2023-05-22 11:08:59 所属栏目:外闻 来源:
导读:世界卷起巨型模型,小扎急坏了,如今 Meta在定制芯片与超算上都下重注,来发展 AI。

Meta也有自研芯片了!

本周四,Meta发布第一代AI推理定制芯片MTIA v1和超算。

可以说,MTIA对Meta是一个巨大的福音,尤其是
世界卷起巨型模型,小扎急坏了,如今 Meta在定制芯片与超算上都下重注,来发展 AI。

Meta也有自研芯片了!

本周四,Meta发布第一代AI推理定制芯片MTIA v1和超算。

可以说,MTIA对Meta是一个巨大的福音,尤其是现在各家都在建大模型,对AI算力的需求变得越来越高。

小扎最近表示,Meta看到了「以有用和有意义的方式向数十亿人介绍人工智能代理的机会」。

显然,随着Meta加大对AI的投入,MTIA芯片和超算计划将是Meta与其他科技巨头竞争的关键工具,现在没有哪家巨头不在AI上投入大量资源。

可以看到,凭借着定制芯片和超算,Meta在AI上下了大赌注。

在最近的一次线上活动中,Meta拉开了开发自己的基础设施的序幕。

新芯片全名是Meta训练和推理加速器,简称MTIA。

MTIA是一种ASIC,一种将不同电路组合在一块板上的芯片,允许对其进行编程,以并行执行一项或多项任务。

Meta副总裁兼基础设施负责人Santosh Janardhan在一篇博客文章中写道,MTIA是Meta「针对推理工作负载的内部定制加速器芯片系列」,它提供了比CPU「更高的计算能力和效率」,并且「为我们的内部工作负载定制」。

通过结合MTIA芯片和GPU,Janardhan 表示,Meta相信我们将为每个工作负载提供更好的性能、更低的延迟和更高的效率。」

不得不说,这是Meta实力的投射。其实,一直以来,Meta在应用AI友好型硬件系统方面进展并不迅速。这影响了Meta和竞争对(如微软、谷歌等)保持同步发展的能力。

Meta基础设施副总裁Alexis Bjorlin在一次采访中表示,构建属于自己的硬件,Meta就有能力控制堆栈的每一层,包括数据中心设计到培训框架。

这种垂直的整合水平对于大规模推动AI研究边界是必不可少的。

在过去的十年里,Meta花费了数十亿美元聘请顶级数据科学家来构建新型AI模型。

Meta也一直在努力将其许多更宏伟的AI创新研究投产,尤其是生成式AI。

一直到2022年,Meta一直主要用的是CPU和专为加速AI算法而设计的芯片组合来维持其AI的运行。

而大多数CPU和移动芯片的组合在长时间执行这类不可预测任务的效率上通常会大大地低于无线智能手机的GPU。

于是Meta取消了原本打算在2022年大规模推广的定制芯片,转而订购了价值数十亿美元的英伟达GPU。

引入这些GPU,Meta需要对旗下的几个数据中心进行颠覆性的重新设计。

而为了扭转这一局面,Meta计划开发一款内部芯片,预计于2025年推出。这款内部芯片既能训练AI模型,还能运行AI模型,可谓性能强大。

主角终于来了——新芯片名叫MITA,全称Meta Training and Inference Accelerator.

这款芯片可以用来加速AI训练和推理的效率。

研究团队表示,MTIA是一种ASIC,指的是一种在一块板上组合不同电路的芯片。通过编程,该芯片能同时执行一项或多项任务。

专为AI工作负载定制的AI芯片Meta

要知道,科技巨头公司的竞争说白了玩儿的就是芯片。

比方说谷歌的TPU,用来训练Palm-2和Imagen。亚马逊也有自己的芯片,用于训练AI模型。

此外,有消息称微软也在和AMD开发一款叫Athena的芯片。

这不,MITA的到来也是Meta不甘示弱的表现。

Meta表示,2020年他们创建了第一代的MITA——MITA v1,采用的是7nm工艺。

该芯片内部内存可以从128MB扩展到128GB,同时,在Meta设计的基准测试中,MITA在处理中低复杂度的AI模型时,效率要比GPU还高。

在芯片的内存和网络部分,还有不少工作要做。随着AI模型的规模越来越大,MITA也即将遇到瓶颈。Meta需要将工作量分担到多个芯片上。

对此,Meta表示,会继续完善MITA在运行推荐的工作量时每瓦的性能。

早在2020年,Meta就已经为内部工作负载设计了第一代MTIA ASIC。

此推理加速器是共同设计的全栈解决方案的一部分,包括芯片、PyTorch和推荐模型。

该加速器采用台积电 7nm工艺制造,运行频率为800 MHz,在INT8精度下提供102.4 TOPS,在FP16精度下提供 51.2TFLOPS。它的热设计功率(TDP)为25W。

在高层次上,加速器由处理元件 (PE)、片上和片外存储器资源以及互连组成的网格组成

加速器配备了运行系统固件的专用控制子系统,固件管理可用的计算和内存资源,通过专用主机接口与主机通信,并在加速器上协调作业执行。

内存子系统将LPDDR5用于片外DRAM资源,可扩展至128GB

该芯片还具有128MB的片上SRAM,在所有PE之间共享,为频繁访问的数据和指令提供更高的带宽和更低的延迟

网格包含64个以 8x8 配置组织的PE;PE通过网状网络连接彼此并连接到内存块。网格可用于运行整个作业,也可以将其划分为多个可以运行独立作业的子网格

MTIA加速器安装在小型双M.2板上,可以更轻松地聚合到服务器中。这些主板使用PCIe Gen4 x8链路连接到服务器上的主机CPU,功耗低至35W。

MTIA软件(SW)堆栈旨在为开发人员提供效率和高性能。它与PyTorch完全集成,将PyTorch与MTIA结合使用,就像将PyTorch用于CPU或GPU一样简单。

适用于MTIA的PyTorch 运行时管理设备上的执行和功能,例如MTIA张量、内存管理和用于在加速器上调度运算符的 API。

有多种方法可以创作可在加速器上运行的计算内核,包括使用PyTorch、C/C++(用于手动调优、非常优化的内核)和一种称为KNYFE的新领域特定语言。这些技术的出现将使开发人员能够更快地编写代码,并且可以在不需要重新编译的情况下进行测试。

(编辑:聊城站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!