OpenAITriton启动合并AMDROCm代码9月20日举行开发者大会

发布时间：2023-09-04 10:57:00 所属栏目：外闻来源：

导读：Triton 是一个类似 Python 的开放源码编程语言，让非 CUDA 专家也能够轻松写出高性能的 GPU 编码（以较简单的方式模拟了 CUDA），而且号称小白也可以写出与专业人士相媲美的代码，就是让用户用相对较少的努力实现最高

Triton 是一个类似 Python 的开放源码编程语言，让非 CUDA 专家也能够轻松写出高性能的 GPU 编码（以较简单的方式模拟了 CUDA），而且号称小白也可以写出与专业人士相媲美的代码，就是让用户用相对较少的努力实现最高的硬件性能，但 Triton 初期只支持英伟达 GPU。

OpenAI 声称：Triton 只要 25 行代码，就能在 FP16 矩阵乘法上达到与 cuBLAS 相当的性能。

从 Github 我们可以看到，OpenAI 已经开始在最新的Triton 版本中合并 AMD ROCm 相关分支代码，也正因此暴露了很多东西。也就是说，最新 Triton 后端已适配 AMD 平台，可谓意义重大。

通过官方的说法来看，他们已经通过了“test_core.py”上的大多数单元测试环节，但由于各种原因跳过了一些测试。

注意到，OpenAI 还宣布将于 9 月 20 日上午 10 点至下午 4 点在加利福尼亚州山景城的微软硅谷园区举行 Triton 开发者大会，而日程安排中就包括“将 Triton 引入 AMD GPU”和“Triton 的英特尔 XPU”两大环节，预计 Triton 将很快摆脱英伟达 CUDA 垄断的历史。

值得一提的是，Triton 是开源的，相对于封闭源的 CUDA 而言，Triton 其他可选设备的实现能够更便捷地整合进现有AI编译器堆栈中并且节省了大量时间去构建针对新设备的新编译器。

在此前发布的 PyTorch 2.0 版本中，TorchInductor 便引入了 OpenAI Triton 支持，可为多个加速器和后端自动生成快速代码，同时实现用 Python 取代 CUDA 编程来写底层硬件的代码。也就是说，Triton 已经是PyTorch2.0 后端编译器关键构成部分。

实际上，此前 AMD ROCm 则主要是采用 Hipify 工具实现CUDA 兼容，而随着 AMD 开始为 RDNA 3 消费级显卡提供 ROCm 支持，预计后续将会有更多平台选择适配 AMD 硬件。有更多平台选择适配amd硬件。不过目前尚不清楚这些新的rocm是否会在未来几个月内推出，因为amd还没有公布任何关于rocm的细节。

（编辑：聊城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!