OpenAITriton启动合并AMDROCm代码9月20日举行开发者大会
发布时间:2023-09-04 10:57:00 所属栏目:外闻 来源:
导读:Triton 是一个类似 Python 的开放源码编程语言,让非 CUDA 专家也能够轻松写出高性能的 GPU 编码(以较简单的方式模拟了 CUDA),而且号称小白也可以写出与专业人士相媲美的代码,就是让用户用相对较少的努力实现最高
Triton 是一个类似 Python 的开放源码编程语言,让非 CUDA 专家也能够轻松写出高性能的 GPU 编码(以较简单的方式模拟了 CUDA),而且号称小白也可以写出与专业人士相媲美的代码,就是让用户用相对较少的努力实现最高的硬件性能,但 Triton 初期只支持英伟达 GPU。 OpenAI 声称:Triton 只要 25 行代码,就能在 FP16 矩阵乘法上达到与 cuBLAS 相当的性能。 从 Github 我们可以看到,OpenAI 已经开始在最新的Triton 版本中合并 AMD ROCm 相关分支代码,也正因此暴露了很多东西。也就是说,最新 Triton 后端已适配 AMD 平台,可谓意义重大。 通过官方的说法来看,他们已经通过了“test_core.py”上的大多数单元测试环节,但由于各种原因跳过了一些测试。 注意到,OpenAI 还宣布将于 9 月 20 日上午 10 点至下午 4 点在加利福尼亚州山景城的微软硅谷园区举行 Triton 开发者大会,而日程安排中就包括“将 Triton 引入 AMD GPU”和“Triton 的英特尔 XPU”两大环节,预计 Triton 将很快摆脱英伟达 CUDA 垄断的历史。 值得一提的是,Triton 是开源的, 相对于封闭源的 CUDA 而言,Triton 其他可选设备的实现能够更便捷地整合进现有AI编译器堆栈中并且节省了大量时间去构建针对新设备的新编译器。 在此前发布的 PyTorch 2.0 版本中,TorchInductor 便引入了 OpenAI Triton 支持,可为多个加速器和后端自动生成快速代码,同时实现用 Python 取代 CUDA 编程来写底层硬件的代码。也就是说,Triton 已经是PyTorch2.0 后端编译器关键构成部分。 实际上,此前 AMD ROCm 则主要是采用 Hipify 工具实现CUDA 兼容,而随着 AMD 开始为 RDNA 3 消费级显卡提供 ROCm 支持,预计后续将会有更多平台选择适配 AMD 硬件。有更多平台选择适配amd硬件。不过目前尚不清楚这些新的rocm是否会在未来几个月内推出,因为amd还没有公布任何关于rocm的细节。 (编辑:聊城站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐