首页
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
GPU编程变天了。
英伟达宣布最新版CUDA 13.1,官方直接定性:这是自2006年降生以来最大的前进。
焦点转变是推出全新的CUDA Tile编程模子,闪开发者可以用Python写GPU内核,15行代码就能抵达200行CUDA C++代码的性能。
新闻一出,芯片界传奇人物Jim Keller连忙发问:
英伟达是不是亲手终结了CUDA的“护城河”?若是英伟达也转向Tile模子,AI内核将更容易移植到其他硬件上。
Jim Keller加入设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的”硅仙人”,他的判断在行业里相当有分量。
那么问题来了:CUDA这次究竟改了什么?为什么会被以为是”自毁长城”?
GPU编程范式从“线程”到“瓦片”
要明确这次更新的意义,得先回首一下古板CUDA编程有多折磨人。
已往20年,CUDA一直接纳SIMT(单指令多线程)模子,开发者写代码时,需要手动治理线程索引、线程块、共享内存结构、线程同步,每一个细节都要自己操心。
想要充分使用GPU性能,特殊是用上Tensor Core这类专用?,更是需要深挚的履历积累。
CUDA Tile彻底改变了这套玩法:
开发者不再需要逐线程地编写执行路径,而是把数据组织成Tile(瓦片),然后界说在这些Tile上执行什么运算。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
就似乎NumPy之于Python。
英伟达为此构建了两个焦点组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间加了一层笼统,确;赥ile编写的代码能在差别代际的GPU上运行,从目今的Blackwell到未来的架构都能兼容。
cuTile Python则是面向开发者的接口,直接用Python写GPU内核,门槛一下子从“HPC专家“降到了”会写Python的数据科学家都可以干。
另外,这次更新还带来了一系列面向Blackwell的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功效新增的Grouped GEMM API在MoE(混淆专家模子)场景下能实现高达4倍加速cuSOLVER的批处置惩罚特征剖析在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升开发者工具Nsight Compute新增了对CUDA Tile内核的性能剖析支持,可以把性能指标直接映射回cuTile Python源代码。
现在CUDA Tile仅支持Blackwell架构(盘算能力10.x和12.x),开发重点集中在AI算法上。英伟达体现未来会扩展到更多架构,并推出C++实现。
硅仙人的质疑:降低门槛是一把双刃剑
那么Jim Keller为什么说英伟达可能”终结了自己的护城河”?
要害就在于Tile编程模子不是英伟达独吞的。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程笼统。
已往CUDA难以移植,很洪流平上是由于SIMT模子与英伟达硬件深度绑定,开发者要针对详细的GPU架构手写优化代码。这些代码换到别家硬件上,要么跑不了,要么性能大打折扣。
但Tile模子自然具有更高的笼统条理。当开发者习惯了“只管界说Tile运算,硬件细节交给编译器”这种头脑方法后,理论上统一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:”AI内核将更容易移植。”
不过英伟达也思量了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建设在CUDA平台之上的。
开发者写的代码确实更容易移植了,但移植的目的是英伟达自家的差别代GPU,而非竞争敌手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁徙到下一代英伟达GPU,但要迁徙到AMD或Intel的平台上,依然需要重写。
不管护城河是加深照旧削弱,有一点是确定的:GPU编程的门槛确着实大幅降低。
已往能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人一抓一大把,但能把代码优化到跑满Tensor Core的专家寥若晨星。
CUDA Tile和cuTile Python买通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
大宗数据科学家和AI研究者以后可以直接上手写高性能GPU代码,不必再等HPC专家来资助优化。
参考链接:[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware[2]https://x.com/jimkxa/status/1997732089480024498
《jojo徐伦被 吸乳在线看网站》,《Q8X2R7L1T4J5M9B6W3》欧美久草黄色网站三级片
“欧美熟妇一区二”
娇喘av
……
12月11日
“熟妇厨房呻吟双腿大开”日本一男子性侵多名2岁以下女婴
↓↓↓
12月11日,(国际观察)法国政局难以企稳 新总理仍需直面议会“煎熬”,国产aa级黄毛片,性交刘亦菲18禁视频,黄频免费视频,禁止18特黄特色大片毛片免费视频
12月11日,川西北藏乡迎来北京医疗专家,亚洲全网黄色网站,免费无码AV片在线观看国产,久久青草国产免费观看,美女被操的黄色网站
12月11日,河南多地“上新”2024年首场雪景大片,玛米亚奥特曼rex海战,一级AA黄色片,日日添天天添天天添硬,小学六年级女生蹭桌角
12月11日|探访河南叶县县衙 感受“古风”之韵|工口实验室网址|超级黄 色a毛片免费播放|欧美色色网|成欢阁入口
12月11日|【冰雪春天】习言道 | 冰天雪地也是金山银山|爽 好舒服 被填满A片视频|亚洲 日韩欧美一区|乳首ゃぼっちゃん的歌词|成人涩涩视屏app免费下载
12月11日|公安机关持续推进海防管理和港航治安保卫|一级片一级片一级片网站|欧美黄在线免费|一级国产黄AV|你懂网站在线……
12月11日,外方人士看中国航展 了解最新技术进步,可以看黄色的网站,刘亦菲换脸性做爰A片,国产高潮无码,大雷露
12月11日,哈尔滨男子雇中巴免费接送游客往返731部队遗址,国产精品iGAO视频网网址不卡,9视频国产1在线观看免费,人人摸人人操天天日,原神做爱在线观看
12月11日|伊朗发生军营枪击事件致5人死亡|黄色网站最新地址|国产特级婬片国产高清视频|一级a视频在线观看播放|千仞雪比基尼游泳衣女装
12月11日,“率真与真实——卡拉瓦乔的艺术世界”展览亮相中国国家博物馆,igao为爱搞点事情,人人操人人干人人射人人爱人操,国产品AA片爽爽视频,7777视频在线
12月11日,陕西发现北宋杨家将驻守古城,一区二区啪啪啪,78m隐藏通道13,www.玖玖爱com,看A級毛片
12月11日,美媒:受高通胀和高利率影响,美国民众信用卡拖欠率持续上升,打扑克又疼又痛的原声,欧美影院性爱,工本口子库可知子伯母全诗原文,av在线
12月11日|最高法审管办负责人解读审判质量管理指标体系|五月综合激情|在线观看极品粉嫩90后国产|国产美女精品一区二区三区|飞霄黄漫
12月11日|每天学习一首古诗词丨2024-3-11 |初次圆房落红视频大全|亚洲一区 在线|色噜噜Aⅴ视频|www,超碰,com
12月11日|(巴黎奥运)启蒙教练谈覃海洋:触底反弹一般人很难做到|色香色欲日本二十一|沙奈朵裸乳被 歪歪视频|美女高潮黄又色高清免费视频软件|撸射久久久久久久
爸爸辅导作业崩溃用石榴砸破孩子脾脏,樊振东年度精彩球|美国芝加哥一住宅内发生大规模枪击事件 致3死5伤 |国产裸体视频91|Chⅰese嫖妓Video老店|甘雨乳液狂飙漫高清壁纸|亚洲一区二区中文字幕导航
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
歼-35A、昊龙航天飞机......中国航展的“硬核国货”有多厉害?详解!
习近平:开创共建“一带一路”更加光明的未来
山西古建筑100问——常家庄园如何见证晋商的辉煌?
厂通路潮白河大桥主桥完成首段钢箱梁吊装
新疆公安机关迅速启动地震救援排险工作
世界青年“蓉”耀汤尤杯 点赞成都城市活力
上海日供水量持续攀升 供水服务平稳有序
第二十六届高交会预约专业观众数量创新高
礼来替尔泊肽实现平均减重20.2% 头对头研究显示优于司美格鲁肽的13.7%
福建福安:产业兴市 以新型工业化推动高质量发展
永久免费毛片视频
午夜影院163
免费av不卡妓在线观看
日日拍拍
操草艹视频人人舔
美女黄毛片
欧美激情性XXXXX高清
小草在线国产美女在线播放
玩乡下黄花小处雏女爽了视频
国产情侣A片A毛片

闽公网安备 35010302000113号