首页
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
GPU编程变天了。
英伟达宣布最新版CUDA 13.1,官方直接定性:这是自2006年降生以来最大的前进。
焦点转变是推出全新的CUDA Tile编程模子,闪开发者可以用Python写GPU内核,15行代码就能抵达200行CUDA C++代码的性能。
新闻一出,芯片界传奇人物Jim Keller连忙发问:
英伟达是不是亲手终结了CUDA的“护城河”?若是英伟达也转向Tile模子,AI内核将更容易移植到其他硬件上。
Jim Keller加入设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的”硅仙人”,他的判断在行业里相当有分量。
那么问题来了:CUDA这次究竟改了什么?为什么会被以为是”自毁长城”?
GPU编程范式从“线程”到“瓦片”
要明确这次更新的意义,得先回首一下古板CUDA编程有多折磨人。
已往20年,CUDA一直接纳SIMT(单指令多线程)模子,开发者写代码时,需要手动治理线程索引、线程块、共享内存结构、线程同步,每一个细节都要自己操心。
想要充分使用GPU性能,特殊是用上Tensor Core这类专用?,更是需要深挚的履历积累。
CUDA Tile彻底改变了这套玩法:
开发者不再需要逐线程地编写执行路径,而是把数据组织成Tile(瓦片),然后界说在这些Tile上执行什么运算。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
就似乎NumPy之于Python。
英伟达为此构建了两个焦点组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间加了一层笼统,确;赥ile编写的代码能在差别代际的GPU上运行,从目今的Blackwell到未来的架构都能兼容。
cuTile Python则是面向开发者的接口,直接用Python写GPU内核,门槛一下子从“HPC专家“降到了”会写Python的数据科学家都可以干。
另外,这次更新还带来了一系列面向Blackwell的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功效新增的Grouped GEMM API在MoE(混淆专家模子)场景下能实现高达4倍加速cuSOLVER的批处置惩罚特征剖析在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升开发者工具Nsight Compute新增了对CUDA Tile内核的性能剖析支持,可以把性能指标直接映射回cuTile Python源代码。
现在CUDA Tile仅支持Blackwell架构(盘算能力10.x和12.x),开发重点集中在AI算法上。英伟达体现未来会扩展到更多架构,并推出C++实现。
硅仙人的质疑:降低门槛是一把双刃剑
那么Jim Keller为什么说英伟达可能”终结了自己的护城河”?
要害就在于Tile编程模子不是英伟达独吞的。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程笼统。
已往CUDA难以移植,很洪流平上是由于SIMT模子与英伟达硬件深度绑定,开发者要针对详细的GPU架构手写优化代码。这些代码换到别家硬件上,要么跑不了,要么性能大打折扣。
但Tile模子自然具有更高的笼统条理。当开发者习惯了“只管界说Tile运算,硬件细节交给编译器”这种头脑方法后,理论上统一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:”AI内核将更容易移植。”
不过英伟达也思量了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建设在CUDA平台之上的。
开发者写的代码确实更容易移植了,但移植的目的是英伟达自家的差别代GPU,而非竞争敌手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁徙到下一代英伟达GPU,但要迁徙到AMD或Intel的平台上,依然需要重写。
不管护城河是加深照旧削弱,有一点是确定的:GPU编程的门槛确着实大幅降低。
已往能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人一抓一大把,但能把代码优化到跑满Tensor Core的专家寥若晨星。
CUDA Tile和cuTile Python买通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
大宗数据科学家和AI研究者以后可以直接上手写高性能GPU代码,不必再等HPC专家来资助优化。
参考链接:[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware[2]https://x.com/jimkxa/status/1997732089480024498
《雏田爆乳被》,《Q8X2R7L1T4J5M9B6W3》国产在线观看公司
“一级黄色网站黄A片”
巨屌在线
……
12月16日
“欧美性爱A片毛茸茸”英雄联盟 蓝色联盟
↓↓↓
12月16日,广州市政协常委霍启文建议南沙建国际人才特区,黄色网站福利视频,8050午夜少妇一级,91馃崋馃崋馃崒馃崒,鸥美特级黄色片
12月16日,以色列特拉维夫一辆卡车冲向人群 至少40人受伤,国语黄色视频,免费播黄网站,欧美小说沦乱小说乱色,未满十八禁止免费网址
12月16日,广东茂名游子归故里 “籺”是最难忘,日本黄色网网站,黄黄网站免费视频,日日干夜夜夜操,中文字幕在线免费 播放
12月16日|各地积极扩大有效益投资 为经济持续回升向好提供支撑|免费播放观看A片在线视频|真空巨乳|日本三级片网站免费观看|黄色大片操逼视频
12月16日|新疆霍尔果斯铁路口岸通行中欧(中亚)班列突破4万列|免费一级A片无码视频|又黄又刺激又高潮的视频网站|农村一级国产特黄视频国产一级特黄片视频一级黄片视频农|丝袜日韩精品中文字幕一区
12月16日|“五一”假期海南离岛免税购物金额5.47亿元|日韩 精品在线观看|欧美老妇B|视频一区二区在线播放|中日韩农村美女黄色免费网站在线视频……
12月16日,【文化中国行】旧厂故宅中的家国情,传承不息的中华魂,黄色网站av在看,强奸乱论一级视频,人人尻人人摸人人操人人看,麻豆强奸乱伦
12月16日,共享单车价格都快贵过地铁了,但共享单车运营企业还在亏本?,欧美一级A片不卡免费观看,AV漫画18禁,先锋影音av资源站,老熟女搡小伙子HD另类
12月16日|2024亚洲种子大会在三亚举办 促进种业国际贸易交流|草 榴 论 坛 最新地址|丝袜福利视频一区二区三区|青色大脑正版安装包下载最新版本|语文课代表哭着说别再继续了视频
12月16日,河北青龙:“莓”好时节采收忙,海角邻居少妇,日韩在线精品小视频,在线无码网址,性爱视频网站入口
12月16日,腊八将至年味渐浓 山东商河:红红火火 美好寓意促红掌热销,精品亚洲Av无码一区二区三区在线,久久艹逼,8x8ⅹ拨闸拨闸拨闸,www.sxpxks.com
12月16日,一些药贩子“高价收药”,诱导参保人参与药品买卖,91苏州晶体,97人人模人人爽人人少妇,totakyalax sikixix,91无码
12月16日|数读中国 | 中国制造向“高”攀登 彰显高质量发展坚实底气|18禁止亚洲深夜福利入口|天堂在线欧美WWW|国外AV激情网|日本熟妇乱人伦A片免费高清
12月16日|“宪法人生 与检同行”国家宪法日主题活动在京举行|人人干视频精品|美国 XXxX人|久操综合旧址网|一级a毛片做片性视频
12月16日|“向天路 看发展——青藏、川藏公路通车70周年”主题采访活动正式启程|美女胸乳 裸露网站中国|一级片电影|钰慧的mv视频在线观看|亚洲一级免费视频
养育者 第一季,黎巴嫩看守政府召开紧急会|高原医学研究中心在青海启动|秋瓷炫与黑鬼的Av|免费A片吃奶玩乳视频出水|精品A片久久久久久网一区|黄片三级片啊啊啊啊啊….不要
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
“启帆计划”跨年沙龙举行:产融共生 科创赋能
【洋腔队】以汉为名:跨越大洋的汉语教学之旅
中国新能源汽车首破年度1000万辆
云南野生动物园大熊猫“珍多”迎来十岁生日
四川雅江:因泥石流中断的国道318公路全幅抢通
宁夏整治教育领域不正之风 2023年自查整改问题4500余个
2024“港澳台侨企业服务年”人力资源赋能活动在扬州举行
吉林将选派一批“科创专员”协助企业创新发展
韩媒:韩国政府将调派军医来弥补医疗空缺
中俄两家花样滑冰俱乐部达成合作
18岁禁入黄色网站
一级黄在线观看
美女打开双腿 蓝莓视频
插入女生下面视频
又湿又紧又爽视频免费观看
高清无码黄
免费看黄色网站大全
国产在线看AV不卡无码网站免费
9.1n.crm
精品国产aaaaaaaaa污污污

闽公网安备 35010302000113号