sadernoheart：很多人问我如何入门GPU编程，说实话，我当初是摸着石头

sadernoheart：很多人问我如何入门GPU编程，说实话，我当初是摸着石头过河，没什么明确路线和资源。经过一段时间摸索，现在总结一套高效入门方案，分享给你们：

1. 扎实C/C++基础

先把指针、内存管理、结构体、函数、语法和流程控制搞透。CUDA基于C++，这部分打牢了学CUDA会轻松很多。线性代数基础（矩阵乘法、向量运算）也很重要，能帮你快速理解计算过程。

2. 阅读经典书籍

虽然不爱啃书，但《PMMP》和《Professional CUDA C Programming》值得一看，哪怕扫一遍也好。它们帮你建立整体认知，掌握关键术语和核心概念。

3. Elliot Arledge的CUDA课程

Elliot Arledge的12小时CUDA课程很密集，内容丰富。如果时间有限，可以直接看他的课程，甚至可以跳过书本。课程结构严谨，是快速入门和回顾的宝藏。

视频：youtu.be/86FAWCzIe_4?si=QWh3N8c51JFlYdKv

4. 性能优化必读资料

推荐一系列深度文章，覆盖CUDA矩阵乘法优化、超越cuBLAS性能、LLM推理确定性、深度学习加速原理、Transformer推理算术、AI推理硬件架构等。理解性能瓶颈和硬件协同设计至关重要。

• How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: siboehm.com/articles/22/CUDA-MMM

• Outperforming cuBLAS on H100: a Worklog: cudaforfun.substack.com/p/outperforming-cublas-on-h100-a-worklog

• Defeating Nondeterminism in LLM Inference: thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

• Making Deep Learning go Brrrr From First Principles: horace.io/brrr_intro.html

• Transformer Inference Arithmetic: kipp.ly/transformer-inference-arithmetic/

• Domain specific architectures for AI inference: fleetwood.dev/posts/domain-specific-architectures• A postmortem of three recent issues: anthropic.com/engineering/a-postmortem-of-three-recent-issues

• How To Scale Your Model: jax-ml.github.io/scaling-book/

• The Ultra-Scale Playbook: huggingface.co/spaces/nanotron/ultrascale-playbook

• The Case for Co-Designing Model Architectures with Hardware: arxiv.org/abs/2401.14489

5. 实战演练：LeetGPU

LeetGPU 提供丰富CUDA、Triton、PyTorch、Mojo和CuTeDSL题目，配备T4、A100、H100等GPU实操环境。实战才能提升技能。另有Tensara，大家可以对比选择。

总结：入门GPU编程没有捷径，关键是持续学习和实践，别被外界声音干扰，埋头干活就对了。

更多资源和讨论见原推文：x.com/sadernoheart/status/1987491712374038970

附加思考：GPU编程从零开始像拼装没有说明书的家具，过程中充满试错和迷茫，但一旦运行流畅，你会感受到“弯曲物理定律”的成就感，这种体验让人上瘾。学习不仅是技术积累，更是对计算和硬件深度理解的锻炼。建议结合社区挑战和同行交流，提升效率和动力。

0 阅读：0

sadernoheart：很多人问我如何入门GPU编程，说实话，我当初是摸着石头

程序员特意留的后手bug

AI算力危机真的来了，英伟达GPU产能爆炸却面临两大困境：1.微软囤积大量H

一个很尴尬的事实，iPhone17Air销量严重扑街，甚至比iPhone16Pl

为避免美国白嫖怪拿自家开源AI套牌去融资，KimiK2修改了开源License

不想升IOS26系统的苹果用户看过来了：IoS18.7.2可能是你苹果手机最好的

电力紧缺“卡”住AI算力？智能电网赛道集体站上风口当微软的GPU因“电力不够”

果不其然！英国《金融时报》报道，中国正在测试首台国产深紫外（DUV）光刻机，用于