# CUDA Agent：大规模智能体强化学习用于高性能CUDA内核生成

GPU核心优化对现代深度学习至关重要，但仍然是一项需要深入硬件专业知识的高度专业化任务。尽管大语言模型（LLMs）在通用编程中表现强劲，但在CUDA核心生成方面仍不具竞争力，不如torch.compile等基于编译器的系统。现有的CUDA代码生成方法要么依赖于无需训练的改进，要么在固定的多轮执行反馈循环内微调模型，但两种范式都无法从根本上提升模型内在的CUDA优化能力，导致性能提升有限。我们提出CUDA Agent，一个大规模智能体强化学习系统，通过三个组件开发CUDA核心专业知识：可扩展的数据合成管道、具有自动化验证和性能分析的技能增强型CUDA开发环境以提供可靠的奖励信号，以及支持稳定训练的强化学习算法技术。CUDA Agent在KernelBench上取得了最先进的结果，在KernelBench Level-1、Level-2和Level-3分项上分别比torch.compile快100%、100%和92%，在最困难的Level-3设置上比Claude Opus 4.5和Gemini 3 Pro等最强专有模型的性能高约40%。