{"ID":2847827,"CreatedAt":"2026-06-01T04:54:23.091178241Z","UpdatedAt":"2026-06-01T04:54:23.091178241Z","DeletedAt":null,"paper_url":"https://arxiv.org/abs/2511.00088","arxiv_id":"2511.00088","title":"Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail","abstract":"End-to-end architectures trained via imitation learning have advanced autonomous driving by scaling model size and data, yet performance remains brittle in safety-critical long-tail scenarios where supervision is sparse and causal understanding is limited. We introduce Alpamayo-R1 (AR1), a vision-language-action model (VLA) that integrates Chain of Causation reasoning with trajectory planning for complex driving scenarios. Our approach features three key innovations: (1) the Chain of Causation (CoC) dataset, built through a hybrid auto-labeling and human-in-the-loop pipeline producing decision-grounded, causally linked reasoning traces aligned with driving behaviors; (2) a modular VLA architecture combining Cosmos-Reason, a vision-language model pre-trained for Physical AI, with a diffusion-based trajectory decoder that generates dynamically feasible trajectories in real time; (3) a multi-stage training strategy using supervised fine-tuning to elicit reasoning and reinforcement learning (RL) to enforce reasoning-action consistency and optimize reasoning quality. AR1 achieves up to a 12% improvement in planning accuracy on challenging cases compared to a trajectory-only baseline, with a 35% reduction in close encounter rate in closed-loop simulation. RL post-training improves reasoning quality by 45% and reasoning-action consistency by 37%. Model scaling from 0.5B to 7B parameters shows consistent improvements. On-vehicle road tests confirm real-time performance (99 ms latency) and successful urban deployment. By bridging interpretable reasoning with precise control, AR1 demonstrates a practical path towards Level 4 autonomous driving. Model weights are available at https://huggingface.co/nvidia/Alpamayo-R1-10B with inference code at https://github.com/NVlabs/alpamayo.","short_abstract":"End-to-end architectures trained via imitation learning have advanced autonomous driving by scaling model size and data, yet performance remains brittle in safety-critical long-tail scenarios where supervision is sparse and causal understanding is limited. We introduce Alpamayo-R1 (AR1), a vision-language-action model...","url_abs":"https://arxiv.org/abs/2511.00088","url_pdf":"https://arxiv.org/pdf/2511.00088v2","authors":"[\"NVIDIA\",\":\",\"Yan Wang\",\"Wenjie Luo\",\"Junjie Bai\",\"Yulong Cao\",\"Tong Che\",\"Ke Chen\",\"Yuxiao Chen\",\"Jenna Diamond\",\"Yifan Ding\",\"Wenhao Ding\",\"Liang Feng\",\"Greg Heinrich\",\"Jack Huang\",\"Peter Karkus\",\"Boyi Li\",\"Pinyi Li\",\"Tsung-Yi Lin\",\"Dongran Liu\",\"Ming-Yu Liu\",\"Langechuan Liu\",\"Zhijian Liu\",\"Jason Lu\",\"Yunxiang Mao\",\"Pavlo Molchanov\",\"Lindsey Pavao\",\"Zhenghao Peng\",\"Mike Ranzinger\",\"Ed Schmerling\",\"Shida Shen\",\"Yunfei Shi\",\"Sarah Tariq\",\"Ran Tian\",\"Tilman Wekel\",\"Xinshuo Weng\",\"Tianjun Xiao\",\"Eric Yang\",\"Xiaodong Yang\",\"Yurong You\",\"Xiaohui Zeng\",\"Wenyuan Zhang\",\"Boris Ivanovic\",\"Marco Pavone\"]","published":"2025-10-30T01:25:34Z","proceeding":"cs.RO","tasks":"[\"cs.RO\",\"cs.AI\",\"cs.LG\"]","methods":"[\"Reinforcement Learning\",\"Diffusion Model\",\"Language Model\"]","has_code":false,"code_links":[{"ID":607562,"CreatedAt":"2026-06-01T04:54:23.091178241Z","UpdatedAt":"2026-06-01T04:54:23.091178241Z","DeletedAt":null,"paper_id":2847827,"paper_url":"https://arxiv.org/abs/2511.00088","paper_title":"Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail","repo_url":"https://github.com/NVlabs/alpamayo","is_official":false,"mentioned_in_paper":false,"mentioned_in_github":true,"github_stars":0}]}