{"ID":2864842,"CreatedAt":"2026-06-01T04:54:23.091178241Z","UpdatedAt":"2026-06-01T04:54:23.091178241Z","DeletedAt":null,"paper_url":"https://arxiv.org/abs/2509.23468","arxiv_id":"2509.23468","title":"Multi-Modal Manipulation via Multi-Modal Policy Consensus","abstract":"Effectively integrating diverse sensory modalities is crucial for robotic manipulation. However, the typical approach of feature concatenation is often suboptimal: dominant modalities such as vision can overwhelm sparse but critical signals like touch in contact-rich tasks, and monolithic architectures cannot flexibly incorporate new or missing modalities without retraining. Our method factorizes the policy into a set of diffusion models, each specialized for a single representation (e.g., vision or touch), and employs a router network that learns consensus weights to adaptively combine their contributions, enabling incremental of new representations. We evaluate our approach on simulated manipulation tasks in {RLBench}, as well as real-world tasks such as occluded object picking, in-hand spoon reorientation, and puzzle insertion, where it significantly outperforms feature-concatenation baselines on scenarios requiring multimodal reasoning. Our policy further demonstrates robustness to physical perturbations and sensor corruption. We further conduct perturbation-based importance analysis, which reveals adaptive shifts between modalities.","short_abstract":"Effectively integrating diverse sensory modalities is crucial for robotic manipulation. However, the typical approach of feature concatenation is often suboptimal: dominant modalities such as vision can overwhelm sparse but critical signals like touch in contact-rich tasks, and monolithic architectures cannot flexibly...","url_abs":"https://arxiv.org/abs/2509.23468","url_pdf":"https://arxiv.org/pdf/2509.23468v3","authors":"[\"Haonan Chen\",\"Jiaming Xu\",\"Hongyu Chen\",\"Kaiwen Hong\",\"Binghao Huang\",\"Chaoqi Liu\",\"Jiayuan Mao\",\"Yunzhu Li\",\"Yilun Du\",\"Katherine Driggs-Campbell\"]","published":"2025-09-27T19:43:04Z","proceeding":"cs.RO","tasks":"[\"cs.RO\",\"cs.AI\",\"cs.LG\"]","methods":"[\"Diffusion Model\"]","has_code":false}