{"ID":2841813,"CreatedAt":"2026-06-01T04:54:23.091178241Z","UpdatedAt":"2026-06-01T04:54:23.091178241Z","DeletedAt":null,"paper_url":"https://arxiv.org/abs/2511.11450","arxiv_id":"2511.11450","title":"VoxTell: Free-Text Promptable Universal 3D Medical Image Segmentation","abstract":"We introduce VoxTell, a vision-language model for text-prompted volumetric medical image segmentation. It maps free-form descriptions, from single words to full clinical sentences, to 3D masks. Trained on 62K+ CT, MRI, and PET volumes spanning over 1K anatomical and pathological classes, VoxTell uses multi-stage vision-language fusion across decoder layers to align textual and visual features at multiple scales. It achieves state-of-the-art zero-shot performance across modalities on unseen datasets, excelling on familiar concepts while generalizing to related unseen classes. Extensive experiments further demonstrate strong cross-modality transfer, robustness to linguistic variations and clinical language, as well as accurate instance-specific segmentation from real-world text. Code is available at: https://www.github.com/MIC-DKFZ/VoxTell","short_abstract":"We introduce VoxTell, a vision-language model for text-prompted volumetric medical image segmentation. It maps free-form descriptions, from single words to full clinical sentences, to 3D masks. Trained on 62K+ CT, MRI, and PET volumes spanning over 1K anatomical and pathological classes, VoxTell uses multi-stage vision...","url_abs":"https://arxiv.org/abs/2511.11450","url_pdf":"https://arxiv.org/pdf/2511.11450v1","authors":"[\"Maximilian Rokuss\",\"Moritz Langenberg\",\"Yannick Kirchhoff\",\"Fabian Isensee\",\"Benjamin Hamm\",\"Constantin Ulrich\",\"Sebastian Regnery\",\"Lukas Bauer\",\"Efthimios Katsigiannopulos\",\"Tobias Norajitra\",\"Klaus Maier-Hein\"]","published":"2025-11-14T16:20:07Z","proceeding":"cs.CV","tasks":"[\"cs.CV\",\"cs.LG\"]","methods":"[\"Language Model\"]","has_code":false}