{"ID":2868106,"CreatedAt":"2026-06-01T04:54:23.091178241Z","UpdatedAt":"2026-06-01T04:54:23.091178241Z","DeletedAt":null,"paper_url":"https://arxiv.org/abs/2509.16994","arxiv_id":"2509.16994","title":"Attentive AV-FusionNet: Audio-Visual Quality Prediction with Hybrid Attention","abstract":"We introduce a novel deep learning-based audio-visual quality (AVQ) prediction model that leverages internal features from state-of-the-art unimodal predictors. Unlike prior approaches that rely on simple fusion strategies, our model employs a hybrid representation that combines learned Generative Machine Listener (GML) audio features with hand-crafted Video Multimethod Assessment Fusion (VMAF) video features. Attention mechanisms capture cross-modal interactions and intra-modal relationships, yielding context-aware quality representations. A modality relevance estimator quantifies each modality's contribution per content, potentially enabling adaptive bitrate allocation. Experiments demonstrate improved AVQ prediction accuracy and robustness across diverse content types.","short_abstract":"We introduce a novel deep learning-based audio-visual quality (AVQ) prediction model that leverages internal features from state-of-the-art unimodal predictors. Unlike prior approaches that rely on simple fusion strategies, our model employs a hybrid representation that combines learned Generative Machine Listener (GML...","url_abs":"https://arxiv.org/abs/2509.16994","url_pdf":"https://arxiv.org/pdf/2509.16994v2","authors":"[\"Ina Salaj\",\"Arijit Biswas\"]","published":"2025-09-21T09:25:09Z","proceeding":"eess.AS","tasks":"[\"eess.AS\",\"cs.MM\",\"eess.IV\"]","methods":"[]","has_code":false}