{"ID":2893700,"CreatedAt":"2026-06-01T04:54:23.091178241Z","UpdatedAt":"2026-06-01T04:54:23.091178241Z","DeletedAt":null,"paper_url":"https://arxiv.org/abs/2507.13563","arxiv_id":"2507.13563","title":"Balalaika: Data-Centric, Prosody-Aware Annotation Pipeline for Russian Speech","abstract":"We introduce Balalaika, an open-source, data-centric pipeline for processing audio and producing prosody-aware annotations. It combines semantic VAD for context-preserving segmentation, multi-ASR ensembling with ROVER consensus decoding, while retaining optional word-level timestamps, followed by automatic quality and speaker-purity filtering. The text is further enriched with punctuation restoration, lexical stress and \"\\textipa{e}/\\textipa{He}\" normalization, and IPA phonemes. Using Balalaika, we build a 5.1k-hour multi-source Russian corpus with rich annotations, and show consistent gains under equalized training budgets for both speech denoising and TTS; ablations confirm complementary benefits of stress and punctuation and improved synthesis with stricter MOS filtering. The datasets are publicly available at \\href{https://huggingface.co/collections/lab260/balalaika-dataset}{\\underline{\\textbf{HuggingFace}}}","short_abstract":"We introduce Balalaika, an open-source, data-centric pipeline for processing audio and producing prosody-aware annotations. It combines semantic VAD for context-preserving segmentation, multi-ASR ensembling with ROVER consensus decoding, while retaining optional word-level timestamps, followed by automatic quality and...","url_abs":"https://arxiv.org/abs/2507.13563","url_pdf":"https://arxiv.org/pdf/2507.13563v2","authors":"[\"Kirill Borodin\",\"Nikita Vasiliev\",\"Vasiliy Kudryavtsev\",\"Maxim Maslov\",\"Mikhail Gorodnichev\",\"Grach Mkrtchian\"]","published":"2025-07-17T22:41:40Z","proceeding":"cs.CL","tasks":"[\"cs.CL\",\"cs.SD\",\"eess.AS\"]","methods":"[]","has_code":false}