Hugging Face Daily Papers · May 25, 2026 · 5 min read

StepAudio 2.5 Technical Report

Mirrored from Hugging Face Daily Papers for archival readability. Support the source by reading on the original site.

Like Read original ↗

This report presents StepAudio 2.5, a unified audiolanguage foundation model that matches or exceeds specialized systems across all three capabilities.</p>\n","updatedAt":"2026-05-25T02:50:06.188Z","author":{"_id":"66518fd07d8cb2629a514c18","avatarUrl":"/avatars/6280b33a6b1532ee938afd4aa303f709.svg","fullname":"Yang","name":"giantPanda0906","type":"user","isPro":false,"isHf":false,"isHfAdmin":false,"isMod":false,"followerCount":5,"isUserFollowing":false}},"numEdits":0,"identifiedLanguage":{"language":"en","probability":0.8855815529823303},"editors":["giantPanda0906"],"editorAvatarUrls":["/avatars/6280b33a6b1532ee938afd4aa303f709.svg"],"reactions":[],"isReport":false}}],"primaryEmailConfirmed":false,"paper":{"id":"2605.23463","authors":[{"_id":"6a13b8c64d9e8d8602d20233","name":"Bin Lin","hidden":false},{"_id":"6a13b8c64d9e8d8602d20234","name":"Bo Zhao","hidden":false},{"_id":"6a13b8c64d9e8d8602d20235","name":"Boyong Wu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20236","name":"Chao Yan","hidden":false},{"_id":"6a13b8c64d9e8d8602d20237","name":"Chen Wu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20238","name":"Cheng Yi","hidden":false},{"_id":"6a13b8c64d9e8d8602d20239","name":"Chengyuan Yao","hidden":false},{"_id":"6a13b8c64d9e8d8602d2023a","name":"Daijiao Liu","hidden":false},{"_id":"6a13b8c64d9e8d8602d2023b","name":"Fei Tian","hidden":false},{"_id":"6a13b8c64d9e8d8602d2023c","name":"Feng Tian","hidden":false},{"_id":"6a13b8c64d9e8d8602d2023d","name":"Haiyang Sun","hidden":false},{"_id":"6a13b8c64d9e8d8602d2023e","name":"Haoyang Zhang","hidden":false},{"_id":"6a13b8c64d9e8d8602d2023f","name":"Jiangjie Zhen","hidden":false},{"_id":"6a13b8c64d9e8d8602d20240","name":"Jinglan Gong","hidden":false},{"_id":"6a13b8c64d9e8d8602d20241","name":"Jun Chen","hidden":false},{"_id":"6a13b8c64d9e8d8602d20242","name":"Li Xie","hidden":false},{"_id":"6a13b8c64d9e8d8602d20243","name":"Peilin Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d20244","name":"Peng Yang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20245","name":"Pengfei Tan","hidden":false},{"_id":"6a13b8c64d9e8d8602d20246","name":"Qingjian Lin","hidden":false},{"_id":"6a13b8c64d9e8d8602d20247","name":"Runze Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d20248","name":"Shenghua Hu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20249","name":"Siyi Zhou","hidden":false},{"_id":"6a13b8c64d9e8d8602d2024a","name":"Wenwen Qu","hidden":false},{"_id":"6a13b8c64d9e8d8602d2024b","name":"Xiangyu Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d2024c","name":"Xiangyu Tony Zhang","hidden":false},{"_id":"6a13b8c64d9e8d8602d2024d","name":"Xuerui Yang","hidden":false},{"_id":"6a13b8c64d9e8d8602d2024e","name":"Yang Yang","hidden":false},{"_id":"6a13b8c64d9e8d8602d2024f","name":"Yechang Huang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20250","name":"Yu Fu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20251","name":"Yuchu Luo","hidden":false},{"_id":"6a13b8c64d9e8d8602d20252","name":"Yuxin Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d20253","name":"Yuxin Zhang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20254","name":"Zhengyan Sheng","hidden":false},{"_id":"6a13b8c64d9e8d8602d20255","name":"Brian Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d20256","name":"Chang Zeng","hidden":false},{"_id":"6a13b8c64d9e8d8602d20257","name":"Changlin Zhang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20258","name":"Chen Geng","hidden":false},{"_id":"6a13b8c64d9e8d8602d20259","name":"Chenghao Dong","hidden":false},{"_id":"6a13b8c64d9e8d8602d2025a","name":"Chengli Feng","hidden":false},{"_id":"6a13b8c64d9e8d8602d2025b","name":"Dan Zhou","hidden":false},{"_id":"6a13b8c64d9e8d8602d2025c","name":"Danni Wan","hidden":false},{"_id":"6a13b8c64d9e8d8602d2025d","name":"Di Chen","hidden":false},{"_id":"6a13b8c64d9e8d8602d2025e","name":"Die Zhang","hidden":false},{"_id":"6a13b8c64d9e8d8602d2025f","name":"Dongqing Pang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20260","name":"Guanglong Yang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20261","name":"Guoqiang Hu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20262","name":"Huangxi Zhu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20263","name":"Jianzheng Gao","hidden":false},{"_id":"6a13b8c64d9e8d8602d20264","name":"Jinghua Liang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20265","name":"Jinmei Wan","hidden":false},{"_id":"6a13b8c64d9e8d8602d20266","name":"Junjie Yuan","hidden":false},{"_id":"6a13b8c64d9e8d8602d20267","name":"Kang An","hidden":false},{"_id":"6a13b8c64d9e8d8602d20268","name":"Lei Lei","hidden":false},{"_id":"6a13b8c64d9e8d8602d20269","name":"Limin Zhong","hidden":false},{"_id":"6a13b8c64d9e8d8602d2026a","name":"Lun Cai","hidden":false},{"_id":"6a13b8c64d9e8d8602d2026b","name":"Mengqiang Ren","hidden":false},{"_id":"6a13b8c64d9e8d8602d2026c","name":"Min Xu","hidden":false},{"_id":"6a13b8c64d9e8d8602d2026d","name":"Mingliang Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d2026e","name":"Mingxiao Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d2026f","name":"Na Wang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20270","name":"Qiang Tong","hidden":false},{"_id":"6a13b8c64d9e8d8602d20271","name":"Qiaoling Huang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20272","name":"Qingfu Du","hidden":false},{"_id":"6a13b8c64d9e8d8602d20273","name":"Rui Wang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20274","name":"Shengchen Zhou","hidden":false},{"_id":"6a13b8c64d9e8d8602d20275","name":"Shi Qiu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20276","name":"Shihao Peng","hidden":false},{"_id":"6a13b8c64d9e8d8602d20277","name":"Shiliang Yang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20278","name":"Siqi Tu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20279","name":"Tianjiao Deng","hidden":false},{"_id":"6a13b8c64d9e8d8602d2027a","name":"Ting Xu","hidden":false},{"_id":"6a13b8c64d9e8d8602d2027b","name":"Tong Wang","hidden":false},{"_id":"6a13b8c64d9e8d8602d2027c","name":"WeiMing Niu","hidden":false},{"_id":"6a13b8c64d9e8d8602d2027d","name":"Wuxun Xie","hidden":false},{"_id":"6a13b8c64d9e8d8602d2027e","name":"Xianwei Zhang","hidden":false},{"_id":"6a13b8c64d9e8d8602d2027f","name":"Xianyu Feng","hidden":false},{"_id":"6a13b8c64d9e8d8602d20280","name":"Xiaojia Liu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20281","name":"Xing Chen","hidden":false},{"_id":"6a13b8c64d9e8d8602d20282","name":"Xiongbin Wu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20283","name":"Yan Wu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20284","name":"Yang Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d20285","name":"Yi Liu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20286","name":"Yifan Zhang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20287","name":"Yile Liu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20288","name":"Yongshen Long","hidden":false},{"_id":"6a13b8c64d9e8d8602d20289","name":"Yu Luo","hidden":false},{"_id":"6a13b8c64d9e8d8602d2028a","name":"Yuanhao Ding","hidden":false},{"_id":"6a13b8c64d9e8d8602d2028b","name":"Yuhao Wang","hidden":false},{"_id":"6a13b8c64d9e8d8602d2028c","name":"Yuhe Yin","hidden":false},{"_id":"6a13b8c64d9e8d8602d2028d","name":"Yunfang Xu","hidden":false},{"_id":"6a13b8c64d9e8d8602d2028e","name":"Yuxiang Yang","hidden":false},{"_id":"6a13b8c64d9e8d8602d2028f","name":"Zhiguo Huang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20290","name":"Zhiyue Wu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20291","name":"Zichao Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d20292","name":"Zichao Zhou","hidden":false},{"_id":"6a13b8c64d9e8d8602d20293","name":"Daxin Jiang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20294","name":"Future Li","hidden":false},{"_id":"6a13b8c64d9e8d8602d20295","name":"Gang Yu","hidden":false},{"_id":"6a13b8c64d9e8d8602d20296","name":"Xiangyu Zhang","hidden":false},{"_id":"6a13b8c64d9e8d8602d20297","name":"Yibo Zhu","hidden":false}],"publishedAt":"2026-05-22T00:00:00.000Z","submittedOnDailyAt":"2026-05-25T00:00:00.000Z","title":"StepAudio 2.5 Technical Report","submittedOnDailyBy":{"_id":"66518fd07d8cb2629a514c18","avatarUrl":"/avatars/6280b33a6b1532ee938afd4aa303f709.svg","isPro":false,"fullname":"Yang","user":"giantPanda0906","type":"user","name":"giantPanda0906"},"summary":"Unified audio-language modeling has emerged as a prominent trend in modern speech systems, promising to bring the reasoning capabilities of large language models to auditory tasks. However, existing unified foundations often struggle to match the depth of specialized systems across automatic speech recognition (ASR), text-to-speech synthesis (TTS), and realtime spoken interaction. Bridging this gap remains an open challenge. This report presents StepAudio 2.5, a unified audio-language foundation model that matches or exceeds specialized systems across all three capabilities. Rather than treating these tasks as architecturally distinct, we operate on the premise that once text and audio share a multimodal representational space, task specialization becomes a matter of operational regimes: data construction, optimization targets, and decoding constraints. Guided by this insight, we advance the post-training paradigm from standard supervised learning to task-tailored Reinforcement Learning from Human Feedback (RLHF), using it as the primary mechanism to define complex optimization targets. We leverage this RLHF-centric alignment, alongside specialized decoding, to shape a shared backbone into three distinct operational modes. Concretely, the ASR branch advances transcription efficiency via verifiable multi-token decoding; the TTS branch achieves controllable, expressive synthesis through preference-based RLHF and context-rich supervision; and the Realtime branch realizes low-latency, persona-consistent dialogue via generative reward modeling within an RLHF framework. On standard benchmarks, StepAudio 2.5 achieves state-of-the-art results across ASR, TTS, and Realtime, demonstrating that a singular audio-language foundation can successfully internalize the distinct deployment objectives of speech understanding, generation, and live interaction.","upvotes":30,"discussionId":"6a13b8c64d9e8d8602d20298","ai_summary":"StepAudio 2.5 is a unified audio-language model that matches specialized systems in ASR, TTS, and real-time spoken interaction by using task-tailored reinforcement learning from human feedback to optimize shared representations across different operational modes.","ai_keywords":["unified audio-language modeling","automatic speech recognition","text-to-speech synthesis","real-time spoken interaction","post-training paradigm","Reinforcement Learning from Human Feedback","RLHF","multimodal representational space","task-tailored optimization","verifiable multi-token decoding","preference-based RLHF","generative reward modeling"]},"canReadDatabase":false,"canManagePapers":false,"canSubmit":false,"hasHfLevelAccess":false,"upvoted":false,"upvoters":[{"_id":"66518fd07d8cb2629a514c18","avatarUrl":"/avatars/6280b33a6b1532ee938afd4aa303f709.svg","isPro":false,"fullname":"Yang","user":"giantPanda0906","type":"user"},{"_id":"690c095c10e266fbef92d031","avatarUrl":"/avatars/ab4f2696358a0a036e40562c3f991d3a.svg","isPro":false,"fullname":"yifanaudio","user":"zjjbzyf","type":"user"},{"_id":"6925a4b3097da9cf89390456","avatarUrl":"/avatars/a926a11436d837bbe06f8d75ce207f17.svg","isPro":false,"fullname":"FeiTian","user":"FeiTia","type":"user"},{"_id":"67aeb3a4820d941aab225178","avatarUrl":"https://cdn-avatars.huggingface.co/v1/production/uploads/no-auth/1BII4nBQiT-rG2kUwXM6V.png","isPro":false,"fullname":"chao yan","user":"yanchaomars","type":"user"},{"_id":"6040987bf84ebe399f1c85d8","avatarUrl":"/avatars/a2947c03c9d744dfdbb92678c9970c3f.svg","isPro":false,"fullname":"小明","user":"xiaoming","type":"user"},{"_id":"65938660dfca9fad61c4ec63","avatarUrl":"/avatars/760288be99efdd9bd28160f1ed51162b.svg","isPro":false,"fullname":"zhong chen","user":"dabuside","type":"user"},{"_id":"65a897775e49cc9fdc6ad65a","avatarUrl":"/avatars/a8201e0716b4aa8e4461eeb4f1480148.svg","isPro":false,"fullname":"yue","user":"tianchi007","type":"user"},{"_id":"64a682841e147815fbc78e19","avatarUrl":"/avatars/7d600b1a0b1ee9798b91a7a20d843901.svg","isPro":false,"fullname":"luozimeng","user":"luozimeng","type":"user"},{"_id":"692807f75181f68b031a0d0c","avatarUrl":"/avatars/67229605aff54214cad13785fd8ff9f0.svg","isPro":false,"fullname":"Jun Chen","user":"RookieJune","type":"user"},{"_id":"65995f7eb0c5357368ffdf5a","avatarUrl":"/avatars/89e22eb8ee995df239d1ed6c2cdbce61.svg","isPro":false,"fullname":"starlightlmy","user":"starlightlmy","type":"user"},{"_id":"660ab1edf36ab0a44695d232","avatarUrl":"/avatars/5e2e6f9050237e51d9fe5d970412d3d5.svg","isPro":false,"fullname":"JosueLin","user":"JosueLin7","type":"user"},{"_id":"6463554dd2044cd1d7c6e0bf","avatarUrl":"/avatars/d7653623117268c545a7063fec69664b.svg","isPro":false,"fullname":"Bingzheng Wei","user":"Bingzheng","type":"user"}],"acceptLanguages":["en"],"dailyPaperRank":0,"markdownContentUrl":"https://huggingface.co/buckets/huggingchat/papers-content/resolve/2605/2605.23463.md"}">

Papers

arxiv:2605.23463

StepAudio 2.5 Technical Report

Published on May 22

· Submitted by

Yang on May 25

Upvote

Authors:

Abstract

StepAudio 2.5 is a unified audio-language model that matches specialized systems in ASR, TTS, and real-time spoken interaction by using task-tailored reinforcement learning from human feedback to optimize shared representations across different operational modes.

AI-generated summary

Unified audio-language modeling has emerged as a prominent trend in modern speech systems, promising to bring the reasoning capabilities of large language models to auditory tasks. However, existing unified foundations often struggle to match the depth of specialized systems across automatic speech recognition (ASR), text-to-speech synthesis (TTS), and realtime spoken interaction. Bridging this gap remains an open challenge. This report presents StepAudio 2.5, a unified audio-language foundation model that matches or exceeds specialized systems across all three capabilities. Rather than treating these tasks as architecturally distinct, we operate on the premise that once text and audio share a multimodal representational space, task specialization becomes a matter of operational regimes: data construction, optimization targets, and decoding constraints. Guided by this insight, we advance the post-training paradigm from standard supervised learning to task-tailored Reinforcement Learning from Human Feedback (RLHF), using it as the primary mechanism to define complex optimization targets. We leverage this RLHF-centric alignment, alongside specialized decoding, to shape a shared backbone into three distinct operational modes. Concretely, the ASR branch advances transcription efficiency via verifiable multi-token decoding; the TTS branch achieves controllable, expressive synthesis through preference-based RLHF and context-rich supervision; and the Realtime branch realizes low-latency, persona-consistent dialogue via generative reward modeling within an RLHF framework. On standard benchmarks, StepAudio 2.5 achieves state-of-the-art results across ASR, TTS, and Realtime, demonstrating that a singular audio-language foundation can successfully internalize the distinct deployment objectives of speech understanding, generation, and live interaction.

View arXiv page View PDF Add to collection

Community

giantPanda0906

Paper submitter about 8 hours ago

This report presents StepAudio 2.5, a unified audiolanguage foundation model that matches or exceeds specialized systems across all three capabilities.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment

Upvote

Get this paper in your agent:

hf papers read 2605.23463

Don't have the latest CLI?

curl -LsSf https://hf.co/cli/install.sh | bash

Models citing this paper 0

No model linking this paper

Cite arxiv.org/abs/2605.23463 in a model README.md to link it from this page.

Datasets citing this paper 0

No dataset linking this paper

Cite arxiv.org/abs/2605.23463 in a dataset README.md to link it from this page.

Spaces citing this paper 0

No Space linking this paper

Cite arxiv.org/abs/2605.23463 in a Space README.md to link it from this page.

Collections including this paper 0

No Collection including this paper

Add this paper to a collection to link it from this page.

Discussion (0)

No comments yet. Sign in and be the first to say something.

StepAudio 2.5 Technical Report

Abstract

Community

Models citing this paper 0

Datasets citing this paper 0

Spaces citing this paper 0

Collections including this paper 0

Discussion (0)

More from Hugging Face Daily Papers