Hugging Face Daily Papers · June 12, 2026 · 3 min read

ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

#model-release #multimodal #agents #reasoning #security

Mirrored from Hugging Face Daily Papers for archival readability. Support the source by reading on the original site.

Like Read original ↗

An agentic framework for enhancing multimodal medical reasoning in Indian Languages.</p>\n","updatedAt":"2026-06-12T09:54:51.794Z","author":{"_id":"630e850c3fc17ffc50f752e5","avatarUrl":"/avatars/43e4aee228323211b8cf55b783cc54d2.svg","fullname":"Akash Ghosh","name":"Agcs12","type":"user","isPro":false,"isHf":false,"isHfAdmin":false,"isMod":false,"isUserFollowing":false}},"numEdits":0,"identifiedLanguage":{"language":"en","probability":0.8078284859657288},"editors":["Agcs12"],"editorAvatarUrls":["/avatars/43e4aee228323211b8cf55b783cc54d2.svg"],"reactions":[],"isReport":false}}],"primaryEmailConfirmed":false,"paper":{"id":"2606.13572","authors":[{"_id":"6a2b80b74957fcdd3aac06fa","name":"Tanmoy Kanti Halder","hidden":false},{"_id":"6a2b80b74957fcdd3aac06fb","name":"Akash Ghosh","hidden":false},{"_id":"6a2b80b74957fcdd3aac06fc","name":"Subhadip Baidya","hidden":false},{"_id":"6a2b80b74957fcdd3aac06fd","name":"Arijit Roy","hidden":false},{"_id":"6a2b80b74957fcdd3aac06fe","name":"Sriparna Saha","hidden":false}],"publishedAt":"2026-06-11T00:00:00.000Z","submittedOnDailyAt":"2026-06-12T00:00:00.000Z","title":"ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages","submittedOnDailyBy":{"_id":"630e850c3fc17ffc50f752e5","avatarUrl":"/avatars/43e4aee228323211b8cf55b783cc54d2.svg","isPro":false,"fullname":"Akash Ghosh","user":"Agcs12","type":"user","name":"Agcs12"},"summary":"Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/","upvotes":2,"discussionId":"6a2b80b74957fcdd3aac06ff","ai_summary":"ArogyaBodha dataset and ArogyaSutra framework enhance multilingual medical reasoning in low-resource settings through diverse data integration and actor-critic multi-agent reasoning.","ai_keywords":["Multimodal Large Language Models","tool grounding","dual-memory mechanisms","actor-critic framework","step-wise reasoning","distillation","multilingual medical reasoning","low-resource scenarios"],"ai_summary_model":"Qwen/Qwen2.5-Coder-32B-Instruct","organization":{"_id":"66960bd10e08a6505b87086e","name":"IITPatna01","fullname":"IIT Patna","avatar":"https://cdn-avatars.huggingface.co/v1/production/uploads/66960b121de9b5a5f25628da/KKmrySyMfUy5N0nv54REB.png"}},"canReadDatabase":false,"canManagePapers":false,"canSubmit":false,"hasHfLevelAccess":false,"upvoted":false,"upvoters":[{"_id":"630e850c3fc17ffc50f752e5","avatarUrl":"/avatars/43e4aee228323211b8cf55b783cc54d2.svg","isPro":false,"fullname":"Akash Ghosh","user":"Agcs12","type":"user"},{"_id":"6270324ebecab9e2dcf245de","avatarUrl":"https://cdn-avatars.huggingface.co/v1/production/uploads/6270324ebecab9e2dcf245de/cMbtWSasyNlYc9hvsEEzt.jpeg","isPro":false,"fullname":"Kye Gomez","user":"kye","type":"user"}],"acceptLanguages":["en"],"dailyPaperRank":0,"organization":{"_id":"66960bd10e08a6505b87086e","name":"IITPatna01","fullname":"IIT Patna","avatar":"https://cdn-avatars.huggingface.co/v1/production/uploads/66960b121de9b5a5f25628da/KKmrySyMfUy5N0nv54REB.png"},"markdownContentUrl":"https://huggingface.co/buckets/huggingchat/papers-content/resolve/2606/2606.13572.md","query":{}}">

Papers

arxiv:2606.13572

ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

Published on Jun 11

· Submitted by

Akash Ghosh on Jun 12

IIT Patna

Upvote

Authors:

Abstract

ArogyaBodha dataset and ArogyaSutra framework enhance multilingual medical reasoning in low-resource settings through diverse data integration and actor-critic multi-agent reasoning.

Generated by Qwen/Qwen2.5-Coder-32B-Instruct

Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/

View arXiv page View PDF Add to collection

Community

Agcs12

Paper submitter about 4 hours ago

An agentic framework for enhancing multimodal medical reasoning in Indian Languages.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment

Upvote

Get this paper in your agent:

hf papers read 2606.13572

Don't have the latest CLI?

curl -LsSf https://hf.co/cli/install.sh | bash

Models citing this paper 0

No model linking this paper

Cite arxiv.org/abs/2606.13572 in a model README.md to link it from this page.

Datasets citing this paper 0

No dataset linking this paper

Cite arxiv.org/abs/2606.13572 in a dataset README.md to link it from this page.

Spaces citing this paper 0

No Space linking this paper

Cite arxiv.org/abs/2606.13572 in a Space README.md to link it from this page.

Collections including this paper 0

No Collection including this paper

Add this paper to a collection to link it from this page.

Discussion (0)

No comments yet. Sign in and be the first to say something.

ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

Abstract

Community

Models citing this paper 0

Datasets citing this paper 0

Spaces citing this paper 0

Collections including this paper 0

Discussion (0)

More from Hugging Face Daily Papers