MedMod: Multimodal Benchmark for Medical Prediction Tasks with Electronic Health Records and Chest X-Ray Scans

Jul 1, 2025·

Shaza Elsharief

Saeed A. Shurrab

Baraa Al Jorf

Leopoldo Julian Lechuga Lopez

Krzysztof J. Geras

Farah E. Shamout

· 0 min read

DOI Code Dataset Dataset Source Document

Abstract

Multimodal machine learning provides a myriad of opportunities for developing models that integrate multiple modalities and mimic decision-making in the real-world, such as in medical settings. However, benchmarks involving multimodal medical data are scarce, especially routinely collected modalities such as Electronic Health Records (EHR) and Chest X-ray images (CXR). To contribute towards advancing multimodal learning in tackling real-world prediction tasks, we present MedMod, a multimodal medical benchmark with EHR and CXR using publicly available datasets MIMIC-IV and MIMIC-CXR, respectively. MedMod comprises five clinical prediction tasks: clinical conditions, in-hospital mortality, decompensation, length of stay, and radiological findings. We extensively evaluate several multimodal supervised learning models and self-supervised learning frameworks, making all of our code and models open-source.

Type

Conference paper

Publication

In Conference on Health, Inference, and Learning (CHIL)

Last updated on Jul 1, 2025

Authors

Saeed A. Shurrab (he/his/him)

PhD Candidate

← Multimodal Deep Learning for Stroke Prediction and Detection using Retinal Imaging and Clinical Data Jul 15, 2025

Multimodal masked siamese network improves chest X-ray representation learning Sep 28, 2024 →