マルチモーダルAIとは、テキスト・画像・音声・動画など複数のデータ形式(モード)を組み合わせて理解・生成できるAIのことです。ChatGPTやGeminiなどが代表例で、より人間に近い認識と表現が可能になります。