多模态大模型：图文音一起喂，向量空间里怎么「对齐」

一、背景

早期 LLM 主要吃文本；现在常见的 看图答题、以图生文、文档 OCR+理解、视频摘要，都是 多模态（Multimodal） 能力——模型同时处理 图像/音频/视频 与文字，并在 统一表示 里做推理。

做产品时会遇到：上传发票截图问金额、设计稿转组件描述、监控截图告警解释——背后往往不是「纯文本 RAG」能搞定的，而要 视觉编码器 + 语言模型 的联合架构。理解「各模态先变向量，再对齐」，读 API文档、估延迟与成本会清晰很多。

二、核心概念和核心原理（详细解答+通俗解释）

（一）核心概念（先通俗，再详细）

1. 模态——信息载体类型通俗解释：文、图、音、视频轨，每种是一类模态。详细解答：连续信号（像素、波形）需先 数字化、切块、编码 成模型可吃的 token 或 patch特征。
2. 对齐（Alignment）——不同模态在同一个「语义空间」见面通俗解释：图像里「一只猫」的特征向量，应该和文字「猫」的向量 距离近，才能互相检索、互相生成。详细解答：训练阶段常用 对比学习（CLIP 类）、前缀适配（视觉 token 接在文本序列前）、交叉注意力 让文本 attend 图像 patch。
3. 常见架构套路通俗解释：双塔（各编码再算相似，检索强）；单塔融合（拼序列进 Transformer，问答生成强）。详细解答：商用 API 多是黑盒，但接口上你会看到 image_url / base64 + text prompt 的组合输入。

（二）核心原理（通俗拆解，一步一步讲清楚）

第一步：视觉编码器抽特征通俗解释：CNN/ViT 把图变 一串 patch 向量。详细解答：分辨率越高 patch 越多 → Token 越多 → 算力和上下文占用上升。
第二步：与文本 token 拼接进 LLM通俗解释：像 在 Prompt 前面塞入一堆「视觉占位 token」，LLM 当普通 token 做自注意力。详细解答：任意分辨率 适配、动态切图 是工程难点。
**第三步：输出仍是文本（或结构化）**通俗解释：生成侧还是 自回归文本；要画图则走 扩散模型 等另一支。详细解答：理解与 生成图像 可以是两个模型流水线。

三、补充进阶知识点（易懂不晦涩，适配新手进阶）

1. OCR 与文档理解通俗解释：扫描件先 检测文字区域 再识别，或端到端 文档 Transformer。简单补充：表格、印章、手写是难点，要 评测集 验证。
2. 视频 = 图像 + 时间通俗解释：抽帧或 视频编码器 提取时序；Token 爆炸快，常 稀疏采样。简单补充：实时场景要流式与 边缘计算。
3. 和之前知识点的关联****Embedding 思想一致，只是多模态要 跨塔对齐；上下文窗口 要装视觉 token；RAG 可检索 图文混合库；Agent 可接 截图工具。

四、文章知识总结

背景：多模态让「看图说话、读屏」成为可能；产品需求越来越多。
核心概念：模态、对齐、融合架构；patch/token 与成本。
核心原理：视觉编码 → 与文本拼接 → LLM 推理；输出多为文本。
进阶：文档 OCR、视频采样；理解 vs 生成分工。
核心逻辑：多模态本质是「更多种类的 Token」——窗口与算力仍是一切。

总结：把多模态想成 「向量对齐 + 序列拼接」，就不神秘了；再回头看 Embedding与 Transformer，知识是连成片的。