Skip to content

多模态大模型:图文音一起喂,向量空间里怎么「对齐」

一、背景

早期 LLM 主要吃 文本;现在常见的 看图答题、以图生文、文档 OCR+理解、视频摘要,都是 多模态(Multimodal) 能力——模型同时处理 图像/音频/视频文字,并在 统一表示 里做推理。

做产品时会遇到:上传发票截图问金额设计稿转组件描述监控截图告警解释——背后往往不是「纯文本 RAG」能搞定的,而要 视觉编码器 + 语言模型 的联合架构。理解「各模态先变向量,再对齐」,读 API文档、估延迟与成本会清晰很多。

二、核心概念和核心原理(详细解答+通俗解释)

(一)核心概念(先通俗,再详细)

  • 1. 模态——信息载体类型通俗解释:文、图、音、视频轨,每种是一类模态。详细解答:连续信号(像素、波形)需先 数字化、切块、编码 成模型可吃的 token 或 patch特征。

  • 2. 对齐(Alignment)——不同模态在同一个「语义空间」见面通俗解释:图像里「一只猫」的特征向量,应该和文字「猫」的向量 距离近,才能互相检索、互相生成。详细解答:训练阶段常用 对比学习(CLIP 类)、前缀适配(视觉 token 接在文本序列前)、交叉注意力 让文本 attend 图像 patch。

  • 3. 常见架构套路通俗解释:双塔(各编码再算相似,检索强);单塔融合(拼序列进 Transformer,问答生成强)。详细解答:商用 API 多是黑盒,但接口上你会看到 image_url / base64 + text prompt 的组合输入。

(二)核心原理(通俗拆解,一步一步讲清楚)

  1. 第一步:视觉编码器抽特征通俗解释:CNN/ViT 把图变 一串 patch 向量。详细解答:分辨率越高 patch 越多 → Token 越多 → 算力和上下文占用上升。

  2. 第二步:与文本 token 拼接进 LLM通俗解释:像 在 Prompt 前面塞入一堆「视觉占位 token」,LLM 当普通 token 做自注意力。详细解答:任意分辨率 适配、动态切图 是工程难点。

  3. **第三步:输出仍是文本(或结构化)**通俗解释:生成侧还是 自回归文本;要画图则走 扩散模型 等另一支。详细解答:理解生成图像 可以是两个模型流水线。

三、补充进阶知识点(易懂不晦涩,适配新手进阶)

  • 1. OCR 与文档理解通俗解释:扫描件先 检测文字区域 再识别,或端到端 文档 Transformer。简单补充:表格、印章、手写是难点,要 评测集 验证。

  • 2. 视频 = 图像 + 时间通俗解释:抽帧视频编码器 提取时序;Token 爆炸快,常 稀疏采样。简单补充:实时场景要 流式边缘计算

  • 3. 和之前知识点的关联****Embedding 思想一致,只是多模态要 跨塔对齐上下文窗口 要装视觉 token;RAG 可检索 图文混合库Agent 可接 截图工具

四、文章知识总结

  1. 背景:多模态让「看图说话、读屏」成为可能;产品需求越来越多。
  2. 核心概念:模态、对齐、融合架构;patch/token 与成本。
  3. 核心原理:视觉编码 → 与文本拼接 → LLM 推理;输出多为文本。
  4. 进阶:文档 OCR、视频采样;理解 vs 生成分工。
  5. 核心逻辑多模态本质是「更多种类的 Token」——窗口与算力仍是一切。

总结:把多模态想成 「向量对齐 + 序列拼接」,就不神秘了;再回头看 Embedding与 Transformer,知识是连成片的。