分享
一站式解读多模态全类型
输入“/”快速插入内容
一站式解读多模态全类型
飞书用户2749
2024年10月24日修改
1.
多模态是实现通用人工智能的必经之路
按照处理的数据类型数量划分,AI模型可以划分为两类:
💾
1.
单模态:
只处理1种类型数据,如文本等;
2.
多模态:
处理2种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。
多模态是实现通用人工智能的必经之路
。相比单模态,多模态大模型在输入输出端的优势明显
输入端:
💾
1.
提升模型能力:
高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升通用大模型能力;
2.
提高用户体验:
推理侧更低的使用门槛和更少的信息损耗。
输出端:更实用。
💾
1.
可直接生成综合结果,省去多个模型的使用和后期整合;
2.
更符合真实世界生产生活需要,从而实现更大商业价值。
2.
多模态大模型框架概览
•
数据:
文本、视觉、声音、触觉、气味等。
•
算法:
通过多模态统一建模,增强模型的跨模态语义对齐能力,打通各模态之间的关系,执行标准化的任务。
•
应用:
办公、电商、娱乐、教育等领域
3.
多模态大模型算法面临的技术挑战
相比单模态,多模态大模型算法和工程难度更大,
在
表征
、
对齐
、
推理
、
生成
、
迁移
、
量化
等环节均面临更多难点。
💾
预训练为多模态主流训练方式。
由于高质量的多模态标注数据较少,基于
Transformer
结构的多模态预训练模型逐渐成为主流,
通过海量无标注 数据进行预训练,再使用少量有标注数据进行微调
。原生多模态大模型是未来发展趋势,即设计时原生支持多模态,具有处理不同形式数据的能力,但各环节难度会更高。23年12月谷歌
GEMINI即为原生多模态,一开始就在不同模态上进行预训练
,利用额外的多模态数据进行微调以提升有 效性,行业技术取得进一步突破。
这一波大语言模型发展给多模态带来新突破:
💾
1.
大语言模型LLM可充当大脑,处理各种模态信息,将其它模态信息对齐到LLM的语义空间。