多模态深度学习
多模态深度学习网络学习 开始日期:2026-01-12当前目标阶段:入门->科研->多模态大模型->项目学习材料主线:文档->论文->项目备注:记录要尽量“可复现”,包含版本、超参、数据集、链接与结论 1. 多模态、跨模态、多任务多模态是多种模态进行处理分析多任务是多个模型同时执行多个任务跨模态是指一个模态中学习到的知识应用在另一个模态的数据上 跨模态是一种多模态深度学习方法 多模态深度学习模型方法: 翻译:模式之间的映射关系 对齐:模态子元素之间的直接关系 融合:结合多个模态数据进行预测 协同学习:一种模型中学习到的帮助不同模态上训练的计算模型 表征:利用多模态之间的互补性来总结多模态数据 多模态深度学习的五个挑战:模态表示、模态传译、模态对齐、模态融合 1.1 语句模态的表示方法(word-embedding) 单词模态的独热表示(one-hot) 低维空间表示:独热表示的线性变换 词袋模型:只考虑每个词的出现频率,将频率作为特征地图,不考虑文字的顺序和语法结果 n-gram:可以捕捉语义结构和上下文信息,维度会 迅速增长。将...
