基于跨模态图文特征联合表达的视觉内容层次化理解关键技术研究

一、项目描述及目标

视觉内容层次化理解意在对图像场景中的物体、物体的属性、物体之间的交互关系等不同层次的信息进行全面分析。但是该任务的实现需要精细化的标注，由于成本较高，并不适用于深度学习的方法。本项目将探讨如何借助互联网上的图文数据对，进行模型的优化，从而针对场景中的内容实现细粒度、层次化的视觉内容理解

二、重要性及影响

从数据获取、模型设计、学习策略等方面解决现有模式的不足。充分利用互联网中图像数据及其对应文本说明的相关性，同时将不同层次语义之间的内在联系，以及该联系与不同层次视觉表达的关联性与一致性考虑在建模的过程中。本项目的实施有望使得模型能够自动挖掘海量多模态数据中的隐含信息，提升模型泛化性能。

三、解决方案描述

1. 提出基于对比学习的图文联合表达学习框架

2. 设计层次化深度视觉模型，对物体属性、类别、交互等进行统一学习

3. 引入知识图谱，实现知识与数据联合驱动的图文内容学习方法。

四、主要贡献

本项目将更为高效地运用互联网图文资源，并且设计实现网络结构，在学习的过程中挖掘图文对应关系，提升视觉模型表达能力与预测精度。

五、下一步计划

现阶段工作主要集中在图文联合表达学习框架的构建，并且设计模型有效接收多个层次的语义内容。相关技术也将对医学影像分析以及报告生成起到积极推动。

科研项目