【编辑推荐】针对视觉-语言任务中静态对齐缺乏灵活性、动态对齐稳定性不足的问题,研究人员提出Triple-Branch Hybrid Dynamic-Static Alignment (TriHDSA)策略,通过动态胶囊注意力网络(DCA)、弹性调整分支(EAB)和自适应平衡分支(ABB)实现跨模态分层对齐,在VQA-v2和CLEVR等6个 ...