如果说“任务类型”是考AI“会干什么”,那“模态”就是看它“怎么感知这个世界”。就像人类靠眼睛看、耳朵听、手去摸来认识物理世界,AI也需要通过不同的“感官”输入来学习规律。