蚂蚁百灵大模型进化了，能“看”会“听”、能“说”会“画”_南方+

南都讯记者赵唯佳发自上海 7月5日，在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上，蚂蚁集团公布了其自研的百灵大模型最新研发进展：百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力，可以直接理解并训练音频、视频、图、文等多模态数据。

蚂蚁集团副总裁徐鹏展示了新升级的多模态技术可实现的更多应用场景，比如，通过视频对话的自然形式，AI助理能为用户识别穿着打扮，给出约会的搭配建议；再比如，根据用户不同的意图，从一堆食材中搭配出不同的菜谱组合等。

“从单一的文本语义理解，到多模态能力，是人工智能技术的关键迭代，而多模态技术催生的‘看听说写画’的应用场景，将让AI的表现更真实，更接近人类，从而也能更好地服务人类。蚂蚁会持续投入原生多模态技术的研发。”徐鹏介绍说，目前，百灵的多模态能力已经应用在“支付宝智能助理”上，让智能体具备了一定规划执行能力，未来还将支持支付宝上更多智能体升级。