

打开「灵光」的第一感觉:界面极简,但输出内容却极其丰富。问它"怎么做糖醋排骨",它不会给你扔一大段文字,而是直接生成一张色泽红亮的成品图,然后配上不同字体的小标题、步骤表格,甚至穿插表情包。整个过程像在看一个精心设计的图文笔记,而不是机器生成的回答。
这种"策展式"的回答方式,是「灵光对话」功能的核心。它背后用的是蚂蚁自研的Ling 2.0模型系列(MoE架构),据说激活60亿参数就能达到传统模型400亿参数的效果。不过这个技术细节不重要,关键是用起来确实快,而且逻辑清晰,重点突出。
更让我惊讶的是它的多模态输出能力。比如问"金字塔内部结构",它会直接生成一个可旋转的3D数字模型;问"北京三日游路线",它会输出一张可交互的地图。财报分析、学术论文解读这类复杂任务,它也能自动生成图表和结构化摘要。实测处理一份20页的PDF论文,关键信息提取准确率相当高。
「闪应用」:这才是真正的杀招
如果说「灵光对话」是升级版的AI搜索,那「闪应用」功能可能就是蚂蚁布局AI入口的核心武器。
简单说,就是你用自然语言描述需求,它30秒到1分钟内直接生成一个可交互的小应用。我测试了"制作一个计时器",67秒后,一个带开始/暂停/重置按钮的计时器App就诞生了,UI设计还挺简洁。更妙的是,它还会主动问"要不要加个倒计时模式?",确认后立刻在原有应用上扩展功能。
这个能力对普通用户意味着什么?举个例子:
- 想算养车成本?直接生成"养车计算器",输入油费、里程就能出结果
- 要做旅行规划?一句话生成行程规划器,能自动计算交通时间
- 甚至可以做"人生计时器"这种略带哲学意味的小工具
这些应用都能保存、分享,参数还能自定义。蚂蚁官方说这是在移动端首创的"全代码生成"能力,我体验下来确实比市面上一些需要"套壳"的AI工具流畅得多。
「灵光开眼」:摄像头还能这么玩?
第三个核心功能「灵光开眼」,本质上是把AGI技术塞进了手机摄像头。它不是简单的拍照识图,而是实时视频流解析。
实测了几个场景:
- 拍家里的植物,秒出品种介绍和养护建议
- 拍博物馆画作,直接生成背景解读和作者生平
- 拍外文菜单,实时翻译+菜品推荐
- 拍家电故障,诊断问题+推荐维修渠道
响应速度确实快,官方说的≤500毫秒延迟基本属实。技术原理是"本地初步识别+云端语义推理",这种模式既保证了速度,又控制了功耗。对于旅行、购物、生活服务等场景,这个功能实用性拉满。
技术底气从哪来?
根据蚂蚁披露的信息,「灵光」的技术架构分三层:
底层模型:Ling 2.0系列,主攻推理和代码生成。在AIME25数学推理基准上准确率70.42%,这个成绩相当不错。代码生成能力是它能实现"30秒出应用"的关键。
多模态融合:Ming-Lite-omni模型,支持文本、图像、语音、视频的跨模态理解。相比传统OCR工具,信息处理效率提升300%——这点在处理文档时感受很明显。
Agentic架构:动态调度图像、3D、动画等专用Agent,实现多智能体协作。听起来复杂,但用户体验就是:你提一个需求,它自动协调各种能力给出最完整的答案,不需要你手动切换模式。
训练数据基于20T token的高质量数据集,覆盖代码、数学、金融、医疗等领域。这也是它在专业场景下表现稳定的原因。
蚂蚁到底想干嘛?
从产品定位看,「灵光」明显是冲着C端超级入口去的。传统AI助手停留在"问答"层面,而「灵光」直接跳到了"应用生成"层。这步棋很巧妙:
1. 降低编程门槛:让普通人也能享受AI Coding的红利
2. 激活长尾需求:那些小众的、个性化的工具需求,不再需要下载专门的App
3. 打通支付宝生态:生成的小应用可以一键保存到支付宝,想象空间很大
目前「灵光」已经在安卓和苹果应用商店上线,网页版也能直接用。作为蚂蚁AGI战略的产品级探索,它的出现确实给沉寂已久的AI助手市场带来了新变量。