当前AI Agent领域正面临"开发易、落地难"的典型矛盾,行业普遍存在"一周出demo,半年难实用"的困境。随着AI技术进入下半场,行业开始把目光投向真正的效用价值,从根本上反思和创新“评估”体系,用新的评估标准倒逼AI方法和应用创新。AI Agent作为蚂蚁数科的核心战役,我们也一直追求真正的效用价值,为了支撑产品落地交付,我们建立了一套能够驱动Agent效果优化的评测体系。本次「蚂蚁数科专场:AI Agent质量评测」分论坛,将聚焦真正在企业落地的AI Agent领域相关的质量和评测工作,围绕Agent的全生命周期,探讨Agent平台以及各个模块(Rag、知识工程、工具调用、MCP)的质量保障方案、评测标准、方法论和实践。