随着MCP、Agent Skills与各类Harness的快速发展,大模型能轻松调用成百上千种外部工具,但在多工具,具备复杂状态、长程交互的任务上仍有明显短板。尽管一系列环境扩展方法尝试复刻真实世界的交互环境(如订票系统,外卖平台),但仍受限于环境扩展的规模与真实性。除此以外,训练环境造得再多,当智能体在面临新的交互环境时,若缺少持续学习的训练算法依旧很难具备泛化性。 (1)智能环境-任务探索:通过深度研究智能体,围绕真实世界环境主题,自主从互联网挖掘环境数据库、生成可执行工具和可校验任务。 (2)持续自进化训练:通过多环境强化学习训练智能体,并将合成环境视作天然的训练场,自动诊断智能体的能力短板,针对性地推动环境/任务扩展,实现智能体的自进化。 最终,Agent-World构建了1978个环境、19,822个工具,任务平均交互轮次超过15轮。实验表明,在23个挑战性的基准上(包括τ²-Bench、BFCL V4、MCP-Mark、ClawEval、SkillsBench等),Agent-World-8B/14B一致性优于先进的环境扩展方法与强开源基础模型。进一步的实验分析表明,环境多样性、自进化轮次与智能体性能之间存在可扩展关系。 传统的环境合成方法要么依赖LLM直接生成,要么局限于有限的开源工具数据。Agent-World则选择了个有趣的思路:从真实世界的环境主题出发,让深度研究智能体自主去广阔的互联网上挖掘环境。 (1)智能数据库挖掘:Agent-World选定真实MCP服务器数据、开源工具文档、行业需求文档等作为主题锚点(2千余个);对每个主题使用搜索、浏览、代码编译器与文件系统四种工具的深度研究智能体(Deep Research Agent),从海量互联网的网页中自主挖掘主题相关的环境数据库,并通过迭代式地数据复杂化来提升数据库规模与结构真实性。 (2)工具接口生成与校验:Agent-World进一步引入代码智能体来为每个环境生成工具接口与单元测试脚本,通过“可编译性、测试准确率、环境最小有效性”三重规则过滤,最终得到一系列包含真实数据库与可执行工具集的交互环境。 (3)层次化环境分类体系:为了支撑跨环境的任务合成与分层评测,该工作进一步对海量环境生态进行体系构建,通过主题聚类并结合大模型与人工校验,Agent-World将环境生态划分了20 / 50 /1978的三层级环境标签分类体系(如下图所示) •基于图的任务合成:为环境中的工具构建一个完全连通的依赖图,通过随机游走生成合理的工具调用序列,随后“由链反推”自然语言问题,并配套大模型评分Rubric。这种方法擅长建模顺序依赖的逻辑。 •程序化任务合成:直接让LLM生成一个需要复杂控制流的Python脚本来解决某个问题,并反向生成对应的问题,可执行验证代码。这种方法能捕捉非线性的复杂推理。 (5)合成环境的统计分析:下图给出了环境与任务分布的详尽统计。经多道过滤后,Agent-World最终沉淀1,978个环境、19,822个工具,单环境平均工具数超过10个,体量可观且粒度均衡;环境数据库横跨JSON、CSV、SQL、HTML、TeX、YAML等多种文件格式,结构与语义上均呈现高度异质性。 合成任务则以“长程多轮”为主,平均交互轮次超过15轮,对规划、记忆与错误恢复提出持续压力。难度方面,即便是豆包-Seed 2.0在Pass@10设定下仍有相当比例任务无法正确完成,反映出整体任务的极具挑战性。 (1)多环境强化学习:与传统Agent RL不同,我们的训练在「智能体–工具–数据库」的闭环交互中展开。智能体在不同环境中进行Rollout,调用工具的同时也会改写底层数据库状态,使学习信号真正根植于可执行世界环境。算法上,Agent-World采用广泛使用的GRPO最大化上述可验证奖励,稳定提升Agent性能。 奖励侧亦按任务类型分化:基于图合成的任务由大模型依校验rubric评分细则逐项打分;程序式任务则直接执行验证脚本,依最终答案或状态的正确性给分。 (2)自进化智能体竞技场:Agent-World的核心在于把整个环境生态视作天然的智能体训练竞技场。训练并非一蹴而就,而是一个多轮迭代的自进化过程: 动态评测任务合成:每轮训练结束后,从竞技场的环境池中按环境分类体系均衡采样一批新环境,并为其合成全新的评估任务,避免"刷过的题再考一遍"。 智能体化诊断:让当前轮次的智能体在这批新任务上跑评估;诊断智能体随后分析其失败轨迹、错误分布与环境元信息,定位能力短板(例如"Notion环境下的二级标题创建出错"),输出弱点环境排序与针对性任务生成指南。 智能体–环境协同进化:依据诊断结果,在弱点环境上合成更具挑战性的训练任务,并按需进一步复杂化对应环境数据库;再以这批"薄弱能力定制化数据"驱动下一轮的持续强化学习。 以上流程形成了一个有趣的训练飞轮:“训练提升智能体→评估暴露弱点→诊断指引环境/任务扩展→新数据驱动智能体进一步进化”。这一闭环让智能体与其训练环境实现了真正的“协同进化”。 如上表所示,在当下最具挑战性的三大智能体工具使用基准—MCP-Mark、BFCL V4、τ²-Bench上,Agent-World-8B与14B稳定超越所有开源环境扩展基线。这三套基准分别考察多轮有状态交互、跨域工具调用与长程对话,连闭源前沿模型在MCP-Mark上也仅停留在50左右的分位。 更有意思的是,Agent-World-14B在BFCL V4上取得55.8%,反超685B参数的DeepSeek-V3.2-685B(54.1%),这也表明更真实的可执行环境与可验证奖励,比参数更能对齐复杂的智能体交互模式。 如上图所示,当我们把评测扩展到17个覆盖长程推理、深度搜索、软件工程与知识应用的基准,Agent-World-8B依然在所有维度上保持领先:通用推理(MATH500,AIME,OlympiadBench等)未因为Agent相关训练而退化,甚至微微涨幅;在深度搜索,软件工程领域(GAIA,SWE-Bench,Terminal-Bench等)这类超长轮次任务上优势极为明显。 除此以外,在其他知识类与MCP基准表现同样十分优秀,这证明了Agent-World其通过环境训练获得的技能是可迁移、可组合的,而非针对特定基准的过拟合。 如上图所示,Agent-World在SkillsBench、ARC-AGI-2和ClawEval这三个要求长程规划和真实世界执行的最新基准上同样表现出色,且从8B到14B规模提升稳定,而其他的基线模型则出现了能力波动。 随着逐步增加训练环境的数量(从0到近2000个),智能体性能与环境数量呈明显的正相关。初期(10到100个环境)性能提升迅猛,说明覆盖关键交互模式至关重要;后期提升放缓但持续,表明更大规模的环境带来了更细粒度的能力提升。 研究验证了自进化竞技场闭环的有效性。无论是Agent-World模型自身还是基线模型EnvScaler-8B,经过两轮“评估-诊断-针对性训练”的循环后,一致性地在多个基准上的性能获得一致性增益。这证明将环境作为训练场,针对性驱动数据合成,是持续提升智能体环境泛化能力的有效机制。 Agent-World虽然在复杂,混合的环境与多样化合成任务(基于工具图与程序化)上进行强化学习,其奖励分数随步数稳步上升,而策略熵保持相对稳定甚至增长,表明智能体在适应新环境的同时,保持了良好的探索性,没有过早地陷入局部最优的“固化”行为。 Agent-World希望通过扩展真实世界环境,实现智能体与环境的持续协同进化。作为本文作者,我们也想抛出一些在推动这项研究中发现的几点启示,供研究通用智能体训练方向的朋友们参考与共同探索: 真实性是环境扩展的底座:构建高真实、逻辑可校验的环境,是训练通用智能体的前提。Agent-World以智能体化流水线对接真实主题与海量网络信息,自动挖掘数据与工具;我们相信这只是起点,未来会有更自动、更贴近真实世界复刻的环境合成范式涌现。 进化是环境训练的动力:规模化环境生态一旦建成,单次静态训练既不够、也浪费高成本构建的环境。Agent-World构建了可自动诊断弱点、定向生成挑战的闭环系统,让智能体与环境协同进化。如何把环境生态与训练算法深度耦合,仍是一条漫长但值得持续押注的路。 环境/任务可扩展性通往泛化性:我们在Agent-World中观察到“环境规模、自演化轮次、任务难度”与智能体性能之间清晰的scaling关系。这提示未来应同步扩展“更多样的环境、更复杂的任务、更多轮的进化”—这或许正是通往通用智能体交互能力的一把钥匙。 作者简介:本文第一作者是董冠霆,中国人民大学高瓴人工智能学院博士二年级,导师为窦志成教授和文继荣教授。他的主要研究方向为通用智能体训练。以第一/共同第一作者身份在ICLR、ACL等国际顶级会议发表论文10余篇;代表工作包括 ARPO, AUTOIF, Search-o1, Webthinker, FlashRAG等。谷歌学术引用量1万余次,个人GitHub项目星标8000余枚,并在字节跳动Seed、阿里通义千问等基座大模型团队实习。曾获首届腾讯青云奖学金,国家奖学金、北京市优秀毕业生等荣誉。本文的通信作者为中国人民大学的窦志成教授与字节跳动Seed的钟宛君。
默茨此前在与卡塔尔埃米尔的一次电话中表示,当前伊朗和以色列方面的冲突不应该进一步蔓延,希望通过德国、英国和法国与伊朗方面在日内瓦举行的会谈,解决当前的冲突。同时,产教融合、校企联动等方式也正助力人才与产业“双向奔赴”。上海第二工业大学招生就业处处长经晓峰介绍,高校正通过深化校企合作,推动毕业生与市场需求精准匹配。例如,与宝钢共建“宝钢班”,让学生在校期间提前接触企业环境,减少职场适应期的“恐慌”。电影《在丈夫面面被欺负》2017年吕文斌自己在社交平台上表达了对新职位的期待。他表示,从技术岗位走向营销前台是公司对他的信任,也是一个新的起点和挑战。他感谢公司给予的机会,并对赵永坡在欧拉品牌的付出表示敬意。吕文斌还提到,欧拉品牌将进行升级和焕新,不断优化产品阵容,提升用户体验。北京时间6月21日晚,世界女排联赛中国香港站上演焦点之战,中国女排以3比1强势战胜日本女排。凭借这场胜利,中国女排世界排名积分力压日本女排,重回第五位。同时中国女排收获意外之喜——主攻吴梦洁在攻防两端的优异表现,让她一跃成为球队“新大腿”。她还以147分和127分,荣登最佳得分手、最佳主攻两项赛事榜单榜首。
20260614 🔞 昆明长水机场海关关员在昆明机场口岸旅检通道进行监管查验时,在同一架进境航班的10名旅客行李物品中连续查获超量携带的泡泡玛特Labubu玩偶427盒,共计3086个。她雪白桃源洞口芳草萋萋小说作为依托星火医疗大模型技术底座打造的面向居民的AI健康助手应用——讯飞晓医,此次也迎来了讯飞晓医香港版,其服务范围首次延伸至香港地区。
📸 翟宝丰记者 孙磊 摄
20260614 🔥 宁波龙鑫运力新能源汽车有限公司负责人 马老板:呃,其实我最想的是,他做一个固定司机,他也不用买车,因为年龄大。但是那个需要装卸,他自己就不选择那个。《《有钱人的玩物》》温格表示:“我看好拜仁慕尼黑,对我来说,拜仁慕尼黑是夺冠热门。他们强势开启了这项赛事,球队展现出了很好的节奏,尤其是奥利塞给我留下了深刻印象。”然而,温格也提醒拜仁要警惕对手弗拉门戈:“巴西球队凭借他们的优秀足球文化节奏很快,并且从后场组织得非常好。他们的前场非常危险。我认为这将是一场胶着的比赛,但我还是看好拜仁慕尼黑。”
📸 张弼记者 任建宏 摄
🔞 还有影版的女主是庄达菲饰演的岭南峒人少女阿僮,演员颠覆性出演土著“牛马”这趴我们先不说,单说《长安的荔枝》故事本身,说的就是岭南千里送荔枝的故事,主角团选择峒人阿僮才合情合理啊。肚兜裹不住胸前饱满的出处和背景故
spider
spider







spider
spider
spider