张柏芝操逼,界面清爽、功能强大,专为极致体验而生

首页 >新闻 >社会新闻

xbench宣布AgentIF-OneDay评测：Agent能否自力干完“一天的活”？

2026-01-21 23:43:04

泉源：

猫眼影戏

作者：

艾旺华

手机审查

　　猫眼影戏记者马克西姆·维托尔加诺夫报道Q8X2R7L1T4J5M9B6W3

随着大模子在单点推理上日益迫近PhD水平，Agent领域迎来了新的分水岭：短程使命体现惊艳，长程使命却显乏力。为精准评估大模子的多模态明确与重大问题解决能力，红杉中国在两周内一连宣布两篇论文，旨在通过构建更科学的评估基准，预判手艺演进的未来偏向。

xbench正式推出AgentIF-OneDay评测系统，不再纯粹审核模子知道几多知识，而是权衡它解决重大使命的能力。AgentIF-OneDay深入探索了从OneHour到OneDay的能力跨越，展现了主流Agent在事情流执行、隐式推断与迭代编辑中的真实体现。让我们配合见证，Agent 是怎样通过Scaling Context与Scaling Domain，从纯粹的“提问助手”进化为真正创立经济价值的“数字员工”。

Agent能否协助你一天的生涯？

自从红杉中国xbench宣布ScienceQA与DeepSearch以来，这两个评测集已经履历了多次迭代升级。无论是模子自己，照旧围绕模子构建的Agent系统，都已经在这些以分钟级为单位的集中推理使命上能够稳固胜任，从最初的human-average水平，逐渐抵达靠近PhD-level的体现。

随着我们进一步进入Agent能力评测的领域，我们发明Agent完成短时使命与长时使命之间保存重大的能力鸿沟。即便在单点推理和局部使命中已抵达极高水平，一旦使命在突破一样平常人一小时可处置惩罚的重漂后，Agent的整体完成度就会泛起显着下降。

从xbench所坚持的理念出发，更好的评估模子和智能体在现实事情和生涯中的价值。我们希望通过评测系统来视察行业手艺蹊径的演进，展望模子能力的上限，同时也希望给业界增补一个面向utility和economic value的思索视角。我们提出一个新的视角来明确Agent的能力界线：使命重漂后，使命重漂后并不等同于知识点有多深奥或推理难度，而是完成一个使命所需的人类时间投入，并由此对应其潜在的经济与使用价值。

我们以为Agent能力的演进会沿着两条主线睁开：scaling context与scaling domain。这两条轴线配合决议了Agent能够肩负的使命重漂后上限，也是Agent系统从工具走向数字员工的生长偏向。

?Scaling context指的是完成的使命在时间维度上的延展。随着使命重漂后的提升，Agent需要在更长的执行周期中一连维护上下文状态，跟踪中心目的与约束，并在多办法、多工具的交互历程中坚持一致性。从分钟级使命，到一天级、以致一周级的事情量。

?Scaling domain则指Agent在使命类型上扩展带来的重漂后。与高度结构化、domain集中的使命（如coding或数学推理）差别，现实天下中的事情往往横跨多个领域与语境，差别使命在目的表述、隐含约束、工具使用方法与评估标准上差别显著。Agent能力的进一步提升，陪同着对更广的使命漫衍的笼罩能力。

xbench在设计AgentIF评测系统时，会同时沿着context与domain两个偏向推进。一方面，通过逐步拉长使命对应的人类时间标准，从OneHour走向OneDay；另一方面，通过笼罩越发多样的生涯、学习与职业场景，描绘Agent 在真实天下使命漫衍中的整体能力界线。

本次宣布的AgentIF-OneDay是xbench在该评测系列中的一个新事情。我们以人类一天内可完成的使命重漂后作为基准，测试一个Agent是否具备在无需人类介入的情形下，稳固完成整套使命并交付效果的能力。只管笼罩更diverse的domain，包括生涯、学习和职业场景会遇到的多种多样的使命以及多种工具。

怎样结构一天的典范使命？

在对大宗用户真实事情日志举行剖析后，我们发明只管详细使命内容差别重大，但一样平常事情在类型上泛起出高度稳固的模式。大大都通俗人的一天可以凭证使用场景被笼统为三个使命类型——事情流执行、规范参考以及迭代式编辑。

场景一

当你知道该怎么做，但执行太繁琐

用户已知完整流程并明确给出操作办法，Agent只需准确执行。我们称此类使命为事情流执行（Workflow Execution）。

例题

我妄想去NeurIPS 2025，帮我计齐整个好的行程计划。请你先去官网确认NeurIPS 2025聚会的主会场位置（San Diego Convention Center, San Diego）是否准确，然后用另一个可靠泉源交织验证这个信息，确保万无一失。接下来，帮我网络基本信息，好比聚会时间、所在和论文提交阻止日期�；挂啡贤暾木刍崛粘淌欠褚丫肌羰腔姑恍�，请明确告诉我。最后，从纽约出发给我两套去圣地亚哥的行程计划：一个最自制的Cheap Plan，一个最快的Fast Plan。

当Agent能够在整个流程中坚持一致性、逐步完成办法、并在长上下文中坚持状态，就意味着它具备帮我把事情做完的潜力。这也是大宗用户希望Agent能真正替换重复性劳动的缘故原由——当流程执行能力成熟时，Agent就能自然肩负原本需要人工耐心完成的碎片化使命。

场景二

当你不知道规则，只能给个参考

用户不明确知道完整的事情流或者条件约束，只提供若干案例或参考资料。我们将此界说为规范参考（Latent Instruction Inference）。

例题

我现在用的是iPhone13 Pro Max，AT&T套餐每月20美元预付费。我想换iPhone17 Pro Max�；诟郊锏墓夯苹驮擞逃呕�，帮我找出总本钱最低的方法。

规范参考是人类最自然的事情方法，人们不会每次都从零写起，而是需要Agent从提供的示例文件中挖掘出潜在的意图，并交付同时知足用户的显示指令与附件的隐式指令；Agent若是具备这种能力，就能真正加入内容生产、报告天生、数据整理等职业型使命，而不是停留在浅层回覆问题的阶段。

场景三

当需求自己是动态的，要边做边看

人类的事情普遍泛起多轮迭代结构，在事情的最先并不知道完整解法、也没有参考示例，需要在与Agent多轮交互中逐渐提出新需求。Agent也必需具备在一直转变的约束下维持上下文一致性并稳固推进使命的能力。这类使命称为迭代式编辑（Iterative Refinement）。

例题

拿着这个SVG平面图（venue_layout.svg）和Excel约束表（venue_constraints.xlsx），更新会场结构以知足所有约束条件，同时坚持设计的可读性和可行走性。

我们在已往3个月凭证这三个类型，制备了AgentIF第一期的题库，总共由104道使命组成，笼罩了事情、生涯（例如游戏攻略、旅游妄想）和学习。其中62道由文件驱动的合成使命用于增补长尾场景，笼罩PDF、PPT、Excel、图像、代码文件在内的15种以上名堂。实质上模拟了真实事情流程中极常见的跨名堂、跨泉源的模式。

每道使命都带有一套细粒度的评判标准，总计767个评分点，分为正向指标（如名堂一致性、结构复现、办法完整）与负向指标（如误删内容、越界天生、过失操作）。评测系统接纳LLM作为裁判（值得一提的是Gemini 3-pro的泛起让rubrics打分的准确性也提升到可用的水平），并连系网页检索、HTML渲染、多模态比对等要领做自动校验。在这套机制下，agent系统的得分不但取决于它最终是否完成使命，还包括流程是否清洁、是否泛起误操作、是否准确剖析附件、是否能在迭代历程中坚持一致性。

主流Agent的评测效果和启发

在AgentIF的测评框架下，我们对现有主流Agent系统举行了系统化测试，也有了一些有趣的发明：

发明一：以Overall的完整使命乐成率为标准，Manus、Genspark与ChatGPT-Agent都集中在0.62–0.65区间，组成当下能力最强的第一梯队。

这意味着和我们想象的有所差别，岂论Agent系统是通过模子原生甚至RL训练出来的模子，照旧基于API的工具链集成或深度的multi-Agent系统，在完成一套真实使命链时，用户侧感受到的能力是较量相近的。

这一征象在一定水平上印证了模子即Agent的判断——在底层模子能力不爆发转变、且不引入test-time scaling的条件下，差别多智能体框架自己难以拉开数目级上的性能差别�；Ｗ踊嶂鸩郊蒩gentic能力，下游基于api的Agent产品，在能力体现上也会体现出agent rl的能力。

虽然这些agent系统能力很是靠近，但在使命领域上与能力维度保存显着差别。

发明二：从使命领域上，使命领域上从ChatGPT是最优生产力工具，Manus是最佳生涯助手，Genspark是最勤学习同伴。

三个产品具有差别迭代偏向，ChatGPT-Agent重点关注GDPval，聚焦专业事情场景的体验；相对来说Manus与Genspark更着重用户反响。差别的评测体现带来了差别的产品长项与短板。我们以为优异的通用Agent应当兼顾最多样的使命，而不着重一方。

发明三：在能力维度上，GenSpark在隐式指令推断上体现最优，Manus在开放事情流执行最优，Minimax-Agent具有最好的迭代式编辑能力。

能力维度的体现纷歧或泉源于Agent框架的差别。隐式条件推断是现在Agent普遍最薄弱的能力项。一些使命要求Agent从附件中自动识又名堂规则，例如从PPT 模板中抽取页眉页脚结构或引用标注方法，再迁徙到新的内容天生中。我们视察到，即即是整体体现最好的系统，在这类使命中也很难做到完全准确。要么名堂复现准确但笼罩缺乏，要么内容明确到位但无法坚持结构一致。

综合来看，稳固性、文件处置惩罚链路、隐式结构明确能力，以致跨工具的状态治理，都是决议Agent能否真正肩负一天事情量的要害环节。AgentIF-OneDay通过这类使命，展现了目今Agent在真实使用场景中的能力界线和一些常见的失效模式，也资助我们更清晰地看到下一阶段能力演进的偏向。

展望：从oneday、oneweek到一连学习

随着系统能力一直提升，我们预计在2026年Agent将最先挑战one-week的人类事情量。围绕one-week的人类事情量，我们已经最先着手构建OneWeek的评测集。我们以为当一个Agent能够在一周标准的事情量上坚持稳固高质量的产出，它就具备了肩负真实岗位的能力，也能够在组织内最先创立更多现实价值。

与AgentIF-OneDay相比，OneWeekIF面临的挑战并不但是使命变得更长。随着时间跨度增添，评测自己的出题难度也增添许多，rubric的设计会越发严酷。一周标准的使命往往最先泛起出明确的行业语境，无论是金融、医疗照旧执法，这些高价值场景数据的获取本钱也会显著上升。

当使命重漂后生长到这一阶段，依赖静态数据集和离线构建的训练与评测方法，最先显露出难以回避的局限性。也正是在这里，一个偏向变得越来越自然：让 Agent在现实运行历程中具备自动学习的能力——能够在真实或半真真相形中自主网络履历，对自身行为举行评估与修正，并通过恒久交互逐步形成稳固战略。

从更恒久的手艺演进来看，静态训练与静态评测可能都不是未来Agent系统的生长路径。近期关于online learning的讨论越来越多，更多researcher倾向于以为，若是模子只在既有的人类知识漫衍内循环，就无法突破到更高层级的智能，下一步的能力scaling不是训练完成的那一刻，很可能爆发在模子被安排之后，通过一直的real world RL来获取practical的知识，一连学习、一连顺应。

用户数据飞轮带来高可靠Agent的泛起

一个赢得用户信任的Agent助理需要交付可靠效果，在长程使命中，过失累计效应会呈指数级放大。我们将长程使命Agent的生长类比自动驾驶的生长历程，同样是从有限路段走向通用路段，从依赖频仍人工干预走向长时无干预FSD。该历程的实现依赖于大宗用户驾驶数据的积累，用户数据可以最大化拓展场景的富厚度，并给系统带来最好的泛化性。在长时使命的Agents中，我们同样可以推演，有用的数据累计可以带来高可靠Agent系统的泛起，优先转起数据飞轮的公司将率先实现通用Agent的FSD时刻。

开源链接：

Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

点个“爱心”，再走吧

??时势1：97专区自拍视频

??01月21日,“推动各国实现共同发展繁荣”（大道之行）,

　　小不点止步，他知道遇上了真正的能手，前方有一种极强的符文波动，如一头凶兽从沉眠中醒来。

,deepseek成人版18+。

??01月21日,人民网评：答好春运“考卷” 温暖回乡之旅,

　　第三、提高调解结构、向导群众配合致富的能力。村是农村事情的基本单位，可以说没有村一级的小康和协调就没有州里的小康和协调，没有州里的小康和协调就没有我们全县的小康和协调。这对村级事情的定位和标准提出了更高的要求。我们现在选拔村干部时，都在向自己带动致富并能向导群众致富的强人方面起劲。目今，农村下层干部最主要的使命就是要依托优势，优化农业结构，生长农村经济，向导宽大农民群众实现配合富足。因此，村干部必需牢牢围绕经济建设这其中心，千方百计地向导群众配合致富。首先要因地制宜，选择好一条经济生长路子。就是要求村干部在自己致富后怎样向导群众致富方面要有责任感、要有这方面的能力和水平。要进一步解放头脑，组织和指导宽大群众起劲调解和优化工业结构，捕获致富信息，调动�；と褐谏鹁⑿�，推动本村的经济生长。

,无限臀山最新发布页,美女又黄又湿又刺激又免费,美女露出奶头和尿洞。

??时势2：jojo徐伦被吸乳在线看网站

??01月21日,国足主帅称抱怨裁判没意义,

　　首先，要认清周边地区的生长态势。从地理情形来说，与我市相邻的周边都会都位于豫鄂皖接壤处，都是三省的边沿化地区;从经济生长情形看，同属于欠蓬勃地区，经济现状基内情近，都是农业大市;从生长基础来讲，已往的条件平分秋色，都是在年前后撤地设市的。因此，我们周边市的经济社会生长情形大致相同，统一水平，统一起跑线。可是从最近我们相识的情形看，爆发了新的转变，真是不看不知道，不比不知晓，一看一比吓一跳，周边几个都会生长速率惊人，特殊是城镇化建设的效果特殊显著，可以说是日新月异，面目大变。一是加速城镇化历程的愿望特殊强烈。面临天下各地城镇化快速生长的现实，我们这些欠蓬勃的中西部地区，都注重于通过加速城镇化发动和增进经济社会生长，加速城镇化历程的愿望和要求尤为强烈和迫切，正在千方百战略求城镇化快速生长。位居我市之西的市，坚持市、县、镇三级联动，形成四城联创，加速推进城镇化康健协调生长。该市明确提出，“”时代的斗争目的是把市中心城区建设成为鄂豫陕毗邻地区特大中心都会，全市城镇化率每年提高个百分点，县以上建制镇区常住生齿每年增添，到年，全市城镇化率抵达，中心城区生齿抵达万人，城区面积抵达平方公里，并向远期万生齿、平方公里的目的起劲。这几年坚持区域性中心都会、县城、小城镇同步生长、“三头并进”的城镇化生长目的，力争在今年底，使城镇生齿抵达万人，城镇化水平抵达。紧邻我市东部的省市实验非平衡生长战略，优先生长重点中心城镇和建制镇，以钻营实现城镇化跨越式生长，力争到年城镇生齿抵达万，城镇化率抵达。二是推进城镇化建设的力度超常有力。相邻各市都把加速城镇化历程作为生长经济的突破口和赢得新一轮区域竞争优势的重大战略来抓，纷纷接纳超通例步伐，增强向导实力，实验优惠政策，加大资金投入，强力推进生长。市把提高都会化水平，扩大都会规模，增强都会发动辐射能力，作为全市事情的重中之重，去年一年投入亿多元用于城镇建设，这相当已往几年城建投入的总和，投入力度显着加大。市也不吝重金加大城镇化建设的资金投入，近三年该市用于城镇基础设施的资金达亿元之多，全市城镇面目大为改观。市通过深入开展建设星级城镇活动，加速农村生齿的转移，使小城镇获得快速生长，近年全市城镇生齿增添万人。年以来，市县累计投资城镇基础设施建设近亿元，使城区面积抵达平方公里，常住生齿万多人，占全县总生齿的，全县城镇化率抵达。三是城镇化水平显著提升。近几年，周边几个都会城镇化的程序显着加速，城镇化率每年都以个百分点以上的速率递增。阻止年底，城镇化率水平都在以上，最高是省市抵达，其次是我省市抵达，我市为。预计到今年底有些都会城镇化率将突破。城镇规模迅速扩张。周边各市都接纳建设新区等步伐，拉大都会框架。近年来，省县城镇建成区面积扩大了一倍，转移了近万农民进城进镇就业和生涯。年底，周边个省辖市的中心城区生齿均在万人以上，面积平方公里以上。其中抵达万人以上的有市、市，万以上生齿的有市、市、市;万以上生齿的有市、市。市中心城区生齿最多，市区生齿已达万人;中心城区建成区面积最大，抵达平方公里。城镇综合效劳功效增强。市中心城区垃圾处置惩罚率达，供水普及率，燃气普及率，人均公共绿化面积平方米。城镇经济实力大大增强。城镇化快速生长，对经济拉行动用愈来愈显着。今年元至九月份，周边都会经济总量大幅攀升，其中，市抵达亿元，市抵达亿元，市抵达亿元，市抵达亿元，划分为全省第位、第位、第位和第位，我市国民生产总值为亿元，居全省第位。

,一级黄色性小视频,一本视频黄色,大众生AV中文字幕。

??01月21日,美国一小学发生枪击致两名学生受伤警方：既可怕又可悲 ,

　　“大人定心，这个孩子未来也许会不小心坠井、落山、或遭猛禽袭击而死，属于意外，没有一点痕迹与破绽。”

,为爱igao激情在线观看,黑人黄色网站,xxnx 69。

??时势3：AV在线电影一区二区

??01月21日,广铁受粤北等地暴雨影响的线路运输秩序全部恢复,

　　3、提高清静意识、自我�；つ芰托形娣端�，自觉遵纪遵法，自觉远离网吧和营业性娱乐场合。

,又硬又粗又大又爽时间持久,人妻人人操,www.黄色网站免费看不卡。

??01月21日,“熊猫杯”中国慢垒联赛分站赛结束超万人参赛,

　　“好恐怖，幸亏我们暂时退却了，不然大都和他们一个下场啊。”石林虎一阵后怕，发明脊背都被冷汗打湿了。

,26uuuuuu,无费一级黄色大片,欧美性爱4。

??时势4：亚洲另类小说视频图片

??01月21日,新疆且末群众在塔克拉玛干沙漠边缘植树造林,

　　这才片晌间罢了，地上就是一层遗体了，古巢入口的尸骸更是堆成了一座小山，各个种族的生灵都有。

,在线插美AV,欧美国产宗合,女仆在床上做运动。

??01月21日,宁夏“警旅联动”促进出入境旅游业健康发展,

　　现在的情形也没有多好，总有垃圾果皮在河中“漂荡”，总有塑料袋在空中“翱翔”，总有纸巾在树上“吊着”，这些垃圾简直是无处不在!河水从原原来的清洁酿成了龌龊，从原先的碧蓝酿成了墨黑，从原先的无味变得恶臭，可笑的是，我们还作为观众在对爆发的一切置若罔闻。人们啊，你们究竟想怎样样?!想继续导演这场杯具?照旧从谁人这场恶梦中苏醒?

,A级黄片在线视频免费观看,日本在线播放,请搜索亚洲家庭乱伦。

【安徽省纪委监委原一级巡视员谢强被开除党籍】

【央广财评 | 连续11年全球最大工业机器人市场中国新质生产力产业正成长】

责编：潘少静

审核：董保锋

责编：鲍曼——

k1体育麻将胡了

xbench宣布AgentIF-OneDay评测：Agent能否自力干完“一天的活”？