av黄片国产亚洲第一,专为热爱品质生活的你打造,每一次点击都是新的惊喜

k1体育麻将胡了

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 天下党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

xbench宣布AgentIF-OneDay评测:Agent能否自力干完“一天的活” ?

2026-01-22 04:05:32
泉源:

猫眼影戏

作者:

英特拉格斯

手机审查

  猫眼影戏记者 欧美范儿 报道Q8X2R7L1T4J5M9B6W3

随着大模子在单点推理上日益迫近PhD水平 ,Agent领域迎来了新的分水岭:短程使命体现惊艳 ,长程使命却显乏力 。为精准评估大模子的多模态明确与重大问题解决能力 ,红杉中国在两周内一连宣布两篇论文 ,旨在通过构建更科学的评估基准 ,预判手艺演进的未来偏向 。

xbench正式推出AgentIF-OneDay评测系统 ,不再纯粹审核模子知道几多知识 ,而是权衡它解决重大使命的能力 。AgentIF-OneDay深入探索了从OneHour到OneDay的能力跨越 ,展现了主流Agent在事情流执行、隐式推断与迭代编辑中的真实体现 。让我们配合见证 ,Agent 是怎样通过Scaling Context与Scaling Domain ,从纯粹的“提问助手”进化为真正创立经济价值的“数字员工” 。

Agent能否协助你一天的生涯 ?

自从红杉中国xbench宣布ScienceQA与DeepSearch以来 ,这两个评测集已经履历了多次迭代升级 。无论是模子自己 ,照旧围绕模子构建的Agent系统 ,都已经在这些以分钟级为单位的集中推理使命上能够稳固胜任 ,从最初的human-average水平 ,逐渐抵达靠近PhD-level的体现 。

随着我们进一步进入Agent能力评测的领域 ,我们发明Agent完成短时使命与长时使命之间保存重大的能力鸿沟 。即便在单点推理和局部使命中已抵达极高水平 ,一旦使命在突破一样平常人一小时可处置惩罚的重漂后 ,Agent的整体完成度就会泛起显着下降 。

从xbench所坚持的理念出发 ,更好的评估模子和智能体在现实事情和生涯中的价值 。我们希望通过评测系统来视察行业手艺蹊径的演进 ,展望模子能力的上限 ,同时也希望给业界增补一个面向utility和economic value的思索视角 。我们提出一个新的视角来明确Agent的能力界线:使命重漂后 ,使命重漂后并不等同于知识点有多深奥或推理难度 ,而是完成一个使命所需的人类时间投入 ,并由此对应其潜在的经济与使用价值 。

我们以为Agent能力的演进会沿着两条主线睁开:scaling context与scaling domain 。这两条轴线配合决议了Agent能够肩负的使命重漂后上限 ,也是Agent系统从工具走向数字员工的生长偏向 。

?Scaling context指的是完成的使命在时间维度上的延展 。随着使命重漂后的提升 ,Agent需要在更长的执行周期中一连维护上下文状态 ,跟踪中心目的与约束 ,并在多办法、多工具的交互历程中坚持一致性 。从分钟级使命 ,到一天级、以致一周级的事情量 。

?Scaling domain则指Agent在使命类型上扩展带来的重漂后 。与高度结构化、domain集中的使命(如coding或数学推理)差别 ,现实天下中的事情往往横跨多个领域与语境 ,差别使命在目的表述、隐含约束、工具使用方法与评估标准上差别显著 。Agent能力的进一步提升 ,陪同着对更广的使命漫衍的笼罩能力 。

xbench在设计AgentIF评测系统时 ,会同时沿着context与domain两个偏向推进 。一方面 ,通过逐步拉长使命对应的人类时间标准 ,从OneHour走向OneDay;另一方面 ,通过笼罩越发多样的生涯、学习与职业场景 ,描绘Agent 在真实天下使命漫衍中的整体能力界线 。

本次宣布的AgentIF-OneDay是xbench在该评测系列中的一个新事情 。我们以人类一天内可完成的使命重漂后作为基准 ,测试一个Agent是否具备在无需人类介入的情形下 ,稳固完成整套使命并交付效果的能力 。只管笼罩更diverse的domain ,包括生涯、学习和职业场景会遇到的多种多样的使命以及多种工具 。

怎样结构一天的典范使命 ?

在对大宗用户真实事情日志举行剖析后 ,我们发明只管详细使命内容差别重大 ,但一样平常事情在类型上泛起出高度稳固的模式 。大大都通俗人的一天可以凭证使用场景被笼统为三个使命类型——事情流执行、规范参考以及迭代式编辑 。

场景一

当你知道该怎么做 ,但执行太繁琐

用户已知完整流程并明确给出操作办法 ,Agent只需准确执行 。我们称此类使命为事情流执行(Workflow Execution) 。

例题

我妄想去NeurIPS 2025 ,帮我计齐整个好的行程计划 。请你先去官网确认NeurIPS 2025聚会的主会场位置(San Diego Convention Center, San Diego)是否准确 ,然后用另一个可靠泉源交织验证这个信息 ,确保万无一失 。接下来 ,帮我网络基本信息 ,好比聚会时间、所在和论文提交阻止日期 ;挂啡贤暾木刍崛粘淌欠褚丫肌羰腔姑恍 ,请明确告诉我 。最后 ,从纽约出发给我两套去圣地亚哥的行程计划:一个最自制的Cheap Plan ,一个最快的Fast Plan 。

当Agent能够在整个流程中坚持一致性、逐步完成办法、并在长上下文中坚持状态 ,就意味着它具备帮我把事情做完的潜力 。这也是大宗用户希望Agent能真正替换重复性劳动的缘故原由——当流程执行能力成熟时 ,Agent就能自然肩负原本需要人工耐心完成的碎片化使命 。

场景二

当你不知道规则 ,只能给个参考

用户不明确知道完整的事情流或者条件约束 ,只提供若干案例或参考资料 。我们将此界说为规范参考(Latent Instruction Inference) 。

例题

我现在用的是iPhone13 Pro Max ,AT&T套餐每月20美元预付费 。我想换iPhone17 Pro Max ;诟郊锏墓夯苹驮擞逃呕 ,帮我找出总本钱最低的方法 。

规范参考是人类最自然的事情方法 ,人们不会每次都从零写起 ,而是需要Agent从提供的示例文件中挖掘出潜在的意图 ,并交付同时知足用户的显示指令与附件的隐式指令;Agent若是具备这种能力 ,就能真正加入内容生产、报告天生、数据整理等职业型使命 ,而不是停留在浅层回覆问题的阶段 。

场景三

当需求自己是动态的 ,要边做边看

人类的事情普遍泛起多轮迭代结构 ,在事情的最先并不知道完整解法、也没有参考示例 ,需要在与Agent多轮交互中逐渐提出新需求 。Agent也必需具备在一直转变的约束下维持上下文一致性并稳固推进使命的能力 。这类使命称为迭代式编辑(Iterative Refinement) 。

例题

拿着这个SVG平面图(venue_layout.svg)和Excel约束表(venue_constraints.xlsx) ,更新会场结构以知足所有约束条件 ,同时坚持设计的可读性和可行走性 。

我们在已往3个月凭证这三个类型 ,制备了AgentIF第一期的题库 ,总共由104道使命组成 ,笼罩了事情、生涯(例如游戏攻略、旅游妄想)和学习 。其中62道由文件驱动的合成使命用于增补长尾场景 ,笼罩PDF、PPT、Excel、图像、代码文件在内的15种以上名堂 。实质上模拟了真实事情流程中极常见的跨名堂、跨泉源的模式 。

每道使命都带有一套细粒度的评判标准 ,总计767个评分点 ,分为正向指标(如名堂一致性、结构复现、办法完整)与负向指标(如误删内容、越界天生、过失操作) 。评测系统接纳LLM作为裁判(值得一提的是Gemini 3-pro的泛起让rubrics打分的准确性也提升到可用的水平) ,并连系网页检索、HTML渲染、多模态比对等要领做自动校验 。在这套机制下 ,agent系统的得分不但取决于它最终是否完成使命 ,还包括流程是否清洁、是否泛起误操作、是否准确剖析附件、是否能在迭代历程中坚持一致性 。

主流Agent的评测效果和启发

在AgentIF的测评框架下 ,我们对现有主流Agent系统举行了系统化测试 ,也有了一些有趣的发明:

发明一:以Overall的完整使命乐成率为标准 ,Manus、Genspark与ChatGPT-Agent都集中在0.62–0.65区间 ,组成当下能力最强的第一梯队 。

这意味着和我们想象的有所差别 ,岂论Agent系统是通过模子原生甚至RL训练出来的模子 ,照旧基于API的工具链集成或深度的multi-Agent系统 ,在完成一套真实使命链时 ,用户侧感受到的能力是较量相近的 。

这一征象在一定水平上印证了模子即Agent的判断——在底层模子能力不爆发转变、且不引入test-time scaling的条件下 ,差别多智能体框架自己难以拉开数目级上的性能差别 ;W踊嶂鸩郊蒩gentic能力 ,下游基于api的Agent产品 ,在能力体现上也会体现出agent rl的能力 。

虽然这些agent系统能力很是靠近 ,但在使命领域上与能力维度保存显着差别 。

发明二:从使命领域上 ,使命领域上从ChatGPT是最优生产力工具 ,Manus是最佳生涯助手 ,Genspark是最勤学习同伴 。

三个产品具有差别迭代偏向 ,ChatGPT-Agent重点关注GDPval ,聚焦专业事情场景的体验;相对来说Manus与Genspark更着重用户反响 。差别的评测体现带来了差别的产品长项与短板 。我们以为优异的通用Agent应当兼顾最多样的使命 ,而不着重一方 。

发明三:在能力维度上 ,GenSpark在隐式指令推断上体现最优 ,Manus在开放事情流执行最优 ,Minimax-Agent具有最好的迭代式编辑能力 。

能力维度的体现纷歧或泉源于Agent框架的差别 。隐式条件推断是现在Agent普遍最薄弱的能力项 。一些使命要求Agent从附件中自动识又名堂规则 ,例如从PPT 模板中抽取页眉页脚结构或引用标注方法 ,再迁徙到新的内容天生中 。我们视察到 ,即即是整体体现最好的系统 ,在这类使命中也很难做到完全准确 。要么名堂复现准确但笼罩缺乏 ,要么内容明确到位但无法坚持结构一致 。

综合来看 ,稳固性、文件处置惩罚链路、隐式结构明确能力 ,以致跨工具的状态治理 ,都是决议Agent能否真正肩负一天事情量的要害环节 。AgentIF-OneDay通过这类使命 ,展现了目今Agent在真实使用场景中的能力界线和一些常见的失效模式 ,也资助我们更清晰地看到下一阶段能力演进的偏向 。

展望:从oneday、oneweek到一连学习

随着系统能力一直提升 ,我们预计在2026年Agent将最先挑战one-week的人类事情量 。围绕one-week的人类事情量 ,我们已经最先着手构建OneWeek的评测集 。我们以为当一个Agent能够在一周标准的事情量上坚持稳固高质量的产出 ,它就具备了肩负真实岗位的能力 ,也能够在组织内最先创立更多现实价值 。

与AgentIF-OneDay相比 ,OneWeekIF面临的挑战并不但是使命变得更长 。随着时间跨度增添 ,评测自己的出题难度也增添许多 ,rubric的设计会越发严酷 。一周标准的使命往往最先泛起出明确的行业语境 ,无论是金融、医疗照旧执法 ,这些高价值场景数据的获取本钱也会显著上升 。

当使命重漂后生长到这一阶段 ,依赖静态数据集和离线构建的训练与评测方法 ,最先显露出难以回避的局限性 。也正是在这里 ,一个偏向变得越来越自然:让 Agent在现实运行历程中具备自动学习的能力——能够在真实或半真真相形中自主网络履历 ,对自身行为举行评估与修正 ,并通过恒久交互逐步形成稳固战略 。

从更恒久的手艺演进来看 ,静态训练与静态评测可能都不是未来Agent系统的生长路径 。近期关于online learning的讨论越来越多 ,更多researcher倾向于以为 ,若是模子只在既有的人类知识漫衍内循环 ,就无法突破到更高层级的智能 ,下一步的能力scaling不是训练完成的那一刻 ,很可能爆发在模子被安排之后 ,通过一直的real world RL来获取practical的知识 ,一连学习、一连顺应 。

用户数据飞轮带来高可靠Agent的泛起

一个赢得用户信任的Agent助理需要交付可靠效果 ,在长程使命中 ,过失累计效应会呈指数级放大 。我们将长程使命Agent的生长类比自动驾驶的生长历程 ,同样是从有限路段走向通用路段 ,从依赖频仍人工干预走向长时无干预FSD 。该历程的实现依赖于大宗用户驾驶数据的积累 ,用户数据可以最大化拓展场景的富厚度 ,并给系统带来最好的泛化性 。在长时使命的Agents中 ,我们同样可以推演 ,有用的数据累计可以带来高可靠Agent系统的泛起 ,优先转起数据飞轮的公司将率先实现通用Agent的FSD时刻 。

开源链接:

Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

点个“爱心” ,再走 吧

??时势1:小蝌蚪视频国产

??01月22日,生态环境部印发《生态环境部门进一步促进民营经济发展的若干措施》,

  在“五四”青年节即将到来之际 ,今天省局机关团委组织召开机关团员青年座谈会 ,纪念“五四”运动90周年 ,泛论体会和感受 。我很兴奋加入这个聚会 ,在此首先向全省国税系统宽大青年致以节日的问候 。目今省局机关正在开展“转变作风抓落实”主题实践活动 ,各市局也在开展深入学习实践科学生长观活动 ,以是今天的座谈会 ,也是我与团员青年们一起谈谈心 ,听听各人心声 ,相同交流头脑 。适才列位青年月表的讲话讲得很好 ,各人联系事情、生涯和学习现实谈体会 ,谈感受 ,对怎样施展青年干部的智慧才智 ,怎样当好岗位能手效劳广东国税科学生长谈了许多看法 ,并以实事求是的态度对做好省局机关或广东国税系统事情 ,搞好共青团和青年岁情提了意见和建议 。我听后感应欣慰 ,也很受启发 。适才 ,建生同志还对青年同志们的事情给予了肯定 ,并提出了一些希望和要求 ,我完全赞成 。一直以来 ,省局党组对青年的头脑、事情和生涯很是体贴 ,今天青年同志们提的一些建议 ,反应的一些问题 ,人事处和机关党委办要实时整理、反响给省局机关有关部分 ,与有关部分起劲研究 ,条件成熟能解决的尽快解决 ,条件还不可熟一时解决不了的要创立条件加以解决 。在全省国税系统 ,青年干部占较大比重 。宽大青年干部学习认真 ,事情起劲 ,近年来广东国税在上级的准确向导下取得了很大效果 ,这是与宽大青年的起劲斗争分不开的 ,尤其是在总局征管软件上线、各项税收刷新等重大事情中 ,宽大青年干部在各自岗位上施展着主要作用 。在此 ,我代表省局党组向全省国税系统宽大青年体现衷心的谢谢和高尚的敬意!

,中文字幕丝袜无码第一页 。

??01月22日,释放银发经济潜力 托起幸福“夕阳红”,

同上一堂国家清静教育课小我私家 篇9

,精品污国产网站免费观看入口,美女在线永久免费视频网站,好爽 好紧 军人开荤 。

??时势2:美女脆床 被 视频

??01月22日,新疆阿克苏地区乌什县发生3.9级地震 震源深度16千米,

  二、统一头脑 ,提高熟悉 ,进一步凝聚加速都会建设的共识

,欧美区在线,欧美黄片1区,2区,3区,ADM-529森日向 。

??01月22日,台湾花莲县发生5.7级地震 震源深度10千米,

  增强干部的作育、选拔、交流与羁系事情 。凭证市委组织部的要求 ,集中调解了名后备干部 ,选派了名后备干部挂职磨炼 ,名后备干部到市委党校学习 。并凭证事情需要 ,选拔任用了名干部 ,内部交流干部名 ,使系统各级向导班子的结构和素质获得显着改善 。

,久久aa毛片免费播放嗯啊,国内偷拍2021,丰满的人妻一级毛片 。

??时势3:欧美性爱免费视屏

??01月22日,文化中国行丨联播一瞬带你走进中式美学下的园林秋色,

  “啊噗”

,区精品视频在线播放,娐妇BBB,一级性爱乱伦视频 。

??01月22日,倒计时一周年 成都世运会口号、吉祥物正式发布,

  一根雪羽长达五六米 ,流动皎洁绚烂 ,很是圣洁 ,上面站着一个老人 ,以及两个少年 ,尚有两个漂亮的小女人 ,漂亮的跟精灵一样平常 ,眸波流转 ,顾盼生辉 。

,国内精品免费视频在线拍,欧美精选精品系列,舞蹈生被玩到高潮求饶 。

??时势4:亚洲 第十页

??01月22日,“公园省”贵州:新潮玩法引爆“五一”假期,

  在电视里 ,我又望见 ,那里有灾难 ,那里就有消防战士的身影 。地动中、冰灾中、洪水灾难中……消防战士用自我的起劲拯救了无数人民的生命 ,他们那种舍己为人的精神 ,不是人人都有的!

,欧美图片亚州图片性爱图片自拍偷拍,拳交性爱app,免费AAA一级 。

??01月22日,贵州台江:苗族村寨欢度传统“二月二”,

  最后 ,他们在密林中相见觉 ,小石昊现身 。

,国产伦人人人人人人性,人人对人人爱上碰,www..com黄色电影 。

责编:邝某

审核:比西里

责编:梁国发

相关推荐 换一换

Copyright (C) 2001-   dzwww.com. All Rights Reserved

新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证

山东省互联网传媒集团主理  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

网站地图