没错,OpenAI的智能体期间真的要来了! 据台甫鼎鼎的“谍报员”光头哥爆料,OpenAI在MAC版ChatGPT桌面应用中隐蔽了启用/禁用智能体的选项。 从截图来看,确实是听说已久、代号为“Operator(操纵员)”的辣个: ![]() 而且这则爆料也得到了一样平常关注苹果方面消息的博主@M1的再次佐证: ![]() 根据先容,Operator可以或许接受用户PC,直接取代人类自主实行一系列操纵(如编码开辟应用、订餐,做攻略等等)。 ![]() 与此同时,OpenAI智能体和其他竞争对手(如Anthropic、谷歌智能体),以及人类选手的跑分对比也曝光了。 先划个重点,在几个评估智能体实行主动化使命程度的基准测试中,OpenAI这边均克服了Claude智能体。 ![]() 网友们纷纷冲动表现,看起来离发布已经很近了,大概又会是下一个ChatGPT时候。 ![]() ![]() 而Windows用户则开启了刷屏模式,请不要仅限于Mac、请不要仅限于Mac、请不要仅限于Mac……(OpenAI你听到了吗) ![]() 多个基准跑分凌驾Claude智能体 从光头哥的另一条推文里,昨们看到了OpenAI智能体和其他竞品的具体对比。 ![]() 相干数据来自OpenAI网站,详细为图中标黄部门。 ![]() 单拉出来看,在OSWorld这个专为多模态Agent设置的基准测试中,OpenAI CUA(据推测大概是驱动Operator的AI模子)得分为38.1%,领先于Anthropic的Computer use功能,但还不及人类本身操纵的一半程度。 雷同环境也在WebArena(CMU发布的基于Web情况的基准测试)上演。 不外,在WebVoyager(由腾讯AI Lab发布的多模态网络Agent基准测试)则稍有反转,OpenAI CUA取得了87%的好结果,不但一如既往地领先Anthropic,还以小幅上风凌驾了人类(85.3%)。 ![]() 从一些详细使命的完成通过率来看,有辅助的Operator体现好过完全自主操纵,不外偶然照旧比不上带视觉本领的GPT-4o。 ![]() 有网友据此提问Operator是否不如GPT-4o,对此尚有热心网友指出了二者区别: ![]() 别的,对二者安全性的评估如下,GPT-4o在拒绝非法宣传、极度运动讨论等方面均为100%,而Operator在越狱(Jailbreaks)、举行非法运动以及克制的金融运动方面没有到达100%。 ![]() 必要提示的是,在光头哥看来,以上跑分也大概只是占位符,详细真实性无法包管。(先来个免责声明) ![]() 2025:OpenAI重点结构Agent 究竟上,Operator这款智能体早在客岁11月就有相干爆料。 其时彭博社声称,OpenAI将在来岁1月推出它,来替用户主动实行使命。 ![]() 而如今,也算是进一步佐证了之前的消息。 乃至就在客岁底,OpenAI CEO奥特曼也在新年目的中,明晃晃地将Agent排在前线。 ![]() 而Flag立完后,OpenAI刚一开年也是马不绝蹄地开始了相干动作。 上周,OpenAI就为ChatGPT推出了新功能「Tasks」,让AI有了实行力,可以替你完成各种使命。 ![]() 团体看起来有点方向日程提示,更像Agent的低级阶段。 公道推测,Operator将在此底子上有更多、更强的本领体现。 ![]() 话说,从国表里科技企业对Agent的新追逐来看,本年Agent绝对有好戏看! 据市场研究公司Markets and Markets的分析,AI Agent的市场规模至2030年有望到达471亿美元。 云云吸引下,再加上已经成熟的大模子技能,Agent火爆2025简直不问可知。 乃至就在本年的CES上,英伟达CEO黄仁勋也对Agent大加赞赏: ![]() 此番言论下,相识AI Agent技能也被开辟者们提上了2025学习日程。 ![]() 好嘛,不管是企业照旧个人,接下来各人都得卷Agent了(doge)。 ![]() 海量资讯、精准解读,尽在新浪财经APP
|