来源:东财 2024/11/14 11:00:17
据媒体报道,OpenAI正准备推出一款代号为“Operator”的全新AI助理产品,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。根据内部员工爆料,OpenAI领导层预计将在2025年1月发布该产品,首先作为研究预览版和开发工具推出,届时将为开发人员开放API接口。报道称,OpenAI一直在进行几个与智能体相关的研究项目。
据媒体报道,OpenAI正准备推出一款代号为“Operator”的全新AI助理产品,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。根据内部员工爆料,OpenAI领导层预计将在2025年1月发布该产品,首先作为研究预览版和开发工具推出,届时将为开发人员开放API接口。
报道称,OpenAI一直在进行几个与智能体相关的研究项目。其中一位人士表示,最接近完成的将是一个在网络浏览器中执行任务的通用工具。
AI助理(AI Agent)是一种能够感知环境、进行决策和执行动作的智能实体,具备通过独立思考、调用工具去逐步完成给定目标的能力,既能为C端提供个性化应用,也能为B端提供降本增效方案。对于普通用户而言,AI助理最核心的功能是AI自主操作手机,辅助完成复杂推理任务。
OpenAI首席执行官
站在OpenAI的角度,其在商业化进程中面临着越来越大的压力, ChatGPT渐进式的改进可能无法吸引用户支付更高的价格。高管急切需要一款突破性产品,以证明对AI开发的巨额投资是值得的。
目前,OpenAI已开源了多功能协同AI Agent——Swarm,可创建多个智能体协同工作,以更高效地完成任务。其GPT o1模型增强了推理能力,使其在复杂问题的解决和用户交互的自然性方面均有显著进步,亦使其更加适用于AI Agent场景。
AI助理被视作通往AGI的核心基础,在硬件厂商言必称AI的时代,AI助理或成为终端智能化的突破口。甬兴证券表示,AI Agent或将掌握移动互联新入口,流量分发格局有望重塑AI Agent智能体因具备较强交互性以及便利性,或可打通原先同个终端不同App之间的天然壁垒。
据《科创板日报》不完全梳理,国内外头部厂商正争先推出AI助理产品——
微软近期低调开源了AI工具OmniParser,其可帮助用户创建个性化智能体,以操作个人计算机;10月22日,微软宣布在Dynamics 365中集成10个自主AI Agent,支持OpenAI最新模型o1,具备自主学习能力,可自动执行跨平台复杂业务;9月,微软推出了一款名为Wind Agent Arena的基准框架,同样属于AI助理开发范畴。
据The Information报道,谷歌计划在12月预览其大型动作模型“Project Jarvis”,该项目将帮助用户执行诸如“收集研究、购买产品或预订航班”等任务。
10月22日,Anthropic为大模型Claude迭代了新功能——Computer Use,让AI可以像人一样操控电脑。Claude3.5 Sonnet是首个支持计算机控制的模型,能够模拟人类操作计算机,包括移动光标、点击按钮和输入文本。
苹果选择将Siri与ChatGPT集成,实现更智能的人机交互,另有网友发现苹果已经默默发布了Ferret-UI的两个实现版本(分别基于Gemma 2B和Llama 8B),这是苹果今年5月发布的一个可让AI理解手机屏幕的技术。
华为则公布了一项可让AI像人类一样操作手机的新研究成果,相关团队提出了一个手机控制架构:Lightweight Multi-modal App Control(轻量级多模态应用控制,简称LiMAC)。
中国独角兽企业智谱AI已上线AI助理工具AutoGLM,无需手动操作,用户对着手机说话(发出指令),便可让其自动打开手机上的各类App,进行网购、点外卖、订高铁票,甚至发微信、抢红包、评论朋友圈、整理笔记并生成攻略、总结论文。
(文章来源:财联社)