OpenAI推出了GPT-4o“omni全能”模型,现在为ChatGPT提供动力

OpenAI推出了GPT-4o“omni全能”模型,现在为ChatGPT提供动力

OpenAI于周一发布了一款新的旗舰生成式人工智能模型,他们称之为GPT-4o — 这里的“o”代表“omni全能”,指的是该模型处理文本、语音和视频的能力。在接下来的几周内,GPT-4o将“迭代地”在该公司的开发者和面向消费者的产品中推出。

OpenAI首席技术官Mira Murati表示,GPT-4o提供了“GPT-4级别”的智能,但在多种形式和媒体上改进了GPT-4的能力。

“GPT-4o可以跨语音、文本和视觉进行推理,”Murati在周一在旧金山的OpenAI办公室进行的直播演示中说道。“这非常重要,因为我们正在关注我们与机器之间的互动的未来。”

OpenAI之前的“领先”“最先进”的模型GPT-4 Turbo是在图像和文本的组合上进行训练的,可以分析图像和文本以完成任务,比如从图像中提取文本,甚至描述这些图像的内容。但GPT-4o加入了语音。

这使得什么成为可能?有各种各样的事情。

GPT-4o极大地改进了OpenAI AI驱动的聊天机器人ChatGPT的体验。该平台长期以来一直提供语音模式,使用文本到语音模型转录聊天机器人的回答,但GPT-4o对此进行了强化,允许用户更像与助手交互地与ChatGPT互动。

例如,用户可以向由GPT-4o驱动的ChatGPT提问,并在ChatGPT回答时打断。OpenAI表示,该模型具有“实时”响应能力,甚至可以捕捉到用户语音中的细微差别,作出“一系列不同情感风格”的声音(包括歌唱)。

GPT-4o还提升了ChatGPT的视觉能力。给定一张照片 — 或一个桌面屏幕 — ChatGPT现在可以快速回答相关问题,从“这个软件代码中发生了什么?”到“这个人穿的是什么品牌的衬衫?”等话题。

这些功能将在未来进一步发展,Murati表示。虽然如今GPT-4o可以查看一张菜单的图片并将其翻译成不同语言,但在未来,该模型可能允许ChatGPT,比如“观看”一场现场体育比赛并向您解释规则。

“我们知道这些模型变得越来越复杂,但我们希望交互的体验实际上变得更加自然、简单,让您根本不用关注用户界面,而只需专注于与ChatGPT的合作,”Murati说。“在过去的几年里,我们一直致力于提高这些模型的智能……但这是我们在使用的便捷性方面迈出的第一大步。”

OpenAI声称,GPT-4o也更具多语言能力,在约50种语言中性能更优。OpenAI还表示,在OpenAI的API和微软的Azure OpenAI服务中,GPT-4o的速度是GPT-4 Turbo的两倍,价格是GPT-4 Turbo的一半,并且具有更高的速率限制。

目前,语音不是GPT-4o API的所有客户的一部分。OpenAI称,由于滥用的风险,他们计划首先在未来几周内向“一小部分受信任的合作伙伴”推出对GPT-4o新音频功能的支持。

从今天开始,GPT-4o在ChatGPT的免费版中可用,并且对OpenAI的高级ChatGPT Plus和团队计划的订阅用户提供“5倍”更高的消息限制。(OpenAI指出,当用户达到速率限制时,ChatGPT将自动切换到GPT-3.5,这是一个更旧、功能更弱的模型。)由GPT-4o支持的改进的ChatGPT语音体验将在接下来的一个月左右的时间内向Plus用户提供α版,同时提供企业专用选项。

在相关消息中,OpenAI宣布他们正在网络上发布一个更新的ChatGPT UI,具有新的“更具对话性”的主屏幕和消息布局,并且为macOS提供了一个ChatGPT的桌面版本,使用户可以通过键盘快捷键提问或拍摄并讨论截图。ChatGPT Plus用户将首先获得这个应用程序的访问权限,从今天开始,Windows版本将在今年晚些时候推出。

此外,OpenAI的GPT Store,用于第三方聊天机器人的库和创建工具,现在已经对ChatGPT的免费版用户开放。免费用户可以利用以前被限制访问的ChatGPT功能,比如一种记忆功能,允许ChatGPT“记住”未来交互的偏好,上传文件和照片,并搜索网络以获取及时问题的答案。

发表评论