最近,OpenAI对ChatGPT进行了一系列升级,增加了声音和图像理解能力。ChatGPT现在不仅能够处理文本,还能理解图片和声音数据,这是基于多模态GPT-3.5和GPT-4模型的扩展。这些模型结合了语言推理技能,可以处理多种类型的图像,如照片、屏幕截图及含有文本和图像的文件。
OpenAI表示,他们采取逐步部署的策略,旨在确保人工智能(AGI)的安全和有益。这种策略的重要性随着涉及声音和视觉的先进模型的增加而变得更加重要。例如,新的声音技术可以从短暂的真实语音中生成现实的合成声音,这在创意和无障碍应用中有很多应用前景。然而,这些能力也带来了新的风险,比如冒充公众人物或进行欺诈活动的可能性。
除此之外,OpenAI还关注用户如何使用这些新功能,并且在实际部署之前与多个团队进行合作测试,以降低风险。例如,他们与“Be My Eyes”——一个为盲人和低视力者提供帮助的免费移动应用程序合作,以了解这些功能的实际用途和局限性