共计 1042 个字符,预计需要花费 3 分钟才能阅读完成。
OpenAI 表示高级语音模式与 ChatGPT 目前提供的语音模式有所不同。
ChatGPT 的旧语音模式解决方案使用了三种独立的模型:一个模型将语音转换为文本,GPT-4 负责处理提示(prompt),第三个模型则负责将 ChatGPT 的文本转换为语音。而 GPT-4o 是多模态的,能够在没有辅助模型的帮助下处理这些任务,从而显著降低对话延迟。OpenAI 还表示 GPT-4o 可以感知用户声音中的情绪语调,包括悲伤、兴奋等等。
今年 5 月,OpenAI 首次展示了 GPT-4o 的语音功能,「她」的反应速度、与真人声音的惊人相似度震惊了观众 —— 问题就出在这儿。
这个名叫 「Sky」 的声音酷似电影《Her》中人工助手的扮演者斯嘉丽・约翰逊(Scarlett Johansson)。
在 OpenAI 演示之后不久,约翰逊说她曾拒绝 OpenAI CEO 山姆・奥特曼关于使用她的声音的多次请求,在看到 GPT-4o 的演示之后,她聘请了法律顾问为自己的声音辩护。OpenAI 否认使用了斯嘉丽・约翰逊的声音,但也删除了演示中的声音。
6 月,OpenAI 表示将推迟发布高级语音模式,以改进其安全措施。
漫长的等待后,「Her」总算与大家见面了。OpenAI 表示,此次推出的高级语音模式将仅限于 ChatGPT 与付费配音演员合作,制作了四种预设语音:Juniper、Breeze、Cove 和 Ember。
值得注意的是,输出的声音有且只有这四种 —— OpenAI 5 月份的演示中展示的 Sky 语音已不再适用于 ChatGPT。OpenAI 发言人 Lindsay McCallum 表示:「ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出。」
这种设置的初衷是避免 Deepfake 争议。今年 1 月,人工智能初创公司 ElevenLabs 的语音克隆技术被用来冒充美国总统拜登,欺骗了新罕布什尔州的初选选民,引发了不小的争议。
OpenAI 还表示,已经引入了新的过滤器来阻止某些生成音乐或其他受版权保护音频的请求。
去年,很多图像生成、音乐生成的 AI 公司因侵犯版权而陷入了法律纠纷,尤其是喜欢打官司的唱片公司,已经起诉过人工智能音频生成器 Suno 和 Udio。而 GPT-4o 这样的音频模型则让可以提出投诉的公司增加了一个全新的类别。
据说,OpenAI 与 45 种语言的 100 多名外部「红队」成员一起测试了 GPT-4o 的语音功能。而这些关键信息,将在 8 月份一份关于 GPT-4o 的功能、局限性和安全评估报告中有更详细的公布。
参考链接: