OpenAI於7月30日终於开始推出ChatGPT的进阶语音模式(Advanced Voice Mode),让用户可首次体验GPT-4o语音对话。目前推出的是alpha版本,先开放给一小部分ChatGPT Plus用户,OpenAI预告今年秋季会逐步向所有Plus订阅户推出。
不过,在GPT-4o发表会中展示的影片(透过拍摄画面和AI互动)和萤幕分享功能,并不会出现在alpha版本,之後版本才会发布。alpha测试人员会在ChatGPT应用程式中收到通知以及一封email,其中包含如何使用新功能的说明。
进阶语音模式和ChatGPT当前的语音功能,差别在既有的功能使用三种独立模型:语音转文字、处理指令的GPT-4,文字转语音模型。但反观GPT-4o是多模态,能在没有其他辅助模型下处理语音任务,显着降低对话延迟,且GPT-4o可感知声音中的情绪语调。
OpenAI解释,会选择逐步释出ChatGPT的新语音,是为了密切监控使用的情况。从GPT-4o发表会至今几个月中,OpenAI已和100多名横跨45种不同语言的抓bug「外部红队成员」,一同测试GPT-4o的语音功能,相关的安全性报告将於8月初发布。
ChatGPT进阶语音模式只会有四种预设声音:Juniper、Breeze、Cove和Ember。OpenAI曾展示出的Sky语音遭女演员史嘉蕾乔韩森指控盗用声音,并指出她早已拒绝阿特曼(Sam Altman)使用她声音的请求。
OpenAI因此下架Sky语音,并於6月表示要推迟进阶语音功能的发布,以改善安全措施。公司也补充,公司引入了新的过滤器来阻止生成音乐或其他受版权保护之音讯的指令。
本文经Inside硬塞的网路趋势观察授权转载,原文发表於此
原标题:GPT-4o 超强语音功能来了!已开放小部分测试