快捷搜索:  

openai藏了1年众的身手正式公然,15秒素材克隆声音,heygen也正在用

"openai藏了1年众的身手正式公然,15秒素材克隆声音,heygen也正在用,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作OpenAI藏了1年多的技术正式公开,15秒素材克隆声音,HeyGen也在用量子位·2024-04-01 08:22关注还帮助病患恢复了声音

OpenAI雪藏的新产品——语音合成引擎Voice Engine,终于被正式揭幕。

有了它,只需15秒的语音样本,就能克隆出一个人的声音,而且还能跨越语言!

APP版ChatGPT中的语音对话功能,也正是由这项技术所驱动。

效果如何?先来听段DEMO:

Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function.盐分也可以保持人体内的水分,确保其满足正常功能的需要。

而OpenAI通告显示,他们(They)在2022年底就已经开发出了这项技术,但出于安危考虑一直没有正式发布。

这次,OpenAI终于官宣了Voice Engine,并展示了小规模测试中的几个应用案例。

比如,一家非营利医疗机构就利用(Use)这项技术,为一名年轻的病人恢复了她的声音。

另外值得一提的是,去年爆火的视频翻译软件HeyGen,采用的语音引擎也正是Voice Engine。

那么,这次OpenAI还展现了哪些效果,下面就来一睹为快。

01 用AI帮助病患恢复声音

首先是利用(Use)基础的语音合成能力,为儿童等不具备文字阅读能力的群体提供阅读辅助。

比如一家儿童培育技术公司,就一直在使用Voice Engine来给编写好的画外音内容配音。

DEMO中生成的大段内容,都是基于这样一段15秒的样本:

然后,就可以合成相同音色的长段语音:

再来看看HeyGen中用到的的语音翻译技术,原始素材是一段英语的音频:

它被用原始的音色,翻译成了普通话、法语、德语等多种语言。

忽略译文的质量,只听声音,中文的效果是这样的:

音色保持的还算不错,不过腔调很明显一听就是外国人在说中文。

至于这到底是个bug还是个feature,就见仁见智了(手动狗头)。

此外,一款名为Livox的残障人士辅助应用,也利用(Use)Voice Engine为不能说话的残障人士“发出声音”——

在有了Voice Engine之后,TA们可以选择专属的真人音色,而不再是机械感明显的合成音,并且在各种语言之间都能保持音色的一致性。

不只是帮助残障人士拥有自己的声音,Voice Engine还可以为因疾病导致声音发生在重大改变的人群,恢复患病之前声音,只要有以前的声音样本就能达成。

一名年轻的患者因罹患血管性脑肿瘤,失去了流利讲话的能力,说话变成了这样:

医生(Doctor)从她所在学校录制的视频中提取到了她患病前的声音作为样本,在Voice Engine的帮助下为她恢复了此前的音色。

此次发布的案例,特别是为不便人士提供帮助的场景受到了不少好评,但也有网友对这项技术的滥用表达了担忧。

02 安危问题需要全社会(Society)共同关注

实际上,安危问题也是OpenAI迟迟未将这项技术公之于众的主要考量。

出于安危考虑,前面案例的开发者都经过了OpenAI的严格筛选,并且需要承诺遵守使用协议。

这些开发者被要求必须明确说明声音是合成的,并且设定了黑名单以防止克隆公众人物声音。

此外,OpenAI还向合成的声音中添加了水印,以便出现问题时可以进行(Carry Out)检测监控,同时呼吁人们采取措施共同应对这一问题:

在银行等敏感信息的安危验证措施中逐步淘汰语音验证方式

探索AI时代下个人声音的保护措施

培育公众理解AI的局限性,并了解其被用于欺诈的可能

加速开发跟踪溯源技术,让人们能够清晰辨别出真人和AI

参考链接:https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

本文来自微信公众号“量子位”(ID:QbitAI),作者:关注前沿科技(Technology),36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+11

好文章,需要你的鼓励

量子位特邀作者2收  藏+10评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章1150亿美元建AI超算中心,打开大模型“星际之门”,耗电量需核电支持被AI面试,打工人(Worker)的“福报”又多了打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车AI迎来Uber时刻,初创公司如何构筑新护城河?1000亿美元宇宙级豪赌,微软OpenAI打造星际之门AI超算,电力能耗惊人我的领导马斯克:痛恨开会,不要非技术中层,推崇裁员恐怖谷,哥大华人开发“人脸机器人”,照镜子自主模仿人类表情超逼真《妈妈咪呀》世界女星一夜被AI端掉饭碗iOS史诗级更新来了,比iPhone 16更值得期待最新文章推荐买Prada的张坤和“钢铁直男”林英睿“一鸟二象三鼠”,户外三神兽逐鹿祖国1150亿美元建AI超算中心,打开大模型“星际之门”,耗电量需核电支持世界最虐的马拉松,35年只有20人完赛的神秘赛事市值缩水千亿、增速创八年新低,长春高新还有哪些牌可打?山东新首富之争,他又败了价格大“爆炸”,二十多万的帕萨特,现在12万+就能买?苏宁易购出现了一点好苗头一批30岁青年不再租房:住公司、住停车场……养元饮品:挤不进的一二线,山寨混乱的三四线量子位特邀作者

作者有点忙,还没写简介

发表文章2112篇最近内容OpenAI藏了1年多的技术正式公开,15秒素材克隆声音,HeyGen也在用1小时前我的领导马斯克:痛恨开会,不要非技术中层,推崇裁员1小时前反英伟达CUDA联盟集结:谷歌英特尔高通牵头,微软亚马逊跑步加入2024-03-28阅读更多内容,狠戳这里下一篇G 端产品经理必看:如何有效管控销售对产品的预期?

这里有4种方法可以解决。

1小时前

热门标签暖脚宝陈丽云bn赵燕菁铁蛋白阿春信息安危技术最低工资规定李正茂小说家滋源胡兴国法兰琳卡基金排行榜黄辉李鹏杰蓝兔猴票祖国第一套邮票黄永玉考研奶奶辟谣联盟鬼怪ost王瑞淇孙博抗血清土楼妈祖社区卫生服务伶鼬关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

OpenAI藏了1年多的技术正式公开,15秒素材克隆声音,HeyGen也在用

您可能还会对下面的文章感兴趣:

赞(136) 踩(29) 阅读数(9225) 最新评论 查看所有评论
加载中......
发表评论