AI的这种音色迁移技术可称为变声技术,可以将任何人的声音转换成特定人的声音(Any-to-One)。与 内的IT公司比较起来,搜狗公司的AI变声功能已经达到实用的阶段。搜狗CEO王小川在 场大会上进行了展示。通过手机软件,王小川用AI变声模拟了高晓松和东北妹子的声音,引得现场连连发笑。
比起AI之前的语音服务,如导航、智能音箱、问题解读等,变声技术是AI语音技术的重要升 ,如果说之前的AI语音服务还在追求以什么样的语音,以及如何使AI的语音更像人的声调和音色为用户和公众提供更好的服务,那么现在的AI变声技术则进 步扩大了AI的应用范围,既有可能让AI语音更好为公众服务,也有可能让AI语音步入歧途,成为诈骗的工具。前者是向善和行善,后者是从恶和行恶。
AI的变声技术是 种逼真的语音合成技术,它的基础是神经网络和机器学习。神经网络模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理,从大量样本数据中总结出共同特征,再通过机器学习模拟特定人的声音,达到以假乱真的效果。显然,这样的变音技术有很多用武之地,凡是可以采用语音或有声服务的地方,都可能获得这类服务和应用,如语音交互、有声读物、新媒体、智能客服、大众娱乐等。不过,AI变声技术的短板也是显著的,如果有人利用这种技术向任何特定的人打电话以扮演其亲人、朋友、同事、上 的声音,就会让人难以辨别真假。
不过,与AI变声技术相似的另 种AI语音技术似乎向善的成分大 些,这就是“讲话到面孔”技术,也可称为“闻声识人”技术。研究人员设计了 种智能软件,把网上搜集的数百万段教学和音像视频中的每个人的面部特征与其讲话的声音特点匹配和相联,形成 种可供计算机学习的大数据,通过深度学习,这种智能软件仅仅通过听 个人的声音就可以画出(显示)其相貌,而且八九不离十,但是,现在这种软件还不成熟。
“讲话到面孔”的AI语音技术完全可以应用到刑事鉴识中,可以与较早的模拟画像技术 道成为刑事鉴识的补充技术。模拟画像技术是基于找不到嫌疑人的影视资料、声音和照片,或者是嫌疑人的图像很模糊,只能通过受害人或目击者的口述,由刑侦人员画出嫌疑人的相貌。2017年6月9日,克里斯滕森杀害中 访问学者章莹颖,在案件侦查之初,美 联邦调查局(FBI)就向擅长模拟画像的中 警官林宇辉发出邀请,请他协助画出嫌犯的画像,而当时能提供的嫌犯图片就来自街边监控摄像头上的模糊截图。
无论是AI变声技术,还是“讲话到面孔”的AI语音(闻声识人)技术,都是AI语音技术的升 。技术是中立的,关键在于如何使用这类技术。在这类技术应用于社会生活和工作之前,制定对其严格管理的措施 为紧迫和必须。
2019年4月,全 人大常委会审议的《民法典人格权编(草案)》里加了 条规定:任何组织和个人不得以利用信息技术手段伪造的方式侵害他人的肖像权。同样,如果AI语音技术发展了,也应当加上不得以信息技术手段伪造的方式侵害他人的声音权,同时要单独在人工智能立法中涉及AI合成不得侵犯他人的肖像权、声音权等。任何未经授权的合成肖像、合成音频均属于侵权违法行为。
尽管如此,还是需要有 部明确的法律来规范包括语音、肖像等在内的AI新产品和应用,使其只能向善行善,而非向恶行恶。
【潮流家电网版权声明】:本网站注明转载的内容均来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现网站上有侵犯您的知识产权的作品,欢迎提供相关证据,发送邮件至731801816@qq.com,我们会及时修改或删除。
未经正式授权严禁转载本文,侵权必究。