当前位置:首页 > 企业新闻

人的脸部动作和语音不道德需要实时
本文摘要:实际上,微软公司的研究人员明确提出的技术是基于自学潜在表现的自我编码器(按:variationalautoencode、VAE)。为了训练和测试VAE,研究人员选择了GRID:这是视频资料库,各资料库包括34位出演者的录音1000份CREMA-D:包括742个电影片段,91位出演者的LRS3:包括最多10万个TED视频中的口语资料库。

音频

更多研究指出,只要有足够多的语料库,人的脸部动作和语音不道德就需要实时。两年前,卡耐基梅隆大学的研究人员公开发表了一篇论文,描述了将一个人的脸部动作转移到另一个人的方法。

今年6月,三星的应用被科学家说明了端对面的模型,有必要把头部特写的眉毛、嘴、睫毛和脸颊分解成动画。意意味着几周后,Udacity展示了一个系统,可以从音频开头自动分解双脚演讲视频。根据以前的研究和工作,微软公司的研究团队本周明确提出了技术。他们声称,这种技术需要提高声头像动画的真实性。

在此之前,头部动画的分解必须明确,比较无噪音的声音和中性的声音。现在,研究者回答说,他们的技术需要将音频序列分解为语音内容和背景噪音等因素,可以用于噪音和感情色彩的数据样本。(公共编号:)录像:照片来自Microsoft,声音有差异。不同的人在不同的环境下使用同一个词,其持续性、振动幅度、语调等各不相同。

研究

除了语音内容,语音本身还支持非常丰富的信息,需要说明人的感情状态、身份(性别、年龄、种族)和个性等。实际上,微软公司的研究人员明确提出的技术是基于自学潜在表现的自我编码器(按:variationalautoencode、VAE)。VAE需要将输出的音频分解为不同的表现形式,包括代码内容、表情和其他变化因素,在输出音频的基础上,从中抽样内容对序列进行反应,该序列与输出的脸部图像一起被送到视频生成器进行脸部动画处理。为了训练和测试VAE,研究人员选择了GRID:这是视频资料库,各资料库包括34位出演者的录音1000份CREMA-D:包括742个电影片段,91位出演者的LRS3:包括最多10万个TED视频中的口语资料库。

中性

研究人员将GRID和CREMA-D的数据输出到模型中,识别声音和感情密切相关,用于一对定量指标-峰值信噪比(PSNR)和结构相似度指数(SSIM)评价视频分解的质量。该研究团队的反应表明,他们的方法与其他明确、中性的口语表达方法在所有指标上相同。此外,他们注意到,这种方法不仅需要在整个情感光谱上继续显示,还需要与当前最先进的设备相容的传声头像方法。

值得注意的是,其变种特异性的可学先验方法需要扩展到其他语音因素,如身份和性别,这些因素需要探索未来工作的一部分。通过测试噪音和情感音频样本,研究人员检查了其模型,指出在音频变化的情况下,该方法高于当前数量的技术水平。记录:本文编译器自KYLEWIGGERS发表于venturebeat。

视频

微软公司的研究成果:https://arxiv.org/pdf/1910.00726.pdf原始文章,允许禁止发布。下一篇文章发表了注意事项。


本文关键词:视频,研究,足球外围网站,中性,语音,资料库

本文来源:足球外围滚球app-www.artsalon-9.com