谷歌研究让手语在视频通话中切换“主动扬声器”

signlanguagecomputer.jpg

视频通话的一个方面,我们许多人认为是理所当然的,他们可以切换的方式,以突出谁在说话。很好——如果你是通过说话来交流的话。不幸的是,像手语这样的无声语言不会触发这些算法,但谷歌的这项研究可能会改变这一点。

它是一个实时的手语检测引擎,可以分辨出某人何时在做手语(而不只是四处走动)以及他们何时完成。当然,这对人类来说是微不足道的,但它更难的视频呼叫系统习惯于推像素。

谷歌研究人员的一篇新论文(当然是虚拟的)在ECCV上发表,展示了如何高效地、几乎没有延迟地完成这项工作。如果手语检测成功了,但却导致了视频延迟或降级,那就无法达到目的,所以他们的目标是确保模型既轻便又可靠。

该系统首先通过一个名为PoseNet的模型来运行视频,该模型估计每一帧中身体和四肢的位置。这个简化的视觉信息(本质上是一个简笔画)被发送给一个模型,这个模型根据使用德语手语的视频中的姿势数据进行训练,然后它将现场图像与它认为的手语的样子进行比较。

这个简单的过程已经在预测一个人是否在签名方面产生了80%的准确率,再加上一些额外的优化,准确率达到了91.5%。考虑到大多数电话的“主动扬声器”检测在判断一个人是在说话还是在咳嗽方面只是一般水平,这些数字相当可观。

为了不向现有电话添加新的“某人正在签名”信号,系统采用了一个巧妙的小技巧。它使用一个虚拟音源来产生20千赫的音调,这超出了人类的听觉范围,但却能被计算机音频系统注意到。这个信号在人们签名的时候就会产生,使得语音检测算法认为他们是在大声说话。

现在它只是一个演示,你可以在这里尝试一下,但是似乎没有任何理由不能将它构建到现有的视频呼叫系统中,或者甚至作为一个应用程序来搭载它们。你可以在这里阅读全文传送门

英文原文

评论

公众号:布丁与画家

企鹅:2868579699

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×