铜灵 丽翔 凹非寺物理位 子公司出品 | 社会公众号 QbitAI
那时,加利福尼亚大学美国纽约附属小学(UCSF)和Facebook在Nature Commuications上刊登的几项科学研究表明:
她们在“非伪麻”的佩戴电子设备上获得了韦谢列,构筑出了两个神经控制系统-电脑控制系统,能精确音频配戴电子设备的人听见和讲出词汇和谈话,动态从神经控制系统讯号中音频。
换句话说,在此种虚拟实境USB眼前,你的领悟想像已随处可藏,Facebook早已让想像力写字正式成为了现实生活。
在此之前,特斯拉的虚拟实境USB子公司Neuralink也正式发布过虚拟实境USB控制系统,但此种伪麻的电子设备须要向神经控制系统中置入3000数个阴极,以来检验突触的公益活动,但非伪麻的电子设备就褫夺了繁杂的置入关键步骤。
科学研究相关人员则表示,现阶段对聚合和交互的两部份词汇展开音频,精确度远远超过了她们的想像,依次能达至61%和76%的精确度。
此项工程项目对健康人和残疾儿童而言,都具备新颖象征意义。
比如说,你能将观念洛佐韦到音频副手siri,查阅天气、搜寻重要信息不必间接Puits了。
科学研究相关人员之一、加利福尼亚大学美国纽约附属小学神经外科医生Edward Chang则表示,这是向神经置入物迈出的重要一步,因为中风,脊髓损伤或其他疾病而失去说话能力的患者,有望因此获得自然交流的能力 。
如何想像力转音频
此项成果来自Facebook Reality Labs,一直与加利福尼亚大学美国纽约附属小学合作开展此项虚拟实境USB的科学研究。
Facebook的设想是,设计一种能将神经控制系统讯号切换成词汇的装置,不须要劳动任何一块肌肉,深度学习就能间接读懂神经控制系统,音频脑中想像,实现流畅交流。
为了展开试验,科学研究相关人员在此之前还招募了五名在医院接受癫痫治疗的志愿者。
她们先是从高密度皮层公益活动中提取相关讯号特征。志愿者们说了上百句话,而通过置入性神经控制系统皮层电图(ECoG),科学研究相关人员能跟踪控制词汇和发音的神经控制系统区域的公益活动,并将这些公益活动与志愿者说话时嘴唇、舌头、喉部和下颚的微妙运动联系起来,然后将这些运动学特征翻译成口语句子。
科学研究相关人员采用bLSTM(bidi-rectional long short-term memory)循环神经网络来破译ECoG讯号表达的运动学表征。
接着用另外两个bLSTM音频先前破译的运动学特征中的声学特征。
在这个过程中,两个神经网络都会被投喂训练数据,以提高它们的音频性能。
在今年的四月份,利用这样的方法,Facebook早已实现了以每分钟150词的速度帮你讲出领悟想像。
而在这篇最新的论文Real-time decoding of question-and-answer speech dialogue using human cortical activity中,她们在在此之前科学研究基础上,科学研究相关人员想进一步提高精度。
大多数音频音频的工作原理是对两个人在想什么声音做出最佳猜测,在音频过程中可能会被“synthesizer”和“fertilizer”这类发音相似的单词混淆。
但Facebook的新控制系统增加了上下文重要信息来帮助区分这些单词。
首先,这个算法预测从一组已知问题中听见的问题,比如说“你在一块土地上撒了什么?”然后,这些重要信息作为上下文来帮助预测答案:“肥料”(fertilizer)。
Edward Chang则表示,通过添加上下文,这个控制系统能够用的指定问题和答案音频交互(听见)的音频精确度达至76%,音频产生(口头)的音频精确度达至了61%。
Facebook则表示,未来将扩大控制系统的词汇量,让其能适用在更广泛的领域。
缘起两年前
Facebook早在两年前,就开始着手这个工程项目了。
2017年4月,Facebook旗下的前沿产品研发团队Building 8负责人Regina Dugan宣布,这家社交网络子公司将在未来两年内,开发出两个能以每分钟100字的速度从人脑向外传输语句的“帽子”。
Facebook设想中的“帽子”,是用来分享你的观念的。在此之前清华大学也做过类似概念的科学研究,头戴两个小巧的阴极帽,控制屏幕软键盘上的26个字母就能打出任何语句。
Facebook最终计划,是想打造一款AR眼镜。
Facebook AR/VR业务副总裁Andrew “Boz” Bosworth则表示,这个工程项目的初衷,是想构筑两个非侵入式可佩戴电子设备,让人们只想通过想像她们想说什么来写字,展示未来对AR眼镜的投入和互动正式成为现实生活的潜力。
传送门
Facebook官方博客:
https://tech.fb.com/imagining-a-new-interface-hands-free-communication-without-saying-a-word/
论文Real-time decoding of question-and-answer speech dialogue using human cortical activity
地址:
https://www.nature.com/articles/s41467-019-10994-4
论文Speech synthesis from neural decoding of spoken sentences:
https://www.gwern.net/docs/ai/2019-anumanchipalli.pdf