2025-05-06 13:17来源:本站
目前,超过四分之一的人将语音识别融入日常生活。哥本哈根大学的一名研究人员和他的国际同事开发了一种新算法,使人们可以在没有互联网连接的情况下与“Siri”等数字助手互动。这项创新使得语音识别可以在任何地方使用,即使是在安全至关重要的情况下。
与电脑对话曾经是科幻小说里的东西。如今,在智能手机或其他互动设备上说“嘿Siri”、“Alexa”、“b谷歌”或其他数字助手已经变得司空见惯。然而,在未来,语音识别的作用可能会变得更加重要。
虽然研究表明,四分之一的人已经经常使用这些技术,但如果预测成真,到2025年,配备语音识别功能的设备数量将超过地球人口。而且这项技术还在不断发展。
到目前为止,语音识别依赖于连接到互联网的设备。这是因为通常用于此过程的算法需要大量的临时随机存取存储器(RAM),而RAM通常由功能强大的数据中心服务器提供。的确,试着把你的智能手机调到飞行模式,看看你的语音命令能让你走多远。但变化正在酝酿之中。
哥本哈根大学计算机科学系的Panagiotis Karras教授与希腊雅典娜研究中心的语言学家Nassos Katsamanis,以及芬兰阿尔托大学和瑞典KTH的研究人员共同开发了一种新算法,该算法允许智能手机等更小的设备在不需要大量内存或互联网接入的情况下解码语音。
最近在一篇科学文章中介绍的这种代码采用了一种聪明的策略:它会实时“忘记”它不需要的东西。
事实:音素
音素是语言中最小的声音单位,在不改变所讲内容的情况下不能被替换。根据丹麦语言委员会的说法,音素是“具有意义区分功能的语音”。
语音识别算法使用音素作为数据单位,通过将语音与文本匹配来识别和处理语言表达。
Panagiotis Karras解释说:“语音识别的基本工作原理是将我们用来组成单词和句子的小语音(称为音素)与相应的语音库相匹配。”“概率是为匹配和随后的组合计算的,这些组合继续构成我们的单词和句子。最可能的序列被计算出来,软件将这些声音翻译成文本。”
当前的算法需要更多的内存,一个人说话的时间越长,因为所有的选择组合必须保持打开状态,直到最后的声音被分析。新的算法解决了这个问题。
“由Panos构思并由我们的团队进一步开发的算法,做了一些全新的事情,”联合开发者和合著者纳索斯·卡萨马尼斯说。“与语音识别早期以来使用的现有黄金标准算法不同,我们的算法只存储一小部分处理数据,作为一组‘坐标’。有了这些,整个序列可以重建,这使得语音识别在更少的内存下成为可能。”
这种操作听起来很简单,但它涉及到一种全新的、独特的代码,研究人员已经为此申请了专利。该算法在不牺牲识别质量的前提下减少了对临界内存的需求。虽然它需要更多的时间和计算能力,但研究人员保证,与-à-vis现代设备的肌肉能力相比,这种差异可以忽略不计。
此外,它可以在没有互联网连接的情况下工作,因此可以在任何地方进行语音识别,甚至可以在亚马逊丛林深处进行实时语言翻译,研究人员希望。