第17章 人工智能(第3/6页)

我在使用车载导航仪的时候就切身感受到了这项技术的发展。第一代系统基本上是按音节发音,第二代就好多了,但不能准确念出比较复杂的类似“赛伦塞斯特”的地名,还会把名为11A的路口念成“十一啊”。现在的第三代系统可以轻松准确地念出所有地名,而且发音与真人无异。另外,虽然《星际迷航》和《2001太空漫游》几乎是同一时间拍摄的,但是《星际迷航》里的计算机语音系统比Hal要生硬得多,即便《星际迷航》描绘的是2251年左右发生的事情。在真实的世界中,刚进入21世纪,GPS语音系统就足以和真人发声相媲美了。

人类对无生命物体能说话的幻想可以追溯到荷马的年代,那是中世纪最有名的谣言之一——会说话的铜人头像。铜人头像的所有者是早期的一些科学家,包括10世纪法国教皇西尔维思特二世,13世纪巴伐利亚的大阿尔伯特,和英国的罗杰·培根,他们在当时常被视为有法力的魔术师。事实上,罗杰·培根对故弄玄虚的魔术师深恶痛绝,更倾向于从科学的角度观察世界。在他死后,他的事迹一度被神化。在16世纪,他的奇闻逸事被写成故事公布于世,即《著名修士培根的历史》(The Famous Historie of Fryer Bacon)。这本书中提到了培根建造铜人头像的想法:

修士培根了解了英国被侵略数次的历史后,开始思考如何能保卫英国在未来不受侵略,并让自己因此永垂青史。在搜集和阅读了大量资料后,他认为保家卫国的最好办法就是制造会说话的铜人头像,保护英格兰的城墙。

在真实世界中实现类似的想法需要一些时间。想起来容易,但是做起来就难多了。有历史记载的最早的会说话的机器出现于1779年。一个名叫克拉施泰因的人制造了一台复杂的机器,向这台机器中吹入空气,经过类似于人类喉咙的机械结构,它就会发出类似元音的声音。12年后,设计制造土耳其行棋傀儡的沃尔夫冈·冯·肯佩伦设计出会说话的乐器。这个乐器也是利用了共振结构,可以通过手动操作让其发出元音或者辅音。这和网络视频中主人用手扒着“会说话”的狗的下巴,让狗发出“sausages”(香肠)的声音没有太大差异,肯佩伦的机器也能清晰地“说”出单词。

在整个19世纪和20世纪初期,改进版本的声音生成器不断推陈出新。最成功的例子是贝尔实验室于20世纪20年代推出的声码器。声码器可以用来给信息加密,或者把普通的语音压缩为特定频宽的格式。但是声码器的设计过于复杂,并没有得到实际的应用。

计算机除了发出声音以外还有其他潜力。在信息技术的历史上,让计算机发出声音是非常原始的想法。计算机科学家艾伦·图灵在曼彻斯特大学的计算机上首次用程序生成音乐。那台计算机连接着一个扩音器,当计算机出错的时候,一声警报会随之响起。图灵意识到,他可以对这个功能进行编程,让它产生微弱的嘀嘀声。如果一秒钟内的播放频率可以达到1 000次,嘀嘀声的不同频率就会产生不同的音调。虽然这项技术常被误认为是贝尔实验室于1957年发明的,但是第一段由计算机生成的音乐的确是出现于1950年曼彻斯特大学的“自动计算机”(ACE)上,由图灵手动编程实现的(图灵只是想用不同的音调表达不同的反馈信息)。

虽然在拍摄《2001太空漫游》电影的时候,已经有很多关于语音系统的理论,但却没有太多关于如何生成合成语音的研究。20世纪70年代以后,计算机越来越便宜,计算机语音系统的商业潜力也随之越来越大。从20世纪70年代英国物理学家斯蒂芬·霍金使用的声音生成系统到当代更加先进的语音系统,电子发声技术与时俱进。但要想让计算机像Hal一样与人交谈(电影中的Hal毕竟是由真人配音),我们还有很长的路要走。

语音合成技术固然重要,但让计算机按照声音指令做出反应在技术上更困难。我们已经实现了一些技术突破。毕竟,手机上安装的导航系统清晰易懂,语音助手Siri也能按照我们的语音命令做事。但是,手机并没有Hal那么复杂的结构,也没有Hal储存和处理大数据的能力。

仔细想想,Siri的交流能力其实非常有限,虽然Siri的设计者设计了一些有趣的问答。当我对着手机说“把舱门打开,Hal”(电影中,说这句话的宇航员戴夫·鲍曼直面Hal,穿着太空服但是没戴头盔)时,Siri的回答呼应了电影的场景:“没戴头盔的话,我开门你会……喘不上气的。”当我让Siri像影片结尾的Hal那样唱“黛西,黛西”时,Siri说:“你不会喜欢的。”

制定时间表、在网上查信息、导航、放音乐,诸如此类的功能让Siri更像一个电子秘书。Siri并不能真正和人对话,它不理解词语背后的真正含义,也不理解音调不同会产生不同的意思。虽然Siri的语音识别能力很强,但有时候它也会遇到困难。Siri不能很好地识别不标准的口音,现在的语音识别系统都不太能有效地识别英国格拉斯哥或者美国缅因等地区的口音。语音识别系统还必须有能力处理我们在平常说话时下意识使用的俚语和连音。

这并不是说,机器不可能理解人类的语言。下面这句话是我利用苹果电脑的内置语音系统录入的:“the factors as you can see it can slip up(就像你看到的这些因素,语音识别系统并不总是有效)。”但我实际上说的是:“But the fact is, as you can see, it can slip up(事实上,就像你看到的,语音识别系统并不总是有效)。”类似于“但是”一类的转折词会把一句话一分为二,然而,“fact is”(事实上)和“factors”(因素)在英式英语中的发音非常相似。现今的计算机语音识别系统可以达到99%的准确率,尽管如此,相较于人类,计算机在语音识别方面还是很容易出错。优化语音识别的方式之一是,让软件识别某个人的发音技巧。

计算机面对的一个问题是,无法理解上下文。我们在听某个人说话的时候,会习惯性地把某个词语放在整个对话的背景中去思考它的意思。有些同音字必须得借助上下文才能准确理解意思。这一点在跨语言互译方面尤其重要。如果我对着计算机阅读文字,那么我一眼看过去就能发现同音字错误;但如果我只是在听自动翻译机器的翻译,那么我不可能知道哪儿出错了。科幻作品中常常出现这样的翻译机器,比如《神秘博士》中由塔迪斯发明的宇宙通用的心电转换器。翻译必将成为计算机语言能力的重要方面。