青岛理工大学人机交互实验一解读

发布时间：2020-03-03 00:20:03 来源：范文大全收藏本文下载本文手机版

语音识别多通道用户界面

语音识别多通道用户界面定义

随着计算机技术的发展，人们迫切需要一种更加自然的、更加能为多数人所接受的方式与计算机沟通。在人机对话方面寻求最好的语音信息交换手段是发展人机语音通信和一代智能计算机的主要组成部分。随着计算机的普及，越来越多的人在使用计算机，如何给不熟悉计算机的人提供一个友好的人机交互手段，逐渐引起了人们的重视。从而也就诞生了计算机语音学。计算机语音学覆盖了广泛的研究活动，包括语音识别、语音合成、语音编码、自然语言理解、机器翻译等。

语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。当人们想对计算机说话时，通常首先需要进行语音识别，即将声音信号转换成单词流。

发展历史

语音识别的研究工作大约开始于20世纪50年代，当时AT&T Bell实验室基于共振峰提取技术实现了第一个可识别十个英文数字的语音识别系统——Audry系统。

60年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态时间规划（DP）和线性预测分析技术（LPC），其中后者较好地解决了语音信号产生模型的问题，对语音识别的发展产生了深远影响。

70年代，语音识别领域取得了较大进展。在理论上，LP技术得到进一步发展，动态时间归正技术（DTW）基本成熟，特别是提出了矢量量化（VQ）和隐马尔可夫模（HMM）理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

80年代，MFCC的参数提取技术和HMM模型的深入使用使得语音识别技术得到进一步的发展，语音识别的问题逐步在理论体系上得到了比较完整和准确的描述，同时在实践上又逐步研发出效率较高的解决算法。

90年代以来，在美国国防部的Darpa测试、Ears计划、近期的Gales计划，以及我863计划等推动下，一大批高水平的研究机构和企业加入到语音识别的研究领域，极大地推动了语音识别技术的发展和应用。语音识别系统已经从过去的小词汇量、孤立词识别、特定人识别、安静环境等简单任务逐步发展到大词汇量、连续语音、非特定人、噪声环境下的识别任务，从单纯的语音识别任务发展到语音翻译任务，从实验室系统走向商用系统。

最近年里，语音识别技术的显著进展，带来了高性能的算法和系统。用于语音拨号、语音命令控制、简单的数据输入和准备结构化文档的语音识别工具已经开始出现。

语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统；同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音（Co-articulation）现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。

实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。

这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。

统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别系统。在声学模型方面，以Markov链为基础的语音序列建模方法HMM（隐式Markov链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的 NuanceVoicePlatform语音平台，Microsoft的Whisper,Sun的VoiceTone等。

其中IBM公司于1997年开发出汉语ViaVoice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice\'98。它带有一个32,000词的基本词汇表，可以扩展到65,000词,还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。[3]

我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到 94.8%（不定长数字串）和96.8%（定长数字串）。在有5%的拒识率情况下，系统识别率可以达到96.9%（不定长数字串）和98.7%（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%；并且可以识别普通话与四川话两种语言，达到实用要求。

中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

语音识别技术应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中，它使得人们可以甩掉键盘，通过识别语音中的要求、请求、命令或询问来作出正确的响应，这样既可以克服人工键盘输入速度慢，极易出差错的缺点，又有利于缩短系统的反应时间，使人机交流变得简便易行，比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中，人们通过语音命令，可以方便地从远端的数据库系统中查询与提取有关信息，享受自然、友好的数据库检索服务，例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译，即通过将口语识别技术、机器翻译技术、语音合成技术等相结合，可将一种语言的语音输入翻译为另一种语言的语音输出，实现跨语言交流。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发，并在军事领域首先应用、首获成效的，军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前，语音识别技术已在军事指挥和控制自动化方面得以应用。比如，将语音识别技术应用于航空飞行控制，可快速提高作战效率和减轻飞行员的工作负担，飞行员利用语音输人来代替传统的手动操作和控制各种开关和设备，以及重新改编或排列显示器上的显示信息等，可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来，以便更快获得信息来发挥战术优势。这里按照应用领域的不同可以将语音识别技术分为应用在军事领域、公共事业领域和在其他领域。

语音识别技术在军事领域内的应用，随着军队现代化建设水平的提高和新战争形态的出现,最近10年内语音识别技术军事化应用非常广泛。目前研究比较多的有语音识别技术在智能武装备开发领域的应用、在军事作战文书自动化过程中的应用、在军事测试设备的应用和军队智能话务台的应用等。

语音识别技术在公共事业领域内的应用，语音识别技术在公共事业领域内的应用具有重要意义,其应用范围也在进一步扩展。如在公安系统中的应用在智能话务中的应用、在数字图书馆检索系统中的应用、在医疗系统中的应用和在人工邮件分拣过程中的应用等。下面着重介绍语音识别在公安工作中的应。语音识别在公安系统中的应用主要体现在侦查工作、抓捕工作和取证工作中。某些案件中,在受案和侦查的初始阶段,公安机关所能掌握的线索可能只有一段录音,而提取嫌疑人的语音特征,通过语音识别和说话内容分析,对说话人身份进行判断,是侦查工作的重要突破口。公安部门在进行抓捕罪犯过程中经常会遇到线索不多、对犯罪嫌疑人了解不足,这样容易发生抓错人的现象,而利用语音识别技术可以先通过技术监听设备实现对犯罪嫌疑人窝点进行监听,对要抓捕的人进行语音识别确认,并初步判断房间内人员数量和拥有武器情况。录音作为视听资料的一种,是《民事诉讼法》规定的7种法定证据形式之一。语音识别和语音资料的司法鉴定,在绑架案、敲诈案、贪污受贿案、财产纠纷案和恶意扰乱社会秩序的案件中也是重要的取证手段。

语音识别在其他领域中的应用 ,已广泛应用于教育领域、商业领域和服务性领域中。就教育领域而言,语音识别技术的最直接的应用就是帮助用户更好地练习语言技巧如一家美国公司开发了一套《TalktoMe》,当用户跟着计算机说完一句话后,计算机会同时显示标准发音和用户发音的波形比照图用户可以反复对比倾听来体会这种差异来提高学习效率。目前语音识别技术在外语口语学习中已经出现了不少成熟的成果和产品。就娱乐领域来讲,也可以激发出许多的新应用。通过电话进行电视MTV点播时,可以直接说出哪个歌手的哪首歌,电视台就接受语音输入而播放相应的曲目。对于网络卡拉OK,用户拥有类似“播客”的空间,可以自娱自乐或者组织多人飚歌利用语音识别技术可以对用户的演唱和原音进行旋律比对,给用户演唱进行打分。这种打分可以实现个人的演唱水平评估,也可以实现网络演唱比赛评分

主要的研究方法分类

语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。一个完整的语音识别系统应包括以下三个部分：

1)语音特征提取

语音信号在完成模/数转换后，还要进行特征提取，一方面为了获得语音的本质特征；另一方面还可以进行数据的压缩。目前通用特征提取的方法是基于语音帧的，即将语音信号分为有重叠的若干帧，对每一帧提取语音特征。 2) 声学模型

声学模型是用于从语音到音节的概率计算。在识别时将提取的语音特征与声学模型比较并匹配，以获得最佳的识别效果。目前广泛采用的声学建模法有：隐马尔科夫模型建模和上下文相关建模。

3) 语言模型

语言模型用于计算从音节到字的概率。目前，语言模型主要有：规则模型和统计模型两种。

语音识别的过程分为三个步骤：预处理、识别和后处理。

1)预处理

包含波形硬件采样率的确定、分帧的大小和帧移策略的确定；剔除噪声的带通滤波、高频预加重处理、各种变换策略；波形的自动切分。首先对模拟语音信号采样，将其数字化。连续语音流切分是找出语音信号中的各种识别基元如音素、音节、半音节、声韵母、单词或意群等的始点和终点的位置，进而将对连续语音的处理变为对各个语音单元的处理。语音端点检测指的也是连续语音流切分。 2) 识别

包含特征参数提取；参数模板存储及识别。识别语音的过程，实际上是对语音特征参数模式的比较和匹配的过程。寻找一个既能充分表达语音特征又能彼此区别的、较稳定的特征参数是很重要的。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、平均过零率、平均能量、短时频谱、共振蜂频率及带宽等。识别参数的选择着眼于能得到高的识别率，由于有些参数的提取较为复杂，计算较费时，因而要折衷考虑选用哪些参数并确定采用哪种识别方法。 3) 后处理

包括自动分词、词类分析、词义分析、词用分析、语法分析、句法分析、同音词判别等。后处理是利用语言学知识库中的知识，按一定的推理策略，把识别出来的拼音转换成汉字并理解语句的含义。语言学知识库中有词汇、语法、句法、语义、语用和常用词语搭配等知识。

发展前景

21世纪是信息和网络的时代,Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

识别系统的强健性方面，有待进一步增强。现在，环境噪音和杂音对语音识别的效果影响最大。在嘈杂环境中必须有特殊的抗噪技术处理才能正常的使用语音识别，否则识别率很低，效果很差。目前针对中文的语音识别方面还存在着明显的不足，语言模型方面需要进一步完善。由于声学模型和语言模型在语音识别技术中起到基础性作用，所以必须在这方面有所突破，否则其它的都不可能实现。现在所使用的语言模型都是概率模型，文法模型没能得到运用，只有这一方面取得突破，计算机才能真正理解人类语言，这是一个难度非常大的工作。另外，随着硬件技术的不断发展，搜索算法、特征提取和自适应算法等这些核心算法将会得到不断改进。我们相信，半导体和软件技术的共同进步必将给语音识别技术打下坚实的基础。多语言混合识别方面和无限词汇识别方面需改善。现在使用的语音模型和声学模型有很多的局限性，如果突然从英语转为法语、俄语或者汉语，计算机就不会处理了，得到的东西完全不是我们想要的结果；如果人们偶尔使用了某些不太常见的专业术语，如\"信息熵\"等，计算机可能也会得到奇怪的结果。这不仅仅是因为模型具有局限性，同时也有硬件跟不上的原因。将来伴随这两方面技术的进步，声学模型和语音模型可能会理解各语言之间自然的切换。另外，因为声学模型的逐步改善，以及以语义学为基础的语言模型的改进，或许将能够帮助人们尽量少或完全不受词汇的影响，从而可实现无限词汇识别。

在自适应方面需要更大的改进，达到不受口音、方言和特定人影响的要求。现实中的语音类型是各种各样的，从声音特征来说可以分为男音、女音和童音，另外，很多人的发音同标准发音有很大的差距，这就需要进行口音和方言的处理。即使同一个人，如果处在不同的环境中，或者在不一样的语境中，意思也可能不同。这些同样需要改进语音模型，让语音识别能适应大多数人的声音特征。

语音识别系统在从实验室转化为商品的过程中，同样需要解决很多具体问题。比如，系统的识别速度、识别效率以及连续语音识别中剔除无意义语气词等问题。

总之，语音是人们工作生活中最自然的交流媒介，所以语音识别技术在人机交互中成为非常重要的方式。伴随计算机技术和语音识别技术的进步，语音识别系统的智能性和实用性将得到大幅提高。这将表明语音识别技术具有非常广泛的应用领域和非常广阔的市场前景。

参考文献

[1] 柳春语音识别技术研究进展 [J]

甘肃科技 [2] 杨尚国语音识别技术概述[J]

福建电脑 [3] 熊燕抗噪声语音识别技术研究[J] 中国科技信息

[4] 刘筠一种新型语音识别系统[J] 成都大学学报(自然科学版)

[5] 马斌基于小波变换的DSP语音识别系统[J] 低压电器 [6] 英锋基于SPCE061A的语音识别系统的设计[J] 微计算机信息 [7] Based on improved a hidden markov model (HMM) speech recognition method Volume 26, Iue 6, October 1999

[8] Man-machine interaction and absenteeism Original Research Article [9]Journal of Applied Psychology, Volume 56, Iue 5, October 1972, Pages 428-429

[10]Designing manmachine interactions for mobile clinical systems: MET triage support using Palm handhelds Original Research Article

[11]European Journal of Operational Research, Volume 177, Iue 3, 16 March 2007, Pages 1409-1417

读书的好处

1、行万里路，读万卷书。

2、书山有路勤为径，学海无涯苦作舟。

3、读书破万卷，下笔如有神。

4、我所学到的任何有价值的知识都是由自学中得来的。——达尔文

5、少壮不努力，老大徒悲伤。

6、黑发不知勤学早，白首方悔读书迟。——颜真卿

7、宝剑锋从磨砺出，梅花香自苦寒来。

8、读书要三到：心到、眼到、口到