语音识别技术
自上世纪末到本世纪初,蕴藏了几十年之久的语音技术在计算机硬件及巨大应用前景的驱动下,其黄金时代已逐步来临。那么,语音识别技术的现状到底怎样?尤其是当IT业的全球一体化趋势冲破了我们民族IT业过去赖以生存和发展的中文文化屏障后,我国应如何应对挑战?对此,中国科学院自动化研究所模式识别国家重点实验室研究员徐波研究分析了——
1998年秋末冬初,国际著名的IT公司纷纷在我国设立科研机构,成为信息技术领域最令人注目的焦点:投资5000万美元的英特尔中国研究中心正式启动;斥资8000万美元的微软中国研究院也宣布成立;加上1995年成立的IBM北京研究中心,计算机产业的三巨头已经全部在北京安营扎寨,开始从事一些基础和应用性的研究。这些机构其中最重要的一个研究方向便是中文语音识别技术,以此作为中文计算机易用化的突破口。此外,有关语音识别方面的活动,从研究、开发、产品等角度全方位地把这项当今世界最热门和最具发展前景之一的技术在中国本土上展示,使得人们有机会亲眼目睹语音技术突飞猛进发展的大量成果。由此显示出,蕴藏了几十年之久的语音技术,在计算机硬件和巨大应用前景的驱动下,其黄金时代正逐步来临。它也从某种程度上预示着语音技术已经从模式识别和人工智能的一个分支提升为一门综合人类智能各项研究的独立学科和计算机特别是PC迈向智能化世界的最佳途径。那么语音技术其潜在的巨大市场在哪里﹖语音识别技术的现状到底怎样﹖语音识别的发展方向是什么﹖尤其是IT业的全球一体化趋势冲破了我们民族IT业过去赖以生存和发展的中文文化屏障,我们应如何直面挑战﹖
语音化的人机交互
计算机技术经过多年的发展,正面临包括硬件极限,复杂建模、求解和人类智能等三大挑战。其中克服智能挑战使计算机像人类一样能看、能听、会说和具有理解和推理能力,被认为是达到未来计算机无时不在、无处不在的关键点。我们知道,人类的语言在人类的智能组成中充当着极其重要的角色,70%以上的交流和沟通就是通过这种交互方式有效地完成的。作为人与人之间交流最方便、有效和快捷的手段,人们自然希望它也成为人与计算机交流的媒介。只有采用人类经过不断进化而获得的习惯、自然方式使用计算机,才能最终提高整个社会的信息化和自动化程度。
从目前和整个信息社会发展趋势看,语音技术可以做到很多的应用,这些应用又分为几大类。第一类是办公室环境下桌面计算中的一系列应用,包括文章口述,用语音来控制计算机。通过与其他软件的紧密结合,可以扩展到如财务、法律、医药等专用领域的应用和完成对通用数据库的数据录入、查询、校对等处理,从而提高劳动生产率,降低人类的劳动强度。第二类应用主要完成人与计算机的对话功能,这种应用特别适合于与传统的电话网络和新兴的Internet的结合,可以广泛地应用于各种信息的高效率自动查询和自动转接,例如许多的呼叫中心Call Center业务,上市公司股票查寻系统、银行业务查寻系统、工商信息查寻、旅游信息查询等。第三类应用可以归结为帮助不同语种之间的人类交流。随着全球经济一体化,人类之间的交流不断扩大和深入,有所谓地球村一说。随之而来的语言障碍日益突出,通过与机器翻译技术、语音合成技术的结合,语音识别技术不但可以解决人与计算机的交流问题,也能帮助人与人之间的交流。另外,由于该技术的特点,其技术渗透性很强,语音技术将会无处不在。它将来不仅会存在于电脑之中,还会存在于家电、PDA、录像机和电话中。
语音技术的进展和挑战
语音技术包括语音识别、说话人的鉴别和确认、语种的鉴别和确认、关键词检测和确认、语音合成、语音编码等等,其中最具有挑战性和最富有应用前景的为语音识别技术。语音识别根据其能识别处理的范围可以分为特定人或非特定人,小、中、大词汇量,孤立语音或连续语音。还有很重要的是系统对说话人的说话方式是否有限制,是书面语、有限句型抑或自然口语。
20世纪80年代末期,语音识别经过几十年的发展和摸索,人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性一起集成于一个系统中,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。在声学识别层次,以多个说话人发音的大规模语音数据为基础,以隐马尔可夫模型HMM为建模手段,通过对连续语音中上下文发音变体的精细建模,语音音素识别率有了长足的进步;在语言学层次,也以真实世界大规模语料库为基础,通过统计两个邻词或三个邻词之间同现概率和相关性,可以有效地区分同音词和由于识别带来的近音词的模糊性。而借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。在书面语识别取得进展的同时,20世纪90年代初期人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统,在20世纪90年代中期进一步与机器翻译技术相结合,发展面向不同语种人类之间交流的直接语音翻译技术,这两个方向也在有限应用环境下如火车、飞机时刻查询,2000词汇量左右取得重大进展。
上述语音识别技术的发展,使得一大批语音识别的应用成为可能,尤其是在环境噪声比较可控的办公室环境下。20世纪90年代初期,开始出现孤立语音的英文听写机系统,在1997年开始出现基于说话人自适应的连续语音听写系统,并达到一定的实用化程度。但是对于办公室环境外的绝大多数的语音识别系统来说,需要遵循比较固定的开发模式。这种开发模式从应用的提出,识别策略的指定,到真实应用环境下数据的采集和建模到测试使用,需要经过多个循环才能达到实用化的程度。对于开发一个高质量的语音识别系统来说,更需要一批语音识别方面的专家和软件技术人员花费相当长的时间和精力才能完成,是一个典型的集计算密集、劳力密集和智力密集的产业。而在软件开发中系统尚缺乏一种非常有效的结构能比较容易地适合于不同计算平台和不同场合的应用。
尤其重要的是,目前的语音识别技术在鲁棒性R0bustness、灵活性和自适应能力上还远远不能满足实际的需要。对于鲁棒性来说,由于训练与识别环境的差异,同一个识别系统对于不同的用户、不同的使用需求、不同的声学环境下性能差异可以达到30%甚至更多,甚至同一个用户在不同的生理和心理状态下性能也相差很大。而对于灵活性来说,还缺乏一种有效的手段能把不同使用条件下的一些领域知识方便地加入系统中以改善、提高识别率;目前的系统也缺乏智能化的自适应策略,使得系统能够不断地学习周围的声学环境、自动获取用户的词汇、说话方式和对话行为等知识,以改进自身的系统结构和处理机制。
正是由于语音识别技术存在的上述问题,使得语音识别技术在一定程度上还不能满足各种用户提出的各种不同的要求,即使在技术上可以达到,也很难在比较短的时间内完成一个实际系统装置。这种状况严重影该技术的推广和在各种领域内的渗透,是目前语音识别面临的重大挑战。
开发和研究的重点及发展趋势
目前,语音技术正进入一个相对成熟点,很多厂商和研究机构有了语音技术在输入和控制上令人鼓舞的演示,输入硬件和软件平台环境也日益向理想化迈进,但语音技术比起人类的听觉能力来还相差甚远,其应用也才刚刚开始,语音识别技术在开发和研究上还有大量的工作需要做。
从开发上讲,特别是桌面型应用来看,语音技术需要在以下几个方面继续努力:一、进一步规范和建设语音输入的硬件通道、软件基本引擎和平台,使得把语音技术集成到需要语音功能的大量软件中去;二、语音产业需要更加开放的环境,使得有这个兴趣和实力的企业都能加入这方面的研究和开发中,逐步改变只有某些大公司和实验室拥有这个技术的状况。也只有这样,才有可能创造出多姿多彩的应用来;三、在软件界面上不断创新,在现有技术基础上使得产生动人心魄的效果,逐步改变人们用鼠标、键盘的习惯,当然这需要一个漫长的过程。
在研究上,针对现有技术的缺陷,应该围绕三个目标开展诸方面的研究。首先,需要提高系统的可靠性,使得系统在不同说话人,不同说话风格、语速,不同带宽的语音信号和不同信噪比条件下具有同等的效果。这方面应该进一步细化目前的研究模块,从语音和语言产生、编码、传输到解码等各个环节加以深入探索。第二,需要提高系统的灵活性,包括研究能方便地结合应用领域中基于统计、规则和有限语法等各种知识源的框架和适合不同计算平台CPU和内存等算法的可伸缩技术Scalable Technology;第三需要围绕使语音识别系统具有自我进化能力Evolution开展研究,包括对识别结果的可信度衡量,无监督的声学和语言学层次上自适应等。 发展民族中文语音产业
语音技术无疑是极具市场潜力的热点技术,这一点对中文来说,尤其明显。试想,多数中国人使用计算机时都,一定程度地受到电脑键盘输入的困扰,所以很多人都看好中国是语音技术推广应用的最大市场。同时,我们也希望电脑更加易于使用,接受更多不受时间限制和具有良好态度的多种信息服务。各大公司投资中文语音识别就是竭尽全力地希望在未来占领这一领域里的制高点。
面对未来巨大的市场潜力,必须发展我们自己的民族语音产业。对于桌面应用系统来说,虽然已有国外现成的API可以利用,但这样的技术不但离高质量的口述记录还相差甚远,更不用说满足多姿多彩现实世界的应用需求。同时中国地域的口音问题以及汉语极其灵活的语法需要更高要求的语音和语言处理模型。更需要指出的是,桌面语音识别技术的应用仅仅是语音识别应用的冰山一角,更大的商机和应用在于电话网络、Internet和各种电器设备中,一旦语音技术可以实用化到内置于设备中,那时我们付出的将是非常昂贵的代价。另外一方面,语音识别作为非常大众化的应用,密切地同当地的文字文化、使用习惯等有关,应用作为语音技术推动的原动力,至少目前还没有统一和固定的解决方案。通过发展完全民族化的语音产业,培养一大批这方面本地的人才,才能推动这个技术的快速发展。
虽然国内从事语音识别技术研究的单位不是很多,学科基础总体薄弱,能进行非特定人、大词汇量、连续语音识别的更是寥若辰星,但在国家高技术研究发展计划的支持下,在我国科研人员长期艰苦努力下,我国在语音技术研究水平和原型系统开发方面完全达到了世界级的水平,作出了当之无愧的成果。在中国科学院自动化研究所模式识别国家重点实验室,汉语非特定人、连续语音听写机系统的普通话系统,其错误率可以控制在10%以内的的水平,并具有非常好的自适应功能。尤其是在国内外首创研究开发了汉语自然口语的人机对话系统和汉语到日语、英语的直接语音翻译系统,为在未来几年中发展民族化的语音产业打下了非常坚实的技术基础。
面对许多优秀人才的外流和国外研究机构在本地的人才争夺战,国内的语音研究和产业发展任重道远,而国内民族软件产业的薄弱将更加加重这个危机。但所有涉及人类智能问题的研究和开发绝不可能一蹴而就,语音识别要走的技术道路和产业道路还非常长,留给我们的机会还非常之多。关键是如何凭借我们已有的研究和技术基础,在国内有关产业部门的密切合作下,采取适当形式的合作,找到应用和产品化的突破口,最终进入良性发展的循环。
|