(这条文章已经被阅读了 73 次) 时间:2001-05-24 15:20:00 来源:兰健 (河马兰兰) 转载
为了促进CTI技术和语音技术的发展,IBM、Lucent、AT&T和Motorola四大通信公司成立了VoiceXML(Voice Extensible Markup Language,语音扩展标记语言)的论坛。这种新的语音技术,使用户能通过电话和语音来访问Internet。这项技术能够帮助企业、电信公司、互联网公司增加网络使用率,提高用户忠诚度,开发新市场,从而增强企业的竞争力。
一、VoiceXML的起源
VoiceXML 是一个新的通过语音对话访问Web 内容和交互语音应答的传递标准。在 1999 年初,IBM、Lucent、AT&T和Motorola成立了 VoiceXML 论坛, 来协调现有的语音技术,以使用户可以通过声音和电话访问互联网。语音技术不但让那些由于环境或生理限制无法使用图形化浏览器的人得以访问 Web,也为所有的用户提供了更为便捷的Web访问功能。
新的语音技术可以创建出对话驱动的应用程序,例如语音识别技术(ASR)、语音合成技术(TTS)以及在 PC 和服务器(分发到客户端设备)上记录和回放数字化语音。VoiceXML 提供了一种与技术无关的语言,可以用在语音应用程序中。这些应用程序将后端处理语音的服务和处理机制与前端基于 VoiceXML 的表示层分离开。例如,一个精心设计的 Web 站点可以轻而易举地支持语音驱动的浏览器(比如在移动电话上使用的那种),同时它能支持其他的浏览器(比如WAP 浏览器或 HTML 浏览器)。当接收到来自浏览器的最初请求时,服务器将监测出浏览器的类型。如果浏览器被确认为一个语音浏览器,服务器将返回对应的 VoiceXML 页面。
由于VoiceXML技术和语音技术的快速发展,已经有150个以上的公司和组织加入和VoiceXML论坛(www.voicexml.org),其中包括一些非常有名的通信公司,如AT&T、Lucent、Motorola、Alcatel、Cisco、Hitachi,以及我国的华为通信公司。
二、 VoiceXML的系统结构及其应用举例
VoiceXML 1.0规范基于W3C的工业标准XML,为语音和电话应用的开发者、服务提供商和设备制造商提供了一个智能化的API。VoiceXML的标准将简化Web上具有语音响音服务的个性化界面的创建,使人们能够通过语音和电话访问网站上的信息和服务,同时与CGI(PERL、PHP、C、JAVA SERVLET等)的脚本结合在一起来检索后台数据库,访问企业内部网,从而最终将语音浏览器与微型浏览器融合在一起,实现计算机网络与电话技术的完美结合。
同传统的Internet网站相比,在不需要太大的改动前提下,只要增加一个VoiceXML的服务器,处理来自PSTN的应用即可。在VoiceXML的服务器中,包含了VoiceXML的解释器(VoiceXML解释程序语境)、VoiceXML自带的浏览器、自动语音识别(ASR)及文本到语音(TTS)的转换设备。
VoiceXML解释程序是一个计算机程序,它解释一个VoiceXML文件,引导和控制用户与执行平台之间的交互作用。VoiceXML解释程序语境也是一个计算机程序,用一个VoiceXML解释程序解释一个VoiceXML文件,并且可以与执行平台相互作用,而与VoiceXML解释程序无关。
比如,用户想知道Intel公司的当前股价,就打电话到提供该服务的公司,通过DNURI的映射,到达了该网站的VoiceXML的服务器。VoiceXML的服务器马上调出相应的VoiceXML文件,由VoiceXML解释程序处理,通过TTS产生语音输出,来回复用户的请求。当然,在处理VoiceXML文件的过程中,有时还需交给后台的CGI程序处理,处理后的结果由Web Server交给VoiceXML Server处理。处理后,用户可能会听到的回答是“Welcome to the stock market,which stock price would you like to know?”,其对应的VoiceXML文件为Welcome.vxml。用户只需回答他(她)所感兴趣的股票,如“Intel”。
这样用户就摆脱了传统IVR令人模糊不清的一大堆选择。用户的回答通过VoiceXML Server的处理,交给后台的CGI程序查询数据库中的有关Intel股票的价格,再由VoiceXML Server的处理,用户听到的可能就是一个非常具体的回答—“$55”。
三、 VoiceXML的特点和应用范围
VoiceXML作为一种标记语言,主要有以下特点:
1.通过每一文件里指定的多重的交互功能,将客户机/服务器之间的交互工作最小化。
2.应用开发者与底层的软件和系统平台上的软、硬件细节无关。
3.将用户交互作用的代码(在VoiceXML中)从服务逻辑(CGI 脚本)中分离出来。
4.要使提供的服务能随处可得,必须令服务能够跨越不同的执行平台。对于内容服务商、工具提供商和平台提供商来说,VoiceXML正是一个跨平台的公共语言。
5.简单的交互功能非常易于使用,所提供的语音界面能支持复杂的对话。
VoiceXML语言通过语音应答系统实现人机交互通信,其范围包括: 合成语音的输出(TTS)、音频文件的输出、话音输入的识别、DTMF输入的识别、语音输入的录音、电话功能向呼叫转移等。
VoiceXML提供字符和语音输入收集,将输入分配给文件定义的请求变量,并且在用户回答后做出决定的方法。通过通用资源标示符(URI),VoiceXML可确定文件是否被连接到其他的文件。
VoiceXML在以下领域内有广泛的应用:
1.信息的获取,如股票信息、天气情况、体育消息、交通信息等。
2.电子交易(包括电子商务、电子零售),如银行的账户查询、存取、股票交易等。
3.电信领域的服务,如Unified Message(统一消息)、Call Center(呼叫中心)等。
XML在语音中的应用(一)
语音浏览器,VoiceXML诞生的温床
电话的出现是为了方便通信。电脑的出现是为了计算。进入“后PC时代之”后,“电脑”同“网络”这两个词越来越靠近。现在,很多买电脑的人得以达目的就是为了上网。网络成了信息交换共享的一条捷径,人们纷纷“中弹落马”。以至于通过电话上网也提上了日程。越是简单通用的,就越是受到最广泛普通消费者的青睐。越是受到最广泛普通消费者的青睐的就越是被工业界大力推崇。
有一点是毫无疑问的,那就是现在的电话比电脑要多。随便走在一个城市的街道上,您会很轻易地发现公用电话。但我现在还不敢想象在大街上随处可见的“公用电脑亭”,五角钱三分钟上网。不光是在城市,电话并不是什么稀罕玩艺,而要买一台电脑,不少人还是要咬一咬牙。而且,电话比电脑的这种优势还在不断扩大。个人移动电话的发展正处于前所未有的高峰时期,相信将来的单人对单机并不是什么神话。
另外,电话远比电脑具有亲和力。我相信许多人对电脑的操作都具有一定工具心理。不是怕原有的界面被改动后无法还原,就是怕不知道应该在哪里去修改想要的设置。这对已经是比较友好的视窗界面就是如此了,更不要去说什么满屏黑的Unix之类。而电话就不一样了,只有非常有限的几个键,遇到麻烦把话筒一挂再重新拿起就是了。而且关键的是电话听筒里说的是“人话”。
所以我们说通过电话访问网络是非常有前途的。再加上现在还有一种发展趋势就是把多种界面访问形式,比如是语音、图像和触觉等,一起结合在电话上成为名副其实的PDA(个人数字助理),我们不得不在这里再一次对电话的发展前途夸耀一番。人们将可以在任何时间任何地点通过随手可得的“电话”,通过简单易懂的操作方法连接到网络。
语音浏览是网络的一种全新浏览方式
对于一家小有规模的公司来说,拥有一台电话总机并不是一件什么新鲜事。电话用户可以通过数字按键联络到不同的员工。还有一种普遍的电话总机功能是用或通过数字按键游离层状目录结构来获取信息。而我们要在这里探讨的语音浏览和这里的形式上有相似之处。用户主要是通过语音来发送自己的信息。我们还可以把服务的对象扩大到提供内容服务的网站上去。使用的联络网络也不一定要是专用电话网,还可以是因特网。
什么是语音浏览器
语音浏览器是以语音输入为主要输入渠道,其他形式为辅助输入渠道,翻译解释执行语音标记语言,并能产生语音输出的设备。
上面这段味如嚼蜡的解释源于W3C。就像要用一句话把人描述出来一样,它颇费周折地概述了一些空泛的共性。双腿直立行走,用上肢劳动的哺乳类动物云云。语音浏览器想要实现的是通过最具有亲和力的交流方式,把来自具有最丰富资源的网络上的信息通过声音提供给用户。
明眼人一看便知,设计完成一个语音浏览器还有语音识别、语音理解和语音合成上的技术壁垒。当用户要通过语音发出命令时,语音浏览器要知道用户在说些什么?比较简单的是命令式语音识别。系统要求你只能说“蚊子”或是“苍蝇”。其他的都认为是非法输入。复杂的要牵涉到对一段语音的理解。比如说当用户说“今天星期几?”或是“今天是一个星期中的第几天?”时要知道是同一回事。这样的话,用户就方便了不少。而这就需要语音理解技术来处理了。语音合成也是必不可少的。当你要把浏览到的信息传送给用户时时通过语音。这可以是一段事先录好的自然人语音,也可以是通过文字到语音的TTS语音合成系统。可以非常明确的说,上面要用到的技术都是需要大量的技术积累才能实现的,绝不是一日之功。对于绝大多数设计实现语音浏览器的开发上来说都会很自然的去采用一些在语音方面颇有底蕴的公司所提供的技术产品支持。主要的精力都在集成之上。
语音浏览器的主要特点是非常鲜明的。在许许多多普通的场合之下,通过近似自然对话的方式来发布命令,通过一种不同于HTML两维的浏览方式,时间上线性地收取信息。只是非常有诱惑力的。有很多情况之下,根本就不允许用眼睛来监督,如在开车的时候。用户只有通过非视觉的方式来控制。
网页浏览器提供了在不同叶面之间跳转的方法,语音浏览器也可以从一段对话跳转到另一段。网页浏览器提供了添取、发送表单的方法,语音浏览器页可以设定用户的一段语音为一次有目的的输入。事实上语音浏览器和HTML叶面浏览器有非常相似之处。用GRE类比题的方式来表示就是:语音浏览器:VoiceXML::HTML浏览器:HTML。