语音PDA? - IT思路 - 曹阳

(这条文章已经被阅读了 65 次) 时间:2001-09-10 02:28:02 来源:曹阳 (rongzi) 原创-IT

移动设备这个概念的外延很广泛,它包括HPC(Handheld Pro PC)、Pocket PC、Palm-Size PC、PDA(Personal Digital Assistant/个人数字助理) 等等。甚至手机也可以归类于移动设备的一种。
提到掌上电脑,人们马上就会想到文曲星、快译通、宝典等,还有最近卖得很火的商务通。但这些市场上流行的所谓“掌上电脑”实际上是PDA,而不是真正的掌上电脑Palm-size PC(PPC)或Handheld Pro PC(HPPC)。
PDA的全称是Personal Digital Assistant,是一种用于处理个人事务的数字设备。它集中了计算,电话,传真和网络等多种功能。它不仅可用来管理个人信息(如通讯录,计划等),更重要的是可以上网浏览,收发Email,可以发传真,甚至还可以当作手机来用。尤为重要的是,这些功能都可以通过无线方式实现。而PPC/HPPC实际上是一个手持电脑,只不过比手提电脑还要小一些,更易于便携。它具有完备的操作系统,近于PC。
为了方便个人移动办公人们对PDA人机交互性的要求更高,但同时为了保证其可便携性而不可能提供方便但是笨重的输入输出设备,例如没有键盘、显示屏娇小等。人机交互性的高要求和输入输出设备的简陋不可避免的产生了矛盾。而语音技术恰恰可以解决上述矛盾,可以很方便的输入(语音识别)输出(语音合成),而且更适合移动办公的场合。另外,在PDA上加上诸如“语音备忘簿”等功能可以更增加其“助理”的人性化。再例如可以用听(语音合成)的方式进行网页浏览,可以解决屏幕大小不够而需要把光标移来移去的问题。
一方面,随着语音合成和语音识别技术的迅速发展和逐渐成熟,语音技术在各个方面的应用日益广泛;另一方面,随着移动设备技术的逐步成熟和市场的逐渐扩大,对嵌入语音技术的要求日益急迫,因此,现在语音技术提供商和移动设备制造商都希望在移动设备(特别是PDA)上嵌入语音系统,并且市面上已经有几款产品集成了语音技术(联想掌上电脑天玑系列)。本解决方案正是在这一背景下提出。
由于语音技术通常耗费资源(存储/运算)巨大以及以前移动设备硬件技术发展程度的限制,使得语音技术难以在移动设备上实现,但随着语音技术的日益发展成熟以及硬件成本特别是存储成本的下降,语音技术在移动设备上的低成本实现已经成为现实。
现在,各移动设备的生产厂家各自为政,所以移动设备的操作系统五花八门各式各样,但随着硬件技术的发展基本趋于一致。几年来,Palm逐渐成为主流,但近期随着Windows CE212/300的推出,Microsoft可能在这一市场上于Palm一争高下。

技术指标
1 语音数据层:
本层为语音合成系统的最低层,由讯飞公司实现。本层以上所有层的应用都是基于本层实现的。
需求:移动设备制造商序提供一些操作系统的底层支持(音库的加载)。
2 音频播放层:
本层为语音合成的高级应用层,即提供文本即可进行语音播放。
接口:支持对一段文本的直接播放,并提供Pause、Restart、Stop等功能。
需求:音频设备的支持(SDK)。

SAPI支持:
SAPI(Speech API)是微软提出的将语音技术应用于桌面PC的解决方案,它不仅支持语音数据级的底层支持,也支持Direct TTS层的支持(可以直接播放一段文本)。虽然目前Microsoft没有将SAPI应用于Windows CE,但可以相信SAPI代表着语音技术构架的未来。本公司已经在CE下实现了SAPI。
3 应用程序层:
本层为语音合成技术的具体应用,由移动设备厂商自行设计实现。
语音合成提供商不仅可以提供基于嵌入系统的语音合成引擎的底层支持,还可以参与嵌入系统音频级的开发,并且能提供SAPI接口以和微软兼容,甚至可以直接为制造商定制某一款基于特定平台的软件,在移动设备语音合成技术的嵌入上为制造商提供了一套完整的解决方案。
移动设备上的语音合成系统大小及性能如:
音库大小 500KB(单音库)或1MB(双音库),
运行库大小 运行库:100 – 300 K (视CPU情况而定)
性能 支持语速可调 支持男女声可选
支持内码 UNICODE\GB2312
自然度 3.0(5分制)
CPU需求 < 5Mips