科幻电影中的「人工智能」不时威胁人类将来,究竟实际上又是否如此?
中大工程学院的蒙美玲教授研究人工智能技术多年,更是语音和语言处理的专家,近年致力为中风、脑瘫等病人研发粤语智能语音系统,协助他们融入社会。蒙美玲教授将于6月3日主讲第5场55周年校庆「智慧的探索」公开讲座系列,主题为「懂听懂说的人工智能如何改善人类的学习及生活」。
懂听懂说的人工智能如何改善人类的学习及生活(撰文:蒙美玲教授)
人工智能(Artificial Intelligence,简称A.I.)堪称近年发展最迅速的工程学科之一。由围棋到驾驶,电脑「学懂」的东西似乎愈来愈多。不少人在享受科技带来的便利之际,亦开始对电脑的威胁愈觉疑虑。
「机器能思考吗?」这是图灵(Alan Turing)早于1950年提出的疑问。若计算机能表现出等同人类的智能,便可为问题提供答案。想像一个处于密室的人,只以文字向一位真人及一部电脑沟通。若电脑的回覆符合人类逻辑,令密室中的提问者不能辨别哪一方才是人类,那么便可断定机器通过测试。这便是着名的「图灵测试」,亦是人工智能的雏型。
科学家最早为人工智能提出的定义是:若计算机能处理通常要依靠人类解决的问题;且其智慧是靠机械自身学习而来的,即属「人工智能」。一部机械何以自身学习?所指的其实是「机器学习」特性:以大数据建立的资料库为根基,配合特定的软件算法,甚至借助多层神经网络的深度学习,让机器学会自行解决特定的问题。
笔者将以研究多年的语音和语言处理技术为例,概述人工智能如何运作,以及相关技术的前景乃至伦理争议。
学习外语的助手
平日交流时总会用到言语,但其实每段说话均蕴含个中意义、态度、情感、说话人的身份背景等复杂信息。若机器能够学习并领会此一「人类的神奇信号」,并进而发展出语音识别、机器翻译、对话机械人等语言相关技术,自然大大裨益人类。
其中,不少人都苦于学习外语,尤其是会话应用,用于语言学习的人工智能系统便应运而生。从工程学角度出发,我们可借助语音识别及语音合成技术,协助用家学习。前者是利用语音识别技术,检测并诊断用家的错误发音。以广东话母语者学习英语为例,两种语言的辅音及元音各有迥异。为此,我们事先参考语言学的理论,再建立庞大的语音资料库,让电脑利用人工智能的学习特性,预先学习广东话母语者常犯的发音错误。日后当用家使用系统录音练习时,电脑便可即时侦察其错误发音。
紧接便需借助语音合成技术,让电脑输出合成纠正性反馈,纠正学习者的错误发音。假设系统测出学习者念‘shoes’时的‘sh’发音有误,系统便会自行将‘sh’的正确发音作「超夸张」的语音合成;在下次示范时,电脑会刻意拖慢并强调‘sh’的发音,让用家更易体会及纠正。此外,系统更可透过相关音素的关键帧,将正确发音的动作以图像可视化,向用家示范念‘shoes’时,舌头、上下唇、软腭等的正确姿态。透过音视频的双模态结合,为学习者生成纠正性反馈。
病友沟通的桥梁
人工智能亦大可改善人类的生活。语音障碍的病友在日常沟通时容易碰壁,我们便与医院管理局合作,将他们出版的「沟通书」电子化,再融入我们开发的广东话语音合成技术,让病友们透过流动应用程式,随时随地点击播放诸如港铁站、日用品等生活词汇的语音。我们更积极研发语音转换技术,利用语音后验图技术,归一化不同说话人的发音,期望日后无需收集庞大的平衡数据,亦可为每位用家输出更切合其身份的个人化语音。
除了话音输出,我们亦致力研发语音识别系统,让照顾者或身边人更易了解病者欲表达的话语。我们针对中风、脑瘫痪造成的构音障碍,与中大生命科学学院、语言学及现代语言系等合作,邀请本地病友参与录音,建立粤语构音障碍的资料库,作为研发语音识别系统的根基。收集过程漫长而艰苦,病友们即使知道研发需时,亦不辞劳苦协助录音,务求让以后的病人能够受惠,在此衷心感谢他们的无私付出。
A.I. 愿景与伦理风险
不少人或会忧虑人工智能的急速发展,在笔者看来,人工智能却为语音、语言的学术研究及技术带来黄金时代!无疑,人工智能正迅速渗入日常工作与生活,处处带来颠覆性的影响。笔者认为最佳的愿景会是「A.I.与人类和谐共生」的状态:人类设计崭新A.I.功能;人与A.I.在复杂任务中共同协作;最终人与A.I.可共同创新及发掘新的知识。
诚然,人工智能确实带来潜在风险。A.I.取代人类工种之言非虚;系统依靠的资料库亦存有真伪风险;更重要是拥有A.I.的个体需承担何种伦理责任,更是值得社会深思。以笔者的研究为例,我们在开发语音转换系统的同时,亦积极研发声纹防伪技术,作为新技术的防卫盾。事实上,全球不同界别对A.I. 伦理皆有热切的关注。中大早于2015年便成立「生命伦理中心」,应对相关挑战。难题不少,但笔者认为人类始终要宏观掌握A.I.,适当的规范A.I. ,尽力使A.I. 为人类、社会乃至世界实现福祉。
原文于 2019 年 8 月 23 日《信报》教育版刊登