“Artificial Intelligence” in science fiction movies threatens the future of mankind from time to time. Is this actually the case?
Prof. Helen Meng of CUHK Faculty of Engineering has been studying artificial intelligence for years. She is also an expert in speech and language technologies. In recent years, Prof. Meng has been dedicated to developing Cantonese intelligent speech systems for patients with strokes and cerebral palsy to facilitate their reintegration into society. Prof. Meng gave the fifth lecture in ‘The Pursuit of Wisdom’ Public Lecture Series on the topic of Artificial Intelligence in Speaking and Listening for Learning and Well-Being" on 3 June. The lecture drew about 200 CUHK staff members and students, alumni, secondary school students and members of the public. Professor Meng talked about her experiences and achievements in her field of scientific research. She had a fruitful discussion with the moderators and also took questions from the audience.
Prof. MENG's article published in Hong Kong Economic Journal (Chinese version only)
懂聽懂說的人工智能如何改善人類的學習及生活(撰文:蒙美玲教授)
人工智能(Artificial Intelligence,簡稱A.I.)堪稱近年發展最迅速的工程學科之一。由圍棋到駕駛,電腦「學懂」的東西似乎愈來愈多。不少人在享受科技帶來的便利之際,亦開始對電腦的威脅愈覺疑慮。
「機器能思考嗎?」這是圖靈(Alan Turing)早於1950年提出的疑問。若計算機能表現出等同人類的智能,便可為問題提供答案。想像一個處於密室的人,只以文字向一位真人及一部電腦溝通。若電腦的回覆符合人類邏輯,令密室中的提問者不能辨別哪一方才是人類,那麼便可斷定機器通過測試。這便是著名的「圖靈測試」,亦是人工智能的雛型。
科學家最早為人工智能提出的定義是:若計算機能處理通常要依靠人類解決的問題;且其智慧是靠機械自身學習而來的,即屬「人工智能」。一部機械何以自身學習?所指的其實是「機器學習」特性:以大數據建立的資料庫為根基,配合特定的軟件算法,甚至借助多層神經網絡的深度學習,讓機器學會自行解決特定的問題。
筆者將以研究多年的語音和語言處理技術為例,概述人工智能如何運作,以及相關技術的前景乃至倫理爭議。
學習外語的助手
平日交流時總會用到言語,但其實每段說話均蘊含箇中意義、態度、情感、說話人的身份背景等複雜信息。若機器能夠學習並領會此一「人類的神奇信號」,並進而發展出語音識別、機器翻譯、對話機械人等語言相關技術,自然大大裨益人類。
其中,不少人都苦於學習外語,尤其是會話應用,用於語言學習的人工智能系統便應運而生。從工程學角度出發,我們可借助語音識別及語音合成技術,協助用家學習。前者是利用語音識別技術,檢測並診斷用家的錯誤發音。以廣東話母語者學習英語為例,兩種語言的輔音及元音各有迥異。為此,我們事先參考語言學的理論,再建立龐大的語音資料庫,讓電腦利用人工智能的學習特性,預先學習廣東話母語者常犯的發音錯誤。日後當用家使用系統錄音練習時,電腦便可即時偵察其錯誤發音。
緊接便需借助語音合成技術,讓電腦輸出合成糾正性反饋,糾正學習者的錯誤發音。假設系統測出學習者唸‘shoes’時的‘sh’發音有誤,系統便會自行將‘sh’的正確發音作「超誇張」的語音合成;在下次示範時,電腦會刻意拖慢並強調‘sh’的發音,讓用家更易體會及糾正。此外,系統更可透過相關音素的關鍵幀,將正確發音的動作以圖像可視化,向用家示範唸‘shoes’時,舌頭、上下唇、軟齶等的正確姿態。透過音視頻的雙模態結合,為學習者生成糾正性反饋。
病友溝通的橋樑
人工智能亦大可改善人類的生活。語音障礙的病友在日常溝通時容易碰壁,我們便與醫院管理局合作,將他們出版的「溝通書」電子化,再融入我們開發的廣東話語音合成技術,讓病友們透過流動應用程式,隨時隨地點擊播放諸如港鐵站、日用品等生活詞彙的語音。我們更積極研發語音轉換技術,利用語音後驗圖技術,歸一化不同說話人的發音,期望日後無需收集龐大的平衡數據,亦可為每位用家輸出更切合其身份的個人化語音。
除了話音輸出,我們亦致力研發語音識別系統,讓照顧者或身邊人更易了解病者欲表達的話語。我們針對中風、腦癱瘓造成的構音障礙,與中大生命科學學院、語言學及現代語言系等合作,邀請本地病友參與錄音,建立粵語構音障礙的資料庫,作為研發語音識別系統的根基。收集過程漫長而艱苦,病友們即使知道研發需時,亦不辭勞苦協助錄音,務求讓以後的病人能夠受惠,在此衷心感謝他們的無私付出。
A.I. 願景與倫理風險
不少人或會憂慮人工智能的急速發展,在筆者看來,人工智能卻為語音、語言的學術研究及技術帶來黃金時代!無疑,人工智能正迅速滲入日常工作與生活,處處帶來顛覆性的影響。筆者認為最佳的願景會是「A.I.與人類和諧共生」的狀態:人類設計嶄新A.I.功能;人與A.I.在複雜任務中共同協作;最終人與A.I.可共同創新及發掘新的知識。
誠然,人工智能確實帶來潛在風險。A.I.取代人類工種之言非虛;系統依靠的資料庫亦存有真偽風險;更重要是擁有A.I.的個體需承擔何種倫理責任,更是值得社會深思。以筆者的研究為例,我們在開發語音轉換系統的同時,亦積極研發聲紋防偽技術,作為新技術的防衛盾。事實上,全球不同界別對A.I. 倫理皆有熱切的關注。中大早於2015年便成立「生命倫理中心」,應對相關挑戰。難題不少,但筆者認為人類始終要宏觀掌握A.I.,適當的規範A.I. ,盡力使A.I. 為人類、社會乃至世界實現福祉。