(張俊盛 撰)
WordNet可以說是文字的百科全書,包含了將近20萬個英文字義及其語意關係,在自然語言處理、搜尋引擎等研究中,常見WordNet的身影。
From:科學人雜誌電子報
在學術界有一個好處,就是每年總會有一兩次機會到最好的旅遊景點去開會。其中,讓我記憶猶新的是1996年在美國新墨西哥州聖塔菲舉行的國際機器翻譯會議。我從台灣出發,抵美後途中停留舊金山,再搭螺旋槳飛機,飛越加州死谷到聖塔菲,才臨時找平價的汽車旅館投宿。旅館看來雖不起眼,卻靠近熱鬧的廣場。旅館到廣場的路上,兩旁都是一間間兼具西班牙與印第安風味的夢幻粉紅泥磚屋。一位與會的英國學者大嘆:「我的天呀!聖塔菲就像一座主題樂園,連加油站都是泥磚屋。」英國人對美國風,當然不是讚賞而是挖苦。
國際機器翻譯會議的會場,設在沙漠中的聖約翰學院內。沙漠中有道路,但沒有巴士可到會場,也叫不到計程車。第二天我起了個大早,健行一小時,才到會場。我先坐下來喘口氣,也趁開會前的空檔,和鄰座閒聊兩句。我們談到最近很多學者利用普林斯頓大學的WordNet做研究(你可以在www.cogsci.princeton.edu/ ~wn/免費下載)。源自心理學研究的WordNet可以說是文字的百科全書,包含了將近20萬個英文字義及其語意關係,在自然語言處理、搜尋引擎等研究中,常見WordNet的身影。我抱怨說:「美中不足的是WordNet沒有主題資訊,例如無法列出所有和西洋棋有關的辭彙。」大會看著要開始了,先打住。
這時候,主席交代過事務性報告,開始介紹主題講座的講者─心理學大師米勒(George Miller),也就是WordNet計畫的主持人。米勒由我的旁邊起身,走到台前,準備做他的大師開示。有眼不識泰山,鄰座就是WordNet之父,而我竟然當他的面挑剔起WordNet!
大師的暖場笑話沒有奏效,聽眾全板著臉:或許是時差在作祟吧。米勒嘲弄地說:「天啊!你們機器翻譯專家平常都是這麼嚴肅嗎?」這下子才打破僵局,一屋子原本正經八百的專家哄堂大笑。接下來,大家都很捧場,該笑的時候就笑。米勒接著說,心理學家想從小孩身上瞭解語意,於是實地去看老師的作業。老師要小學生用"eat out"造句(如「酸雨侵蝕了銅質的屋頂」),學生交回來"My family ate out a lot recently",大出老師意料之外。又是哄堂大笑。
學生很自然的以日常的脈絡下來解讀"eat out",造出句子。我們莞爾一笑之餘,可以再深入思考。我想到米勒的另外一大貢獻─語意由上下文脈絡決定的理論。米勒認為語意和上下文,是一體的兩面。至今,這個想法仍然很有啟發性,最近史丹佛大學的辛瑞奇舒茲的博士論文中,就以實驗證明了英文字"suit"的不同意思可以由7467個"suit"例句,自動分析出來!
再回頭來談WordNet有什麼好處。以自動詢答這個熱門的研究題目為例,我們可以問電腦"Who invented electric light?"電腦由WordNet中,知道"electric light"和"lightbulb"在WordNet中同屬一個同義集(synset),指的是同一個東西。因此可以在「大英百科全書」檔案中,找到發明電燈泡的一段相關文字(He [Edison]…invented…the incandescent lightbulb),來正確回答問題。 WordNet還提供廣義、狹義、相似、部份、全體等18種詞彙語意關係。有了WordNet,電腦就能應付變化多端的問題。
在米勒的啟發下,此刻許多研究者都在努力建立各種語言的WordNets:Spanish WordNet、Chinese WordNet等,WordNet儼然已經成為語言研究者的必修課;因為WordNet可以透過語意關係,連接到其他相關字,社會大眾也多了一個比一般辭典更方便的工具。在認知心理領域早就立下不朽之言的米勒,為了研究語意,晚年又大膽的闖入辭典學的領域,創立結合辭典和本體論的WordNet。大師不受領域限制的貢獻,影響領域之廣,讓人敬佩!
WordNet之父-喬治米勒在聖塔菲
Please follow and like us: