一個詞彙的語意,該怎如何定義和表徵 (Semantic Representation)?
不同語言單位之間的共現,一直是語言學家關心的議題。
You shall know a word by the comany it keeps. (Firth, 1957, p.11)
[D]ifference of meaning correlates with difference of distribution. (Harris, 1970, p.785)
John baked me a cake.
一個句構亦帶有其特殊語意成分。
[G]rammatical knowledge represents a continuum on two dimensions, from the substantive to the schematic and from the atomic to the complex. This continuum is widely referred to as the syntax-lexicon continuum. (Croft & Cruse, 2004, p.255-6)
「在 + 參考物體 + 空間方位詞」
一個抽象句構大概更難直接說出它「意義」為何。
但,句構的語意,可從句構與其他語言單位之間的共現性,一窺端倪(Distributed Semantic Representation):
透過深度學習方法,以非監督式方式,學習詞彙的分散式向量表徵,通常稱為「詞向量(Word Embeddings)」
詞向量模型的學習目標任務為,學習每一個詞彙的數值向量表徵,且此向量表徵能夠有效預測:
CW1 | CW2 | CW3 | CW4 | CW5 | CW6 | CW7 | CW8 | CW9 | CW10 | |
---|---|---|---|---|---|---|---|---|---|---|
叔叔 | 2 | 0 | 0 | 1 | 2 | 1 | 10 | 7 | 1 | 1 |
阿姨 | 11 | 7 | 0 | 0 | 1 | 4 | 2 | 3 | 3 | 0 |
男孩 | 0 | 0 | 7 | 29 | 0 | 0 | 0 | 4 | 1 | 1 |
女孩 | 0 | 0 | 0 | 15 | 0 | 0 | 0 | 9 | 2 | 1 |
爺爺 | 0 | 0 | 0 | 0 | 23 | 0 | 20 | 11 | 2 | 1 |
奶奶 | 0 | 0 | 1 | 0 | 59 | 8 | 14 | 13 | 1 | 1 |
爸爸 | 0 | 0 | 0 | 0 | 0 | 0 | 62 | 336 | 0 | 0 |
媽媽 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 100 | 0 | 0 |
兒子 | 0 | 0 | 0 | 0 | 0 | 0 | 18 | 9 | 20 | 38 |
女兒 | 0 | 0 | 0 | 0 | 0 | 0 | 13 | 28 | 0 | 31 |
詞向量讓我們能夠將詞彙語意做實際數值運算。
語法網絡中的社群,代表某個特定語意場域(Semantic Field)的形成。
結合網絡分析方法(Network Science),我們可以透過句構的網絡,分析句構語意:
感謝聆聽!
參考資料:
國立政治大學,台北,2021年6月28日
alvinchen@ntnu.edu.tw | alvinchen.myftp.org