語言中的語意網絡


陳正賢
Alvin Cheng-Hsien Chen

國立台灣師範大學英語學系助理教授

2021年06月28日

報告大綱

  • 背景(語意、詞彙、句構與網絡)
  • 空間句構
  • 語料庫學習
  • 從語料庫到網絡
  • 如何分析句構網絡?
  • 結語

背景

詞彙語意表徵

  • 一個詞彙的語意,該怎如何定義和表徵 (Semantic Representation)?

    • 指涉(Meaning by reference)
    • 比較(Meaning by contrast)
    • 使用(Meaning by uses)
  1. Riemer, Nick. 2010. Introducing semantics. Cambridge: Cambridge University Press.

語言單位間的共現性(Co-occurrence)

  • 不同語言單位之間的共現,一直是語言學家關心的議題。

    • 詞彙間的搭配關係(Collocation)
    • 詞彙與句構間的搭配關係(Colligation, Collostruction)
  • 隨著語料庫方法發展成熟,字串間的相連性(sequentiality),成為詞彙語意(lexical semantics)研究的重要基礎。
  • 透過大量語料中的共現關係(Co-occurrence patterns),分析詞彙語意,定義其語意表徵(Semantic Representation)。
  • 透過語境所取得的詞彙分散式語意表徵(Distributed Semantic Representation),成為近年來語意分析研究的重要議題。(如:顯著搭配詞、詞向量[Word Embeddings])。

分散式語意表徵 (Distributional Hypothesis)

  • 語言單位之間的共現關係(Co-occurrence patterns)成為分散式語意表徵(Distributed Semantic Representation)學習的重要基礎。

You shall know a word by the comany it keeps. (Firth, 1957, p.11)

[D]ifference of meaning correlates with difference of distribution. (Harris, 1970, p.785)

句構有語意嗎?

John baked me a cake.

  • 「Transfer」的語意從何來呢?

句構如同詞彙

一個句構亦帶有其特殊語意成分。

[G]rammatical knowledge represents a continuum on two dimensions, from the substantive to the schematic and from the atomic to the complex. This continuum is widely referred to as the syntax-lexicon continuum. (Croft & Cruse, 2004, p.255-6)

或許我們語法知識中儲存句構,就像儲存一般詞彙一樣。

「做一個 X 的動作」

「報復性 X 」

「被 + \(\text{Verb}_{intransitive}\)

「被 __ 耽誤了的 __ 」

「恐 + X 」

「動作動詞」

  • 傻眼、直搖頭、一探究竟、坦言、直呼

「報導動詞」

  • 網友笑稱、網友直呼、網稱、網譏、網酸、網友怒嗆、網友飆罵、網友反酸

怎麼表達句構語意呢?

  • 完整的語法網絡知識,除了詞彙的語意表徵以外,應該也必須包含「句構(construction)」語意。
  • 但,該如何表徵一個抽象(或是半抽象)的句構語意?

詞彙和句構相互連結

語意就在語法網絡裡

  • 語言即詞彙句構的排列組合
  • 每一個詞彙句構,隨著語言使用習慣,都擁有各自喜好一同使用詞彙或句構。
  • 而這些一同出現的語言情境,也成了這些詞彙句構的語意痕跡。

空間構式

以中文「空間句構」為例

  • 中文表達空間概念時,經常使用以下句構:

「在 + 參考物體 + 空間方位詞」

  • 在…期限
  • 在…條件
  • 在…比賽
  • 在…情感

空間句構語意表徵的關鍵?

  • 一個抽象句構大概更難直接說出它「意義」為何。

  • 但,句構的語意,可從句構其他語言單位之間的共現性,一窺端倪(Distributed Semantic Representation):

    • 句構詞彙間的連結:哪些詞彙經常與特定空間句構共同使用?
    • 詞彙詞彙間的連結:出現在空間句構中的詞彙裡,哪些詞彙語意較為相近?彼此之間有什麼相似處嗎?
    • 句構句構間的連結:哪些空間句構語意相似?常與類似的詞彙一起使用?(如:「在 +… + 內」、「在 +… + 下」、「在 +… + 後」)

語料庫學習

語料庫成為『語言共現』的寶藏盒

  • 以上三種連結,是構成我們語法知識網絡的重要基礎,透過大量語料庫資料,我們可以利用量化方法學習並模擬這三種連結,重現一個句構的語意網絡(Semantic Network)。
  • 我們可利用「網絡分析方法(network science)」,進一步以圖像方式呈現句構與其他詞彙間的互動關係,即語法知識網絡(Grammatical Network)。
  1. Barabási, Albert-László. (2016). Network Science. Cambridge University Press.
  2. Diessel, Holger. (2019). The Grammar Network: How Linguistic Structure is Shaped by Language Use. Cambridge University Press.

句構與詞彙之連結

  • Collostruction Analysis
    • Collexeme Analysis
    • Co-varying Collexeme Analysis
    • Distinctive Collexeme Analysis
  1. Stefanowitsch, A. & Gries, S.T. 2003. Collostructions: Investigating the interaction of words and constructions. International Journal of Corpus Linguistics, 8(2), 209-243.
  2. Gries, S. T., & Stefanowitsch, A. 2004. Co-varying collexemes in the into-causative. Language, Culture, and Mind, 225-236.
  3. Gries, S. T., & Stefanowitsch, A. 2004. Extending collostructional analysis: A corpus-based perspective on alternations’. International Journal of Corpus Linguistics, 9(1), 97-129.

詞彙與詞彙之連結

  • 詞彙與詞彙之間存在許多不同類型的語意關係,形成「詞網(WordNet)」(如:情況, 情形, 狀況, 環境)。
  • 詞彙關係(Lexical Relations)可由兩種方式取得:
    • 以字典手動方法(如: WordNet)
    • 透過語料庫詞彙分佈,以自動化方式學習

深度學習之「詞向量」

  • 透過深度學習方法,以非監督式方式,學習詞彙的分散式向量表徵,通常稱為「詞向量(Word Embeddings)」

  • 詞向量模型的學習目標任務為,學習每一個詞彙的數值向量表徵,且此向量表徵能夠有效預測:

    • 在特定語境中,可能出現的特定詞彙\(W_i\)為何?(Continuous Bag-of-Words)
    • 針對一個特定詞彙\(W_i\),有哪些詞彙會與其共同出現於同一語境中?(Skip-Gram)

詞彙、搭配詞和語意

  • 簡言之,透過大型語料庫,如果兩個詞彙周圍共現的搭配詞類似,則我們可以推測它們語意相近。
  1. 此範例是根據中央研究院漢語對話語料庫計算。
Target and Context Words Co-occurrence Matrix
CW1 CW2 CW3 CW4 CW5 CW6 CW7 CW8 CW9 CW10
叔叔 2 0 0 1 2 1 10 7 1 1
阿姨 11 7 0 0 1 4 2 3 3 0
男孩 0 0 7 29 0 0 0 4 1 1
女孩 0 0 0 15 0 0 0 9 2 1
爺爺 0 0 0 0 23 0 20 11 2 1
奶奶 0 0 1 0 59 8 14 13 1 1
爸爸 0 0 0 0 0 0 62 336 0 0
媽媽 0 0 0 0 0 0 0 100 0 0
兒子 0 0 0 0 0 0 18 9 20 38
女兒 0 0 0 0 0 0 13 28 0 31

詞向量讓我們能夠將詞彙語意做實際數值運算。

從語料庫到網絡

空間句構網絡

個別網絡(一)

個別網絡(二)

如何分析句構網絡?

三個層次網絡分析

  • 宏觀(Macroscopic)分析:觀察整個網絡(Graph)特質
  • 微觀(Microscopic)分析:觀察每一個節點(Node)的特質
  • 中觀(Mesoscopic)分析:觀察網絡節點間群集(Community)特質
  1. Siew, Cynthia S. Q., Dirk U. Wulff, Nicole M. Beckage & Yoed N. Kenett. 2019. Cognitive network science: A review of research on cognition through the lens of network representations, processes, and dynamics. Complexity 2019. 1–24.

Macroscopic分析

「以人為本」之社群網絡常見結構

  • 無尺度網絡(Scale-free):
    • 在一個網絡中,僅有少數幾個節點擁有豐富對外連結,大多數的節點的連結數都很少,且此現象不會隨著整個網絡大小而改變。
  • 小世界網絡(Small-world):
    • 在一個網絡中,常有聚集成堆的小社群,它們彼此之間的連結強度,比與其他社群中的節點還來得緊密。
  1. Barabási, Albert-László & Re ́ka Albert. 1999. Emergence of scaling in random networks. Science 286(5439). 509–512.
  2. Watts, Duncan J. & Steven H. Strogatz. 1998. Collective dynamics of ‘small-world’networks. Nature 393(6684). 440–442.

句構網絡亦如此

  • Small-world: 代表語法網絡中,有少部分語言單位(詞彙或句構),因語意或語用相近,形成語意社群(semantic fields)
  • Scale-free: 代表語法網絡中,僅有少數幾個連結數高(high-degree)的節點,成為語意社群的典型範例(exemplar)

Miscroscopic分析

網絡分析常用節點計量值

  • Local Clustering Coefficient: 可看出某個node,其所有相連之鄰近節點,彼此之間的連結程度。
  • Centrality:可看出在一個網絡中,哪些node扮演比較重要的角色。
  1. 亦稱Local Transitivity。
  2. 常見的Centrality數值包括: Betweenness, PageRank, Authority, Closeness.
  • 空間詞(句構)Nodes的Local Coefficient,代表與該句構一同出現的詞彙彼此間之語意同質性(Semantic Coherence)

  • 參考物體(詞彙) Nodes的Centrality,代表哪些物體為與特定句構共現之典型詞彙(Exemplars)

Mescoscopic分析

  • 透過網絡分析,尋找網絡中的小社群(Community Detection)。

語法網絡中的社群,代表某個特定語意場域(Semantic Field)的形成。

語法網絡 (Grammar Network)

  • 結合網絡分析方法(Network Science),我們可以透過句構的網絡,分析句構語意:

    • 每一個空間句構中,典型(prototypical)的參考物體為何?
    • 每一個空間句構中,其共現的參考物體有無語意共通性(semantic cohesiveness)?
    • 在整個中文空間句構中,是否有明顯的語義場(Semantic fields)?每個語意場與每個空間概念的互動為何?

整理

結語

  • 語法表徵 (Grammar Knowledge Representation) 可視為一個由不同層次語言單位交織而成的語法網絡 (Grammar Network) 。
  • 網絡不僅可以勾勒詞彙間的連結,更可成為語言構式的語意表徵方法。
  • 網絡源自於語言使用(Language Use),未來可透過網絡分析,觀察特定群體場域的語法網絡生成。

感謝聆聽!


參考資料:

  1. Barabási, Albert-László. 2016. Network science. Cambridge: Cambridge University Press.
  2. Diessel, Holger. 2019. The grammar network: How linguistic structure is shaped by language use. Cambridge, UK: Cambridge University Press.
  3. Chen, Alvin Cheng-Hsien. In press. Words, constructions and corpora: Network representations of constructional semantics for Mandarin space particles. Corpus Linguistics and Linguistic Theory 19(1). https://doi.org/10.1515/cllt-2020-0012. (Supplementary Materials)