語料庫語言學:
語言的數據之旅

陳正賢(Alvin Cheng-Hsien Chen)

QR

背景介紹

語料庫語言學是什麼呢?

  • 當我們學習一門語言時,我們需要了解該語言的語法、詞彙和用法。
  • 語料庫語言學是一種基於語言使用實例(即語料庫)作為研究言語使用的研究方法。
  • 語言學家可以通過分析語料庫中的實際語言使用情況來研究語言的結構用法
  • 研究者也可透過語料庫,挖掘潛在的語言使用趨勢模式

什麼是語料庫?

  • 語料庫就是一個大型且機器可讀取的文字資料庫。
  • 可以人工收集建立,也可以是透個電腦程式自動建立。
  • 語料庫建置時考量的重點:
    • 代表性(單一樣本可否代表類型全體?)
    • 平衡性(樣本種類是否可涵蓋全部類型?)
    • 真實性(樣本是否為真實語境語言使用?)

常見的語料庫

國內

國外

我們能從語料庫挖出什麼有意思的東西呢?

以華語流行音樂歌詞庫為例

詞頻探索

文件與詞彙分佈

詞雲圖

語詞索引列 (Concordances/KWIC)

搭配詞(多字詞組)

歌曲中常見搭配詞組

「男人」搭配詞網

「女人」搭配詞網

關鍵詞

文本相似性比較

語料庫與自然語言處理技術結合

文本分析與探勘

文本分析是一種研究或處理文本數據(包括書面文字、語音轉錄、社交媒體發文等)的方法,從文本中挖掘取信息、識別模式、了解主題和趨勢,以便更深入地理解文本所涉及的內容。

  1. 文本檢索:針對研究者的搜尋文字,有效找尋資料庫中,包含特定詞語或主題的文本段落,使研究人員能夠快速擷取和分析相關文件中的資訊。

  2. 關鍵詞分析:透過語料庫中,單詞或詞組在不同類型文件中出現頻率,尋找特定類型文件中的關鍵詞。

  1. 情感分析:自動化分析文本中的情感趨勢,以有效從大數據資料中,擷取輿情趨勢。

  2. 主題建模:以自動化方式,辨識大量文本中的主題,常用於探索大數據文本資料中的語言使用的趨勢和特徵。

  3. 文本分類:將文本根據其內容分類到不同的類別中。

主題建模

情感(輿情)分析

  1. 情感分析(Sentiment Analysis)是近幾年計算語言學相當熱門的主題,在許多領域等可以看見情感分析的應用。
  2. 情感(Sentiment)是我們語言互動溝通中,除了事件傳達外,另一項很重要的任務。
  3. 透過大量的語言資料,我們可以透過計算文本分析(Computational Text Analytic)的方式,分析在某個特定場域(genre)裡,對於特定「主題」、「人物」、「產品」、「物件」等之普遍情感偏好,結果可以二分(Binary)的方式呈現(如:正向/負向)或以數值(Continuous)呈現(如:正向分數0.8)。
  4. 情感亦可針對不同情緒進一步細分為「開心」、「難過」、「憤怒」等。

如何開始一個語料庫分析呢?

以「華語流行音樂」為例

一個典型資料分析流程

要問什麼問題呢?

  • 在華語流行歌曲中,歌詞對於「男人」和「女人」這兩個概念,普遍情感態度為何?有無差異?
  • 這些情感連結,不同歌手的歌曲是否也有所差異?
  • 透過這個簡單的例子,我們也帶著大家認識,典型的資料科學分析研究,所需的步驟、流程以及需要注意的細節。

資料搜集

  • 資料科學第一步,就是資料搜集的能力。
  • 使用既有的語料庫,或是自行搜集。
  • 網路爬蟲通常是初學者的第一步。
  • 我們從MOJIM歌詞網爬取華語男女歌手,流行歌曲歌詞以及其他歌曲相關資訊(歌手、歌名、作詞、作曲等)。

資料前處理

常見的文字處理

  • 常見的文字資料前處理包括:
    • 文字正規化(Normalization)
    • 文字切段(Tokenization)
    • 文字標記(Enrichment/Annotation)
  • 資料往往有許多雜訊,分析第一步通常必須清理資料(Data Wrangling),將與研究主題不相關的字符刪除,以利後續資料分析。
  • 在這次例子裡,我們去除原始歌詞文字中以下字符(Characters):
    • 多餘空白格以及換行符號
    • 標點符號以及特殊符號
    • 英文字符和阿拉伯數字
*才知道 那都是真的 愛是真實存在
晴的天 雨的夜 平常的語言
#怎麼我 寧願不要懂 你溫暖的寬容
讓愛來 讓愛走 讓你 讓心都受痛
△我想哭 但是哭不出來(哭不出來)
等到思念像海 淹沒我而愛已不再
你絕望的離開 沒有淚流下來
★我哭了 愛再不會回來(愛不再回來)
我會這麼等待 捨不得已春去秋來
在你的愛之外 我在那裡存在
Repeat *,#,△,★
喔.... 我愛就愛 錯就錯
為你愛 為愛等待 嗚....
Repeat (△),(★)
在你的愛之外 我該不該等待
感謝
Johan
修正歌詞
才知道那都是真的愛是真實存在
晴的天雨的夜平常的語言
怎麼我寧願不要懂你溫暖的寬容
讓愛來讓愛走讓你讓心都受痛
我想哭但是哭不出來哭不出來
等到思念像海淹沒我而愛已不再
你絕望的離開沒有淚流下來
我哭了愛再不會回來愛不再回來
我會這麼等待捨不得已春去秋來
在你的愛之外我在那裡存在
喔我愛就愛錯就錯
為你愛為愛等待嗚
在你的愛之外我該不該等待
感謝
修正歌詞

斷詞(中文資料前處理)

  • 由於中文資料沒有詞與詞之間的訊息,通常在前端清理完之後,下個步驟便是「斷詞(Word Segmentation)」。

  • 斷詞的歌詞版本中,我們在詞與詞之間,以空白格作為分隔符號(Delimiter)。

  1. 這次實作中,我們利用中央研究院CKIP團隊所開發的CKIP Transformer進行此資料集的斷詞。
才知道那都是真的愛是真實存在
晴的天雨的夜平常的語言
怎麼我寧願不要懂你溫暖的寬容
讓愛來讓愛走讓你讓心都受痛
我想哭但是哭不出來哭不出來
等到思念像海淹沒我而愛已不再
你絕望的離開沒有淚流下來
我哭了愛再不會回來愛不再回來
我會這麼等待捨不得已春去秋來
在你的愛之外我在那裡存在
喔我愛就愛錯就錯
為你愛為愛等待嗚
在你的愛之外我該不該等待
感謝
修正歌詞
才 知道 那 都 是 真 的 愛 是 真實 存在 
 晴 的 天 雨 的 夜 平常 的 語言 
 怎麼 我 寧願 不要 懂 你 溫暖 的 寬容 
 讓 愛 來 讓 愛 走 讓 你 讓 心 都 受痛 
 我 想 哭 但是 哭 不 出來 哭 不 出來 
 等到 思念 像 海 淹沒 我 而 愛 已 不再 
 你 絕望 的 離開 沒有 淚 流下來 
 我 哭 了 愛 再 不會 回來 愛 不再 回來 
 我 會 這麼 等待 捨不得 已 春 去 秋 來 
 在 你 的 愛 之外 我 在 那裡 存在 
 喔 我 愛 就 愛 錯 就 錯 
 為 你 愛 為 愛 等待 嗚 
 在 你 的 愛 之外 我 該不該 等待 
 感謝 
 修正 歌詞

如何定義「男人」與「女人」概念之情感呢?

  • 我們可以利用搭配詞的概念,找出特定歌手的歌曲中,「男人/女人」經常連結的詞彙有哪些?
  • 接著,我們分析那些高連結的詞彙,情感有無特殊導向?

深度學習之「詞向量」

  • 「詞向量(Word Embeddings)」是這幾年在大型語言模型、深度學習、以及人工智慧中,相當熱門的概念!
  • 詞向量是一種用數字表示單詞的方法,讓電腦能夠理解和處理語言。
  • 詞向量可以透過詞彙在文本中的分佈,以深度學習的方式自動學習
  • 背後機器學習的基礎假設是:「兩個詞彙所使用的語境越相似,則兩者語意距離越相近。」

詞向量有什麼好處?

  • 它把單詞轉換成了數值向量形式,這樣電腦可以用它來進行各種運算
  • 語意相似性就可以量化了!這意味著在詞向量空間中,語意相近詞彙,數值也是相似的。
  • 簡言之,透過大型語料庫以及深度學習方法,詞向量可以讓我們看出詞彙間語意相近程度。
  1. 此範例是根據中央研究院漢語平衡語料庫,建置中文詞向量模型。

  • 我們就利用詞向量這種方法,找出在歌詞庫中,與「男人」和「女人」概念相近的詞彙,再進一步分析這些詞彙的情感特質。

探索資料分析

  • 這次的實作資料,收集17位華語男女歌手歌曲之歌詞作為分析文本,總共有2409首歌曲。
  1. 這些歌手的選擇沒有什麼邏輯(可能只是反映我年紀吧 ),如果考量研究嚴謹度,應該納入所有男女歌手,比較合適。
  • 每位歌手蒐集之歌曲數目分佈如下:

資料分析流程

透過詞向量,找尋「男人」「女人」的鄰近詞

步驟

  • 我們將整個資料庫,依據不同歌手分成17個子資料庫,不同歌手歌曲作為子語料庫,針對每一位歌手獨立訓練一個「歌手詞向量」模型。
  • 從每一位歌手訓練出來的詞向量模型,尋找分別與「男人」和「女人」相近的200個詞彙,作為後續的情態分析。
  • 每位歌手找出400個與「男人」和「女人」語意相近詞彙(「男人」和「女人」各200個詞),共 \(17 \times 400 = 6800\) 的詞彙。

分析相近詞的情感分佈

  • 與「男人」相近的詞彙中,多少詞彙是正面的?是快樂?悲傷的?憤怒的?
  • 與「女人」相近的詞彙中,多少詞彙是正面的?是快樂?悲傷的?憤怒的?

查字典!情感字典!

  • 目前中文的情感字典,能夠公開使用的不多,在這個小研究中,我們使用的是NRC Emotion Dictionary
  • NRC是一個以英文為主的情感字典,作者透過自動化翻譯將字典擴增至全球一百多種語言。
  • 我們使用NRC提供之中文版本,透過人工修正翻譯正確性。
  1. Saif Mohammad and Peter Turney (2013). Crowdsourcing a Word-Emotion Association Lexicon. Computational Intelligence, 29 (3), 436-465, 2013.

情感字典詞彙分佈

全部歌手分析:正反情感

  • 我們可以依據一般的二分情感字典,以正向負向兩端,來初步分析歌詞庫中,所有「男人」與「女人」相近詞。

「男人」相近詞探索

「女人」相近詞探索

統計分析(正負二元情態)

細部八大情感分析

  • 我們將每位歌手詞向量模型所找出之「男人」與「女人」相近詞,依據情感字典,找出夾帶「特殊情感」之詞彙,接著,計算分析每一個歌手這些相近詞在八大情感的分數。

歌手、概念、情感

  1. Density數值越高,表示「男人/女人」與該特定情感連結性越高。

「男人」在不同歌手中的情感分佈

  1. 「男人」在不同歌手之歌曲中,顯示JOY和FEAR是最常見的情感連結;SURPRISE則最少見。
  2. 不同歌手也有不同情感趨勢,如:魏如萱、蕭敬騰之JOY,張雨生的FEAR,吳青峰的FEAR和ANGER

「女人」在不同歌手中的情感分佈

  1. 「女人」在不同歌手之歌曲中,顯示JOY、ANITCIPATION、FEAR是最常見的情感連結;DISGUST則最少見。
  2. 不同歌手也有不同情感趨勢,如:王心凌的JOY,張雨生的JOY、ANTICIPATION,吳青峰的JOY、FEAR。

「男人」「女人」比較分析

  • 初步研究結果顯示,「男人」和「女人」相近詞,在不同情感分佈上,有顯著差異。
  • 我們目前資料呈現兩個明顯的連結:
    • 「男人」與DISGUST/ANGER/SADNESS
    • 「女人」與SURPRISE/ANTICIPATION/TRUST

後續文字分析

女人與Surpise/Trust/Anticipation

男人與Anger/Disgust/Sadness

結語

語料庫分析與資訊科學

  • 議題發想
  • 資料收集(Corpus, Web-Crawling)
  • 資料前置處理 (Text Pre-processing, Data Wrangling)
  • 資料分析 (Exploratory Data Analysis & Statistics)
  • 結果詮釋 (Data Visualization, Reproducible Reports)

語言學的未來?

  • 充實自己的跨域能力(統計、程式與數位)
  • 培養一顆數位的頭腦
  • 跳脫人文領域的舒適圈

別多想,學就是了!

感謝大家!