應用自動文字探勘於臺灣中文饒舌音樂歌詞之研究

韓 怡臻(Yi-Chen Han), 柯 皓仁(Hao-Ren Ke)

Research output: Contribution to journalArticlepeer-review

Abstract

邁入千禧年後,饒舌歌曲已逐漸進入主流音樂市場,深受年輕族群的歡迎。饒舌歌手經常透過自行創作的歌詞來抒發心情或表達對社會的批判,瞭解饒舌音樂的歌詞內容也能瞭解當代文化和社會風氣。本研究目的旨在透過文字探勘,去探索臺灣中文饒舌音樂歌詞中可能存在之主題類型。本研究首先進行詞頻分析,從整體、年代兩大面向觀察各關鍵詞的出現頻率以瞭解歌詞文本的基本內涵與詞頻分布,隨後進行了k-means分群演算法(k-means clustering)及鄰近傳播分群法之分群實驗,並利用分群結果與人工標記之結果進行支援向量機與K-近鄰演算法之分類實驗。本研究發現臺灣中文饒舌音樂歌詞近二十年來以音樂、愛情、派對的主題最為常見。分群成效方面,鄰近傳播分群法相較於k-means分群演算法會得到略好些的分群成效。分類成效方面,使用K-近鄰演算法相較於支援向量機會得到略好些的分類成效,而且透過分群結果輔助分類標記能訓練出比純人工標記還要好的音樂類歌詞二元分類模型。音樂類主題的歌詞確實存在於臺灣中文饒舌音樂歌詞中,而其他主題類型的歌詞因為有資料不平衡之問題存在,能否自成一類仍有待觀察。建議未來研究可以增加歌詞文本的收錄範圍、嘗試不同的維度縮減方式、從不同面向進行詞頻分析、偕同專家或閱聽者進行標記、使用不同的分群與分類方法。
Original languageChinese (Traditional)
Pages (from-to)1-41
Number of pages41
Journal數位典藏與數位人文
Issue number8
DOIs
Publication statusPublished - 2021

Cite this