ronbun yomu

言語学(主に日本語文法史)の論文を読みます

Kanako KOMIYA, Aya TANABE, Hiroyuki SHINNOU. 2022.7. Diachronic Domain Adaptation of Word Sense Disambiguation in Corpus of Historical Japanese Using Word Embeddings(分散表現を利用した日本語歴史コーパスにおける語義曖昧性解消の通時適応)

Kanako KOMIYA, Aya TANABE, Hiroyuki SHINNOU. 2022.7. Diachronic Domain Adaptation of Word Sense Disambiguation in Corpus of Historical Japanese Using Word Embeddings. NINJAL Research Papers. 23. 古宮嘉那子・田邊絢・新納浩幸(2022.7)「分散表現を利用した日本語歴史コーパスにおける語義曖昧性解消の通時適応」『国立国語研究所』23.

要点

  • 教師データの少ない古典語に対しては、現代語と同じ語義曖昧性解消(WSD)の手法は適用しがたいので、現代語のコーパスを利用した領域適応(domain adaptation)を行うことを提案する
  • 通時的変化を捉えるのに適していると考えられる、fine-tuning を行った分散表現(word embeddings)を採用する
  • データ:
    • BCCWJとCHJ(平安~室町)に対して分類語彙表で意味付与を行ったデータを用い、
    • データは、NWJC-2014-4Q に基づく NWJC2vec
  • シナリオは以下の3通りで、
    • Both scenario: 現代語の全体と古典語の8割を訓練データ、古典語の残りの2割をテストデータ
    • Target Only scanario: 古典語だけを利用して 5-fold cross validation
    • Source Only scenario: 現代語全体を訓練データ、古典語全体をテストデータ
  • 特徴量は、古典語・現代語のものをそれぞれをベースラインとして、3通りの通時的な領域適応を検証する

p.69

  • 結果、
    • FT historical features with contemporary corpus(CHJの分散表現を、BCCWJでfine-tuning)を、
    • 古典語だけに適用した場合(Target Only scanario)が、最も精度が高かった

雑記

  • 同じ号の麻生・セリック・中澤(2022)も面白かった doi.org