Kanako KOMIYA, Aya TANABE, Hiroyuki SHINNOU. 2022.7. Diachronic Domain Adaptation of Word Sense Disambiguation in Corpus of Historical Japanese Using Word Embeddings(分散表現を利用した日本語歴史コーパスにおける語義曖昧性解消の通時適応)
要点
- 教師データの少ない古典語に対しては、現代語と同じ語義曖昧性解消(WSD)の手法は適用しがたいので、現代語のコーパスを利用した領域適応(domain adaptation)を行うことを提案する
- 通時的変化を捉えるのに適していると考えられる、fine-tuning を行った分散表現(word embeddings)を採用する
- データ:
- BCCWJとCHJ(平安~室町)に対して分類語彙表で意味付与を行ったデータを用い、
- データは、NWJC-2014-4Q に基づく NWJC2vec
- シナリオは以下の3通りで、
- Both scenario: 現代語の全体と古典語の8割を訓練データ、古典語の残りの2割をテストデータ
- Target Only scanario: 古典語だけを利用して 5-fold cross validation
- Source Only scenario: 現代語全体を訓練データ、古典語全体をテストデータ
- 特徴量は、古典語・現代語のものをそれぞれをベースラインとして、3通りの通時的な領域適応を検証する
- 結果、
- FT historical features with contemporary corpus(CHJの分散表現を、BCCWJでfine-tuning)を、
- 古典語だけに適用した場合(Target Only scanario)が、最も精度が高かった
雑記
- 同じ号の麻生・セリック・中澤(2022)も面白かった doi.org