2019/02/09 対訳コーパス CORPORA にフィルタ追加
|
対訳コーパス コーポラ(CORPORA) にフィルタを追加した。フィルタは、検索結果からさらに情報を選び出す機能を持つ。大量の情報を取捨選択する 強力なツールとなる。
|
もくじ |
- 対訳フィルタと共起フィルタの二種類を準備
- 語義・語感を 対訳コーパスで知る
- TED 対訳コーパスで調査
- interesting と interested の語感の違い
- まとめ interesting と interested の類似と相違
- 開発後記
- リンク
|
|
|
設置したフィルタには 対訳フィルタと 共起フィルタの 二種類がある。対訳フィルタを使うと 検索語がどのように翻訳されているかを知ることができる。共起フィルタでは 検索語と関りがある語を 教えてくれる。
ここでは、interest の派生語である interesting と interested を例として 話を進める。
問題意識を表にすると次のようになる。
| | 対訳フィルタ | 共起フィルタ |
検索語 | | | |
英語 | | 日本語(翻訳) | 英語 |
日本語 | | 英語 | 日本語(翻訳) |
目的 | | 訳語を知る | 関連ある語彙を知る |
例 | | | |
interesting | | 興味・・・ | very,,, |
interested | | 興味・・・ | very,,, |
interesting も interested も 興味深い、とか興味を持つという語義である。どちらも very interesting, very interested などと強調される。上の表の下段2行をもっと詳しく調べるのが 目的である。
今回は 英語の語感の違いを調べることにテーマを絞った。このテーマを上の表で見ると 赤い字で示した部分にあたる。すなわち ある英単語が どのような日本語に翻訳されているかを調査することで その英単語の 語義・語感に迫る試みである。
|
|
辞書を使えば 用法や訳語が 微妙に違うことが分かりはする。しかし実用面としては 使用場面が浮かんで来るとは限らない。
interesting | 興味(関心)を引き起こす、面白い |
interested | 興味(関心)を持っている、したいと思っている |
| (ジーニアス和英・英和辞典より 抜粋) |
対訳コーパスを用例辞典をして使えることはよく知られている。しかし、語義・語感についての対訳コーパスの弁別性能については 未知の領域である。もちろん 人工知能(AI)は対訳コーパスを使って自動翻訳などをこなしているのだが、その手法を 人の学習に応用できるのだろうか?
機械翻訳手法の 語学学習への応用である。
そこで、先のテーマは 次のように 書き直しておく。
テーマ
- 対訳コーパスで interesting と interested の語感の違いを知る
- 語義・語感を 対訳コーパスで知ることができるか?
|
|
対訳コーパス・コーポラ(CORPORA)には、映画コーパス・Seleaf と プレゼンの TED コーパスの 2 本がある。Seleaf は 単語数 0.3M だが、TED コーパスは 10 倍以上の 5Mもある。
今回は 単語の大きな傾向を比較することが目的なので サイズが大きい TED コーパスを使った。プレゼン(講演)と映画(対話)での用法の違いに焦点を当てたいときには 以下に述べる手法を Seleaf でも実施するとよい。
|
|
最初に interesting を調べてみる。手順に従って説明する。
- 対訳コーパス CORPORA を開く
⇒http://www.mintap.com/talkies/pac/corpora.html
- 「interesting」を入力し [検索] をタップする
- ヒット件数が 1,643 あり、そのうち 50 件が表示されていることがわかる。
- たくさんあった方がいいので、全部を取得する。そのためには [+1000] と書かれたボタンをタップする。
- すると表示が 1,050 件に増える。まだ残りがあるので [+593] をタップする。
- 1,643 件すべて表示されたので、フィルタで処理を始める。フィルタする対象はコーパス全体ではなく、検索されて表示されているテキストに限られている。
- まず 入力欄すぐ左下にある [option] をタップして、オプション欄をひらき、[対訳] をチェックする。
- すると、左下に 対訳フィルタ小窓が現れる。
- 画面をスクロールして見やすい位置に移動する。
- この小窓にリストされた語彙は、ヒットした字幕シーンの訳で使われている漢字あよびカタカナである。右に添えられた数字は出現度数である。度数の多い順に並んでいる。これらを上から順に眺めて行き、気になった語彙をタップする。ここでは 2 番目と 6 番目の [興味] と [面白] を選んだ。
- 選ばれた語彙は上の欄に抽出され 色彩がつく。このとき フィルタの後ろの字幕一覧表では、選んだ訳語を持つものが抽出されて表の上の方に集められている。フィルタで選んだ語は 同じ色でハイライトされている。
- 字幕をタップすると その字幕を含む映像シーン(20〜30秒)が鑑賞できるので、使用場面を直に確認できる。(ここでは先を急ぐので 説明は省く)
- フィルタにもどる。抽出され彩色された語の右上にある V が2つ重なったボタンをタップする。すると語の出現度数順に並びなおされる。ここでは数が少ないので効果が実感できないが、抽出した語が増えてくると必要になってくる。
- 対訳フィルタには 度数が多い順に 100 個の対訳語が配置されている。ここではこの 2 つで終わりにし、次の、interested に進む。
- interesting と同じ手順で検索から対訳フィルタへと進む。このとき、CORPORA をもう一つ開いて interested 検索しておくと、interesting と interested の結果を見比べながら作業できる。
- interested で検索して開いた 対訳フィルタを見ると [興味] とか [関心] があるのでそれを選んでおく。
- interesting の時にチェックした [面白] がないので、調べてみる。下にスクロールして探してもよいが、探す語彙が決まっているときは その語で探すことができる。フィルタ窓最上部にある入力欄に [面白] と入力して、右の +(プラス)ボタンをタップする。このとき [面白い] と平仮名を入れると 失敗する。フィルタ文字には 漢字とカタカナだけにしか対応していないからだ。
- すると自動的に [面白] を探してきて 抽出される。[面白] は 89 番目(一覧表にのずっと下の方)にあって、度数は 8 であったことがわかる。
- 最後に V の重なったボタンをタップして整序しておくと わかりやすい。
- ところで 最初の interesting ではチェックしていなかった [関心] を改めて探してみる。手順はここの (3) (4) と同じで、結果はこうなる。
|
|
ここまでの結果を 切り出すと次の図と表になる。
| interesting | | | interested | | |
1 | 興味 | 633 | | 興味 | 316 | |
2 | 面白 | 548 | | 関心 | 117 | |
3 | 関心 | 10 | | 面白 | 8 | |
interesting も interested も [興味] という訳語がトップである。しかし、interesting では [面白] がトップに迫っているのに反し、interested では 2位の [関心] とは 3倍差をつけている。3位につけている [関心] と [面白] は どちらも トップとの差は圧倒的で 例外的とも言える少なさであった。
わかったことを列挙する
- interesting と interested はどちらも [興味] を引くことに関わる点で同じ。
- interesting は [面白い] 傾向が強く、interested は [関心] を寄せる点が異なる。
- interesting の方が 使われる場合が多く interested の倍以上ある。
- interesting と interested は ともに interest から派生した単語であるが、独自の意味合いを進化させてきた。
- 対訳コーパスによる簡単なフィルタを使うだけでも、単語の語義・語感を知ることができた。
- 以上は 2016年ごろまでの TED Talks 2,439 本分の傾向と結果である。
今回は TED コーパスの字幕を使った。字幕には、英語と日本語がある。
英語字幕は、TED Talk でのプレゼンを書き起こしたものである。しゃべり言葉であるが、準備された原稿を元に、論理だって構成・校正された書き言葉に近い。
日本語字幕は、ボランティアによる英語字幕の翻訳である。書き言葉であるが、エンターテイメントを重視する講演の雰囲気を伝えるために、しゃべり言葉に寄り添っているように見受けられる。
喋り手も聴き手も翻訳者も、一定の高い知的水準を前提にしている。講演内容は、テーマを絞りながらも、一般人が理解可能なように言葉を選んでいる。専門的内容を平易な語句で表現している。
|
|
機械翻訳を実用レベルに押し上げたAIの深層学習に欠かせないのが 対訳コーパスである。コンピュータは 対訳コーパスを学んで 賢くなった。とするならば、その手法を ヒトが使わない手はないと考えた。
自然言語処理の語学教育への応用である。
これまでコンピュータのために開発されてきた自然言語処理を、そのままヒトに使うわけにはいかない。なぜなら ヒトは 容量も速度も忍耐も 機械には及ばないからだ。ヒトが簡便に理解可能な方法を模索した結果が、今回公開した 2 つのフィルタである。
まずは 語義・語感をうまく仕分けられているという結果に踏まえて、さらに 簡便で正確な手法を考案したい。
|
|
> シリーズ 0. 対訳コーパス CORPORA で日本語検索
ここ> シリーズ 1. 対訳コーパス CORPORA にフィルタ追加
つぎ> シリーズ 2. 対訳コーパス CORPORA でライティング
> シリーズ 3. コーパスで見る“興味”の英語表現 1+5
対訳コーパス CORPORA
⇒http://www.mintap.com/talkies/pac/corpora.html
|
..[↑] 8 |
2019.02.09 田淵龍二 TABUCHI, Ryuji
|