ミント音声教育研究所
ホーム

ミント アプリ
ケーションズ

ホーム

映画映像シーン検索サイト
セリーフ

字幕付き動画再生サイト
トーキーズ

Googleでサイト内を検索
    
ミント名作劇場
日本の昔話
朗読絵本

「竹取物語」

群馬の昔話
朗読絵本

「猿地蔵」」

日本の名作
朗読
芥川龍之介

「トロッコ」

英語朗読絵本
マザーグース Mother Goose

映画
オズの魔法使い

歌「オーバーザレインボー」

映画
カサブランカ

シーン「君の瞳に乾杯」

英語で折り紙 Origami
折鶴 つる crane

ベクターライブラリ
公開作品一覧
英語作品
朗読絵本
ふしぎの国のアリス

第1巻

聞き取りドリル
オバマ大統領 就任演説

聞き取りドリル
オバマ ノーベル平和賞演説

語学ソフト
ミングル
リーダビリティ計測ソフト

ワーズピッカー
英単語拾い2

ゲーム
朗詠・百人一首
読み上げ&ゲーム

数独ナンプレゲーム
東海道五十三次
詰独 一人旅

数独ナンプレゲーム
富嶽36景 富士登山
詰独 次の一手

ユーティリティ
書き起こしソフト
ゆ〜ゆ バリュー

書き起こしソフト
ゆ〜ゆ ライト

書き起こしソフト
ゆ〜ゆ ビジネス

書き起こしソフト
ゆ〜ゆ アカデミー


2019/02/09 対訳コーパス CORPORA にフィルタ追加


対訳コーパス コーポラ(CORPORA) にフィルタを追加した。フィルタは、検索結果からさらに情報を選び出す機能を持つ。大量の情報を取捨選択する 強力なツールとなる。

もくじ
  1. 対訳フィルタと共起フィルタの二種類を準備
  2. 語義・語感を 対訳コーパスで知る
  3. TED 対訳コーパスで調査
  4. interesting と interested の語感の違い
  5. まとめ interesting と interested の類似と相違
  6. 開発後記
  7. リンク

..[↓] 1
 1 対訳フィルタと共起フィルタの二種類を準備もどる
もくじへ

設置したフィルタには 対訳フィルタと 共起フィルタの 二種類がある。対訳フィルタを使うと 検索語がどのように翻訳されているかを知ることができる。共起フィルタでは 検索語と関りがある語を 教えてくれる。

ここでは、interest の派生語である interesting と interested を例として 話を進める。

問題意識を表にすると次のようになる。

 対訳フィルタ共起フィルタ
検索語   
英語 日本語(翻訳)英語
日本語 英語日本語(翻訳)
目的 訳語を知る関連ある語彙を知る
   
interesting 興味・・・very,,,
interested 興味・・・very,,,

interesting も interested も 興味深い、とか興味を持つという語義である。どちらも very interesting, very interested などと強調される。上の表の下段2行をもっと詳しく調べるのが 目的である。

今回は 英語の語感の違いを調べることにテーマを絞った。このテーマを上の表で見ると 赤い字で示した部分にあたる。すなわち ある英単語が どのような日本語に翻訳されているかを調査することで その英単語の 語義・語感に迫る試みである。
..[↑][↓] 2
 2 語義・語感を 対訳コーパスで知るもどる
もくじへ

辞書を使えば 用法や訳語が 微妙に違うことが分かりはする。しかし実用面としては 使用場面が浮かんで来るとは限らない。

interesting興味(関心)を引き起こす、面白い
interested興味(関心)を持っている、したいと思っている
  (ジーニアス和英・英和辞典より 抜粋)

対訳コーパスを用例辞典をして使えることはよく知られている。しかし、語義・語感についての対訳コーパスの弁別性能については 未知の領域である。もちろん 人工知能(AI)は対訳コーパスを使って自動翻訳などをこなしているのだが、その手法を 人の学習に応用できるのだろうか?

機械翻訳手法の 語学学習への応用である。

そこで、先のテーマは 次のように 書き直しておく。

テーマ
  • 対訳コーパスで interesting と interested の語感の違いを知る
  • 語義・語感を 対訳コーパスで知ることができるか?
..[↑][↓] 3
 3 TED 対訳コーパスで調査もどる
もくじへ

対訳コーパス・コーポラ(CORPORA)には、映画コーパス・Seleaf と プレゼンの TED コーパスの 2 本がある。Seleaf は 単語数 0.3M だが、TED コーパスは 10 倍以上の 5Mもある。

今回は 単語の大きな傾向を比較することが目的なので サイズが大きい TED コーパスを使った。プレゼン(講演)と映画(対話)での用法の違いに焦点を当てたいときには 以下に述べる手法を Seleaf でも実施するとよい。
..[↑][↓] 4
 4 interesting と interested の語感の違いもどる
もくじへ

最初に interesting を調べてみる。手順に従って説明する。

interesting

  1. 対訳コーパス CORPORA を開く
    ⇒http://www.mintap.com/talkies/pac/corpora.html

     
  2. interesting」を入力し [検索] をタップする

     
  3. ヒット件数が 1,643 あり、そのうち 50 件が表示されていることがわかる。
     
  4. たくさんあった方がいいので、全部を取得する。そのためには [+1000] と書かれたボタンをタップする。
     
  5. すると表示が 1,050 件に増える。まだ残りがあるので [+593] をタップする。
     
  6. 1,643 件すべて表示されたので、フィルタで処理を始める。フィルタする対象はコーパス全体ではなく、検索されて表示されているテキストに限られている。
     
  7. まず 入力欄すぐ左下にある [option] をタップして、オプション欄をひらき、[対訳] をチェックする。

     
  8. すると、左下に 対訳フィルタ小窓が現れる。
     
  9. 画面をスクロールして見やすい位置に移動する。

     
  10. この小窓にリストされた語彙は、ヒットした字幕シーンの訳で使われている漢字あよびカタカナである。右に添えられた数字は出現度数である。度数の多い順に並んでいる。これらを上から順に眺めて行き、気になった語彙をタップする。ここでは 2 番目と 6 番目の [興味] と [面白] を選んだ。
     
  11. 選ばれた語彙は上の欄に抽出され 色彩がつく。このとき フィルタの後ろの字幕一覧表では、選んだ訳語を持つものが抽出されて表の上の方に集められている。フィルタで選んだ語は 同じ色でハイライトされている。

     
  12. 字幕をタップすると その字幕を含む映像シーン(20〜30秒)が鑑賞できるので、使用場面を直に確認できる。(ここでは先を急ぐので 説明は省く)
     
  13. フィルタにもどる。抽出され彩色された語の右上にある V が2つ重なったボタンをタップする。すると語の出現度数順に並びなおされる。ここでは数が少ないので効果が実感できないが、抽出した語が増えてくると必要になってくる。

     
  14. 対訳フィルタには 度数が多い順に 100 個の対訳語が配置されている。ここではこの 2 つで終わりにし、次の、interested に進む。
     

interested

  1. interesting と同じ手順で検索から対訳フィルタへと進む。このとき、CORPORA をもう一つ開いて interested 検索しておくと、interesting と interested の結果を見比べながら作業できる。

     
  2. interested で検索して開いた 対訳フィルタを見ると [興味] とか [関心] があるのでそれを選んでおく。

     
  3. interesting の時にチェックした [面白] がないので、調べてみる。下にスクロールして探してもよいが、探す語彙が決まっているときは その語で探すことができる。フィルタ窓最上部にある入力欄に [面白] と入力して、右の +(プラス)ボタンをタップする。このとき [面白い] と平仮名を入れると 失敗する。フィルタ文字には 漢字とカタカナだけにしか対応していないからだ。

     
  4. すると自動的に [面白] を探してきて 抽出される。[面白] は 89 番目(一覧表にのずっと下の方)にあって、度数は 8 であったことがわかる。

     
  5. 最後に V の重なったボタンをタップして整序しておくと わかりやすい。

     
  6. ところで 最初の interesting ではチェックしていなかった [関心] を改めて探してみる。手順はここの (3) (4) と同じで、結果はこうなる。

     
..[↑][↓] 5
 5 まとめ interesting と interested の類似と相違もどる
もくじへ

ここまでの結果を 切り出すと次の図と表になる。

 interesting  interested  
1興味 633 興味 316 
2面白 548 関心 117 
3関心 10 面白 8 

interesting も interested も [興味] という訳語がトップである。しかし、interesting では [面白] がトップに迫っているのに反し、interested では 2位の [関心] とは 3倍差をつけている。3位につけている [関心] と [面白] は どちらも トップとの差は圧倒的で 例外的とも言える少なさであった。



わかったことを列挙する
  • interesting と interested はどちらも [興味] を引くことに関わる点で同じ。
  • interesting は [面白い] 傾向が強く、interested は [関心] を寄せる点が異なる。
  • interesting の方が 使われる場合が多く interested の倍以上ある。
  • interesting と interested は ともに interest から派生した単語であるが、独自の意味合いを進化させてきた。
  • 対訳コーパスによる簡単なフィルタを使うだけでも、単語の語義・語感を知ることができた。
  • 以上は 2016年ごろまでの TED Talks 2,439 本分の傾向と結果である。



今回は TED コーパスの字幕を使った。字幕には、英語と日本語がある。

英語字幕は、TED Talk でのプレゼンを書き起こしたものである。しゃべり言葉であるが、準備された原稿を元に、論理だって構成・校正された書き言葉に近い。

日本語字幕は、ボランティアによる英語字幕の翻訳である。書き言葉であるが、エンターテイメントを重視する講演の雰囲気を伝えるために、しゃべり言葉に寄り添っているように見受けられる。

喋り手も聴き手も翻訳者も、一定の高い知的水準を前提にしている。講演内容は、テーマを絞りながらも、一般人が理解可能なように言葉を選んでいる。専門的内容を平易な語句で表現している。
..[↑][↓] 6
 6 開発後記もどる
もくじへ

機械翻訳を実用レベルに押し上げたAIの深層学習に欠かせないのが 対訳コーパスである。コンピュータは 対訳コーパスを学んで 賢くなった。とするならば、その手法を ヒトが使わない手はないと考えた。

自然言語処理の語学教育への応用である。

これまでコンピュータのために開発されてきた自然言語処理を、そのままヒトに使うわけにはいかない。なぜなら ヒトは 容量も速度も忍耐も 機械には及ばないからだ。ヒトが簡便に理解可能な方法を模索した結果が、今回公開した 2 つのフィルタである。

まずは 語義・語感をうまく仕分けられているという結果に踏まえて、さらに 簡便で正確な手法を考案したい。
..[↑][↓] 7
 7 リンクもどる
もくじへ

  > シリーズ 0. 対訳コーパス CORPORA で日本語検索
ここ> シリーズ 1. 対訳コーパス CORPORA にフィルタ追加
つぎ> シリーズ 2. 対訳コーパス CORPORA でライティング
  > シリーズ 3. コーパスで見る“興味”の英語表現 1+5



対訳コーパス CORPORA
⇒http://www.mintap.com/talkies/pac/corpora.html

..[↑] 8
2019.02.09 田淵龍二 TABUCHI, Ryuji