2020/02/06 スマホで見やすくなった対訳コーパス・CORPORA
|
多くの方に愛用していただいている 対訳コーパス・CORPORA は、2017年に公開されてから3回目の正月を迎えました。これを機に、本格的にスマホ対応(flexible and responsive website)を行いました。
これまではデスクトップで開発したものを、ほぼそのままのレイアウトで公開していたのです。
今回のバージョンアップによって、ユーザーのスマホのサイズに合わせた最適な配置を自動的に提供するようになります。
こうした変更に伴い、操作系のボタン類はスライドメニューにまとめられました。
|
もくじ |
- はじめから 大きな動画サイズ
- はじめから 大きな文字サイズ
- すっきりしたフォームにブラッシュアップ
- 一歩進んだ使い方をしたいときは・・・
- 試してみよう! 動詞 go は現在形と過去形とどっちが多い?
- 試してみよう! as ~ as 構文で最もよく出てくる単語は?
- 試してみよう! to hospital それとも to the hosipital ?
- コーポラで文脈を閲覧する4つの方法
- まとめ
|
|
|
- 検索するとヒット字幕一覧が表示され、そのうちの先頭字幕のシーンが動画で閲覧できるようになります。
- 英語単語が持つ複数形や活用形などは、まとめて検索されます。
-
- 辞書の見出し語、たとえば go で検索すると、go だけでなく went, gone, going, goes さらに goin' を含む字幕がヒットします。
- 検索語句を含むすべての字幕が音映像付きで表示されます。
-
- 映像は、目的の字幕要素をタップすると表示されます。
-
- 従来の動画は左(before)のように動画-字幕リストが左右に並んでいたので、画像が小さくなっていたのですが、今回の改定で、右(after)のように絵の下に字幕リストを配置しました。これにより動画が枠いっぱいに大きくなったのです。
before ⇒ after
動画が大きくて 見やすくなった
- 画像を大きくするために画面をスワイプする手間がいらなくなりました。
|
|
- 下の図は実物大スマホのショットです。
-
- 文字を大きくするだけでなく、テキストの内容に応じて色や大きさなどに変化を付けたのです。見やすいと思います。
ほぼ実物大、画像は非表示に設定
文字も楽に読めるようになった
- ひとつの字幕の情報が3行で表示されています。
- 1行目 話者と作品名
- 2行目 英語; 赤字は検索語句
- 3行目 和訳
- 1行で表示しきれない文字を見るには 次の三つの方法があります。
-
- (1) その字幕を選択(タップ)する
- (2) スライドメニューから「表示」スタイルを「字幕表示」に切り替える
- (3) スライドメニューから「表示」スタイルを「文表示」に切り替える
-
- スライドメニューについてはこの後に説明があります。
|
|
- 開発当時は、どんな機能があるかを一目でわかってもらうために操作系のボタン類をトップ画面に表示していました。
-
- 2020年の今では、下のトップ画面さえあれば ほとんどの方が説明なく次のステップに進めるはずです。
-
- 入力欄にキーを打ち込んで Go ボタンをタップする
- 右下の川マークをタップすれば何らかの情報が出てくる
すっきりしたフォルムが印象的なオープニング画面
トップに検索入力欄があるだけ
一歩進んだ操作を提供するスライドメニューへの入り口は 右下にある川マーク
- 開発当時と比べて、全世代的にスマホ操作が常態化したことから、メニューを開く次のステップへの抵抗感がなくなったことを受けたブラッシュアップなのです。
|
|
- 検索語によっては ヒット数が数百から数千にも及びます。
-
- そんな時は並べ替えや共起フィルタ・対訳フィルタを上手に使いこなすとよいでしょう。
-
- 検索語の綴りを忘れても 入力支援機能が教えてくれます。
-
- 文字を大きくしたり、スライドメニューを左配置にしたりもできます。
-
- 一歩進んだ機能は、今回のアップデートで新設されたスライドメニューにあります。
-
- スライドメニューを開くには 右下にある川マークをタップします
before ⇒ after
従来はページ上段にあった操作系ボタン類を
ニュースタイルでは 右端のスライドメニューにまとめた
| |
| メニューの種類 |
| |
 | 検索案内: 高度な検索が必要な時に役に立つ.
並び替え: 前後や中央の共起語に注目して並び変える.
フィルタ: 共起語を統計的に処理する 訳語が知りたいときは対訳を選ぶ.
表示: ワンフレーズの字幕表示から 文に切り替える 動画を開くと 文の前後 20秒分が視聴できる.
動画: 動画を隠したい時に off できる.
内検索:
入力補完レベル: 綴りを忘れても 検索できる.
文レベル: 自分にあった読みやすいフレーズだけに絞る.
語彙レベル: 知らなそうな単語を遠慮したいときに便利.
言語 切り替え:
字幕文字サイズ: 目が弱くなったら 大きな文字が欲しくなる.
スライドメニュー: よく使う指に近いところにメニューを出せる.
自己紹介: 基本情報と お得情報への入り口.
共有: 隣の人とワンショットで この対訳コーパスを共有. |
|
|
動詞の性質によって 現在形が多いものや 過去形が多いものがあるかもしれない。
同じ動詞でも Seleaf のように会話の場合と、TED のように講演の場合でも 違いがあるかもしれない。
こうした好奇心に誘われて調べてみると、面白いことが見つかるかもしれない。
ただし、ここでは結論じみたことには触れない。
もし、そうした好奇心を持っているならば、こうして調べられるという材料と方法を紹介するにとどめている。
- 「Seleaf」コーパスを選ぶ
- 検索語「go」を入力
- 「Go」をタップ
- 結果が出力されたら ヒット結果を確認する
- 1,578 件ヒットし、うち200件が取り込み済み
- 「+1000」をタップして残り全部を2回に分けて取り込む
 ⇒ 
Go をタップ more をタップ
- 全部読み込んだら「川マーク」をタップ
- 「並び替え」にある「キー」をタップ
 ⇒ 
川マークをタップ キーをタップ
- しばらく待つと「共起 フィルタ / 字幕 / キー」が開き、出現語彙が頻度順に彩色される
- 「copy」をタップして結果をメモ保存しておく
- バッ点マークをタップしてフィルタ窓を閉じると 彩色された字幕を閲覧できる
 ⇒ 
copyをタップ スクロールして閲覧
- 次に「TED」コーパスを選んで (2) から同じことを行う
- TEDでgoを検索すると 26,815 件ヒットする
- +1000 をタップして 次の1,000件を取り込む
 ⇒ 
TED で検索 +1000 をタップ
これを繰り返して2万件全部を取り込めればよいが、数が増えるとシステムが重くなって時間がかかりすぎるようになる。そこで3,000件ほどで切り上げるのがよい。
国レベル(1億人程度)の統計でも3千件ほどなので、3,000を超えたら十分である。
さて、結果はどうなりましたか?
会話(映画)と講演(TED)では、違いがあるものなのですね。
意欲があれば、その理由を考えてみると、すごい発見があるかもしれませんよ。
|
|
比較構文 as ~ as ですが、~ には何が多いと思いますか?
学校で教わる例文は、実情に合っているでしょうか?
映画(Seleaf)と講演(TED)で違いがあるでしょうか?
やってみましょう!
- 「Seleaf」コーパスを選ぶ
- 検索語「as * as」を入力
- 「Go」をタップ
- 結果が出力されたら ヒット結果を確認する
- 222 件ヒットし、うち200件が取り込み済み
- 「more」をタップして残り22件を取り込む
- 全部読み込んだら「川マーク」をタップ
- 「並び替え」にある「キー間」をタップ
 ⇒ 
川マークをタップ キー間をタップ
このとき、さっきの go 検索時と違って、動画が表示されてないことに気づいただろうか? これは、共起フィルタを使った時に、画像欄が隠されたのだが、その設定がそのまま続いているからである。表示するには、動画を観たい字幕を1度あるいは2度タップする。
- しばらく待つと「共起 フィルタ / 字幕 / キー間」が開き、出現語彙が頻度順に彩色される
同じ操作を TED コーパスでもやってみると、Seleaf コーパスと重なっている語彙が見つかるだろう。
そうした語彙を使って、表現に慣れるとよいことがわかる。
|
|
〝イギリスは冠詞が付かないけど、アメリカは a/the が付く”とか〝the を付けると入院するほどの病気だと思われる”言う小話はあります。
皆さんはどう思われますか?
そこでコーパスで調べてみましょう。
- 「Seleaf」コーパスを選ぶ
- 検索語「to (a/the/) hospital」を入力
the の後ろにスラッシュが付いているので 無冠詞(to hospital)も検索する
- 「Go」をタップ
- 結果が出力されたら ヒット結果を確認する
- 1 件ヒット

- 英米の表現に気を遣う時は、作成年代や舞台や俳優などの情報が必要になります。
-
- 製作地: アメリカ映画(ハリウッド)
- 公開: 1949
- 題名: She Wore a Yellow Ribbon / 黄色いリボン
- 舞台: アメリカ中西部
- 時代: 19世紀後半(南北戦争終結後の開拓時代)
- セリフ: Fetch him to hospital.
- 背景: 襲撃された馬車の負傷者(すでに死亡)を診断した医者の指示
-
- 事例が少ないだけでなく、大陸から多くの移民がハリウッドに入ってきた時代の制作であることで、単純ではないですが、〝イギリスは冠詞が付かない”ことを示す用例かもしれません。
そこでコーパスを TED に変えて調べてみました。
- 「TED」コーパスを選ぶ
- 検索語「to (a/the/) hospital」を入力
- 「Go」をタップ
- 結果が出力されたら ヒット結果を確認する
75 件ヒット 全部取り込まれている
- 「川マーク」をタップ
- 「並び替え」にある「キー」をタップ
- 共起フィルタが表示される

- to the hospital が圧倒的に多くて 51 件(68%)
- 次が to a hospital が 13 件(17%)
- to the hospital が to a hospital の4倍もある
- 無冠詞 to hospital(s) は 75 - ( 51 + 13 + 6) = 5 件
- このうち to hospitals の6件を除いて計算した
- バッテンをタップして共起フィルタを閉じる
- 画面をスクロールさせて to hospital を閲覧する

to hospital の6件は一団になっている
- 〝the を付けると入院するほどの病気”に従うと、入院するほどの人の話が多い(68%)のかとも考えられる。
- たしかに“入院ほどではないときは see the doctor を使う”と言う話もある。
- では to hospitals は〝入院ほどではないが あちこちの病院を掛け持ちしている”と言うことなのだろうか・・・??
-
- しかし、知りえた理屈を使って解釈するのはここまでにしましょう。
- せっかくの対訳コーパスですから、文脈から意味をくみ取った上で、表現とすり合わせるのが王道です。
-
- そこで、文脈を閲覧する方法を次に示しておきます。
|
|
コーポラで文脈を閲覧する方法には4つあります。
目的に応じて使い分けましょう。
(1) | 文表示 | | センテセンスを読む |
(2) | シーン表示 | | 前後20秒ほどをビデオで観る |
(3) | ビデオ閲覧 A | | Talkies でビデオを観る |
(4) | ビデオ鑑賞 B | | TED サイトで出典ページを観る |
- 字幕はそれだけでひとつの文のこともありますが、文の一部(句)のこともあります。そこで字幕を含む文(センテセンス)で読むことで意味の通ることが多いのです。
-
- そこで最初に字幕表示の設定を文表示に切り替える手順を示します。
- 川マークをタップして スライドメニューを開く
⇒
-
- スライドメニューの「表示」にある「文表示」をタップ
- 赤いバッテンをタップしてスライドメニューを閉じる
⇒
-
- これで、文を単位とした表示を読むことができる
- 字幕を含む前後20秒ほどのシーンをビデオで観ることができます。
-
- 大体20秒前後あれば、途中からでもひとつの話題について理解できるようになるものです。
-
- しかも、音声と映像を視聴しながらですから、なるほどと腑に落ちることができるでしょう。
- 音映像を視聴したい字幕を1回か2回タップすると動画が開く
-
⇒
-
- 上図の16番と18番の字幕は2回タップすると動画が開く。
-
- 17番のように文字が太く表示され濃い色でハイライトされている字幕は1回タップするだけで動画が開く。
(3) ビデオ閲覧 A Talkies でビデオを観る |
- 字幕を含むビデオを高機能チャンクプレーヤー Talkies で観ると、注目している字幕の意味や表現を、全体像の中で深く理解できるようになるでしょう。
- 動画タイトルバー右端にある再生ボタンをタップ
- ウェブアプリ Talkies が別窓で開き、引用元のビデオが表示される
- このとき、対象の字幕位置の映像が開く、そこから再生を始められる。
⇒ 
(4) ビデオ鑑賞 B TED サイトで出典ページを観る |
- 字幕を含む出典ビデオを TED のページで観ることができます。
- 動画タイトルバー右端にある TED アイコンをタップ
- TED のウェブページが別窓で開き、引用元のビデオが表示される
⇒ 
|
|
今回のニュースでは、スマホへの自動対応を組み込んだアップデートに伴う基本的な使い方について説明しました。
出先でのスマホ利用の携帯性と、自宅やオフィスでのデスクトップの全般的閲覧性をうまく使い分けながら、ふと思いついたアイデアや、出くわした疑問を解決するツールのひとつとして、⇒対訳コーパス・コーポラ(CORPORA) を使ってみましょう。
|
..[↑] 10 |
2020.02.06 田淵龍二 TABUCHI, Ryuji
|