ミント音声教育研究所
ホーム

ミント アプリ
ケーションズ

ホーム

映画映像シーン検索サイト
セリーフ

字幕付き動画再生サイト
トーキーズ

Googleでサイト内を検索
    
ミント名作劇場
日本の昔話
朗読絵本

「竹取物語」

群馬の昔話
朗読絵本

「猿地蔵」」

日本の名作
朗読
芥川龍之介

「トロッコ」

英語朗読絵本
マザーグース Mother Goose

映画
オズの魔法使い

歌「オーバーザレインボー」

映画
カサブランカ

シーン「君の瞳に乾杯」

英語で折り紙 Origami
折鶴 つる crane

ベクターライブラリ
公開作品一覧
英語作品
朗読絵本
ふしぎの国のアリス

第1巻

聞き取りドリル
オバマ大統領 就任演説

聞き取りドリル
オバマ ノーベル平和賞演説

語学ソフト
ミングル
リーダビリティ計測ソフト

ワーズピッカー
英単語拾い2

ゲーム
朗詠・百人一首
読み上げ&ゲーム

数独ナンプレゲーム
東海道五十三次
詰独 一人旅

数独ナンプレゲーム
富嶽36景 富士登山
詰独 次の一手

ユーティリティ
書き起こしソフト
ゆ〜ゆ バリュー

書き起こしソフト
ゆ〜ゆ ライト

書き起こしソフト
ゆ〜ゆ ビジネス

書き起こしソフト
ゆ〜ゆ アカデミー


2017/01/21 TED 講演会 / 塩見佳代子教授(立命館大)


英語授業で教壇に立ちつつ、TEDxKyoto でボランテイアスタッフとして活躍し、TEDWomenにも参加された塩見佳代子教授(立命館大)が、TEDxの運営や、ビデオと字幕作成の様子から、TED ビデオによる授業の紹介まで、幅広いテーマで講演された。

今回はその内容のほんの一部だが、字幕と語彙表現に絞って報告する。

また、講演後の質疑応答も活発に行われたので、その様子も実況中継風に報告する。

講演中の塩見先生

開会の挨拶をする司会の山口先生
教室には、TED Talks への熱気があった



題目: TEDx Talks およびTED Talksが出来るまで
     −プレゼンの特徴と字幕作成について
講師: 塩見 佳代子(立命館大学)

名称: LET関東支部語彙学習・指導研究研修部会 第1回講演会
主催: LET関東支部語彙学習・指導研究研修部会
日時: 2017年1月21日(土)15:30-17:30
場所: 早稲田大学14号館4階401教室(新宿区戸塚)
担当: 山口 高嶺(語彙学習・指導研究研修部会長、早稲田大)




もくじ
  1. TEDxKyoto 2016 と 塩見先生
  2. TED字幕と語学教育
  3. 映画コーパス Seleaf の字幕作成との比較
  4. gonna と going to をTEDとSeleafで検索
  5. 字幕提示時間をTEDとSeleafで比較

..[↓] 1
 1 TEDxKyoto 2016 と 塩見先生もどる
もくじへ

塩見先生は TEDxKyoto 2016 のスタッフとして、また TEDWomen の参加者(Participant)としてTEDと関わっておられる。講演などでお聞きした様子を、昨年秋に開催された TEDxKyoto 2016 (ボランティア200人程、登壇者12人、参加者700人弱と日本一の規模)を例に箇条書きにしてみた。

  • TEDxKyoto イベント開催の7〜8ヶ月前から、キュレーションチームで自薦・他薦を含めた候補者をリストアップ(100人ほど).
  • 4〜5ヶ月前、チームで話し合い、スピーカー候補者と連絡を取り合いながら登壇者を10人〜15人程度に絞り込み.
  • 3〜4ヶ月前、スピーカーと数回のやり取りを重ね、スピーチの構成、原稿の校正、スライド作成へ向けてアドバイス
  • 1〜2ヶ月前、原稿ができあがった後(原稿は10〜12分が目安)、発声指導や身振りなどを含めたプレゼン指導を複数回実施.
  • 開催前日に、リハーサル. スピーカーコーチの一員として登壇者全員のプレゼン最終確認.
  • 開催当日. 登壇者サポートスタッフとして参加.
  • 担当のプレゼンターの紹介者として、登壇.
  • イベント終了後、ビデオ編集の確認.
  • スピーチ元原稿から、字幕用書き起こし原稿を作成し、専用ツール(Amara)で字幕作成.

以上は、講演でのお話や、面談でお聞きした内容の再構成なので、不正確で、漏れもあるのは、ご容赦願いたい。

さて、こうした運営は各地の TEDx ごとに特色があり、たとえば田淵の地元高崎では、昨年(2016年)3月に、TEDxTakasakiがライセンスを得て設立され、さっそくスピーカー公募を始めた。募集した人たちによるオーディションを7月に開いて9月に決定し、開催は11月であった。スタッフ10名程度、登壇者7名(英語スピーチは1名)、参加者70名程度と言うこじんまりしたイベントであったが、午前11時から夜8時まで、昼食弁当や夜のパーティーでの懇談だけでなく、講演の合間合間に演者や参加者との交流機会を設けるなど、家庭的な雰囲気の中で「演者が提供した価値あるアイデア」をきっかけにした、対話型交流を大切にした運営が行われた。

また、TEDx 同士の交流もあり、TEDxTakasaki 2016 には、TEDxHamamatsu のオーガナイザーも応援に駆けつけ、運営などの相談に乗っていた。

しかも、TEDxHamamatsu のオーガナイザーは、TEDxKyoto でボランティア経験を積むなどしたあと、2014年に 自らの地域・浜松で独自に TEDxHamamatsu を立ち上げた人で、その上、立命館大学の卒業生と言う縁もあると言う。

TEDビデオがPCのモニターに字幕つきで映し出されるまでには、運営者の思いや、ボランティアの活動が隠れていることを知ったおかげで、私は、語学教育にとどまらない視点でビデオを見ることができるようになった。
..[↑][↓] 2
 2 TED字幕と語学教育もどる
もくじへ

音声言語の文字表現を習得することは、語学教育において必須事項である。また逆に、文字から音声を正しく復元(発声)できることの重要さも増してきている。(ここで“正しく”と言うのは、相手に通じるようにと言う趣旨である。)

字幕は、こうした作業を学習者が自律的におこなうことを補助するためのツールである。

そこで、塩見先生が体験的知見として話されたプレゼン原稿と字幕作成について箇条書きにまとめてみた。

プレゼン原稿

  • 原稿は推敲する.
    • 専門用語は容易な言葉で説明.
    • 例をあげる.
    • ストーリーを話す.
  • 原稿は覚える.
    • まずは構成を覚える.
    • 次に言葉を覚える.

原稿と実際のスピーチ

  • 原稿に添ってスピーチする.
    • 筋をしっかり話す.
    • 言葉に縛られないで話す.
    • 言葉に縛られていると、頭が真っ白になったときに言葉が出なくなる.
  • 原稿(書き言葉)は作るが、それに縛られないで話す(話し言葉).
    • なぜなら  →  だって
    • さらに  →  おまけに
    • 〜ですが  →  〜んですけれども
    • 〜いたのです  →  〜いたんです

スピーチと字幕

  • 字幕の字数制限
    • 英語では84文字まで、日本語では42文字まで
    • 1秒あたり英語では21文字まで、日本語では10文字まで
  • 字幕の提示時間
    • 1秒から7秒
  • 字幕の分割 二つの文を同じ字幕に入れない
    • これがその理由です  別のアイデアは
  • 口語表現の省略形は使わない.
    • gonna  →  going to
    • kinda  →  kind of
    • 'cause    →  because
  • 以下の品詞で字幕を終わらない.
    • 冠詞、形容詞、数量詞、指示代名詞、所有格、前置詞
  • 日本語の場合、句読点は使わないでスペースに替える.
    • 句点  。  →  全角スペース
    • 読点  、  →  半角スペース
  • 繰り返しは削除する
    • ありがとう、ありがとう、ありがとう
  • つなぎことばは削除する
    • Ah...  →  ×
    • Okay  →  ×
    • You know  →  ×
  • 文法的誤りを直す
    • the boy don't doesn't want to...
    • we designed in 2007
    • This is how the rooftop is looking like looks
  • 慣用表現に直す
    • as average  →  on average
    • on the corner  →  in the corner
    • we can go to ski  →  we can go skiing
  • 事後に判明した正しい情報に修正する
    • the [second] largest country

ここで紹介した字幕作りのうち a〜g は英語の表記ガイドラインとして公開されているもので、h〜k は実際のTED Talksで、スピーチと表記の差が見られた字幕例である。

ちなみにfiller(つなぎ言葉)として使われたと思われる“you know”を約2,000本のTED字幕から検索すると約3,500件ヒットした。

このあたりの事情は、地域性や時代性、またボランティアreviewer(字幕校閲者)の個性などによる差異かもしれない。


資料

TED字幕作成ガイドラインの公式サイト
 ⇒guidelines

Amara などTED翻訳者になるための情報サイト
 ⇒日本語字幕翻訳者のためのメモ
..[↑][↓] 3
 3 映画コーパス Seleaf の字幕作成との比較もどる
もくじへ

TED字幕作成は、従来の映画における字幕作りを継承しているようだ。つまり、対象は一般大衆で、目的は音声の意味理解を補助すること。そのためにできるだけ標準的で簡潔な表現を目指している。

2011年に公開した映画コーパス検索サイト Seleaf の字幕作りとTEDのを比較すると、その違いが浮き彫りになる。

 TED Seleaf
字数制限84文字制約なし
提示時間1〜7秒制約なし
字幕の分割文で分ける音声の区切りに合わせる
口語表現の省略形使わない使う
字幕の末尾単語機能語で終わらない制約なし
つなぎことば削除するそのまま表記する
文法的誤り正しく直すそのまま表記する
慣用表現慣用表現に直すそのまま表記する
情報修正正しく直すそのまま表記する
逐語書き起こしとは限らない音声通りに書き起こす

Seleaf字幕作成は、音声を忠実に文字表現することを目標としている。これは、話者の心情や思想がどのように音声として表現されたかを、正確に書き起こす事によって客観的な対象物(記録)とし、それによって、音声言語の理解を深めることを理念としているからである。
..[↑][↓] 4
 4 gonna と going to をTEDとSeleafで検索もどる
もくじへ

Seleafは、語学学習+言語教育用の検索コーパスなので、たとえば gonna と going to とが実際の音声ではどう違うのか? あるいは、使われる場面に特徴はあるのか? などを知りたいときに、gonna と going to での検索比較が可能となる。

そこで gonna と going to をTEDとSeleafで検索してみた。Seleafでは gonna が3分の1ほどあったがTEDでは1%であった。

TED Seleaf
going to 8,777(99%) 281(68%)
gonna 94(1%) 131(32%)

Seleafは会話、TEDはスピーチなのでその違いが現れたと考えたいが、TEDの字幕作りの方針を知っているので、この 99 vs 1 をそのまま受け止められないのが残念ではある。スピーチにおける gonna の使用頻度が年代や地域でどう変わるか知りたいときには 8,777 個の字幕音声を順に聞いてみなくてはならない。

Seleafの字幕は歌詞と類似しているところが多い。歌詞は、歌うとおりに表記していることが多いからだ。

実際、英語の歌詞などでは、gonna などの表現もあるし Tra, la-la, la のような非言語表現も文字化している。
..[↑][↓] 5
 5 字幕提示時間をTEDとSeleafで比較もどる
もくじへ

TEDとSeleafでは字幕作成の設計思想が大きく異なる。TEDは字幕の字数制限や時間制限を厳しく設けている。Seleafは話者の音声のままに、ひと息ごとに字幕を区切っている。

TEDは字幕を読む人(視聴者)優先であり、Seleafは話者(演者)優先である。TEDは、どう読んでもらうかを考慮し、読みやすく作り、Seleafはどうしゃべったかに注目し、音声に忠実に作る。

ところが、昨年TED字幕を解析して意外だったことがある。それは字幕提示時間が思ったより近接していたことである。

 1字幕あたりの TED Seleaf
平均提示時間 2.8秒 1.9秒
標準偏差 1.0秒 0.9秒
平均単語数 7.7単語 6.0単語
標準偏差 3.0単語 3.8単語

Seleafは会話なので、ひと息の発話が短くなり、論理的説明が必要なスピーチのTEDが長くなるのは予想通りである。

しかし、分布特性がまったく同一であったのには驚かされた。下図のようにTEDの分布はSeleafの山が1秒ほど右にずれて低くなったように配置されたが、どちらも対数正規分布関数できれいに近似された。(0.2秒刻みの度数分布、横軸が字幕提示時間、縦軸が分布割合、μ は平均値、σ は標準偏差)

TEDとSeleafの字幕長分布



..[↑] 6
2017.01.26 田淵龍二