2019/02/10 対訳コーパス CORPORA でライティング
|
前回の記事(⇒2019/02/09 対訳コーパス CORPORA にフィルタ追加)では 対訳コーパス CORPORA に新しく追加したフィルタ機能について紹介した。
そして、利用例として interesting と interested の2つの単語の語感の違いを調べた。どちらも [興味がある] 状態に関わっているが、interesting は [面白い] に重心が強くて、interested は [関心] の方に向かっていることがわかった。
今回は 訳語としての日本語を検索することで、日本語で思い浮かべる気持ちや状態を どのような英語(語彙)で表現(ライティング)できるかについて調べる方法を述べる。
対訳コーパスの構造で示すと 下の表の 赤い字の部分である。
| | 対訳フィルタ | 共起フィルタ |
検索語 | | | |
英語 | | 日本語(翻訳) | 英語 |
日本語 | | 英語 | 日本語(翻訳) |
調べる日本語としては 前回の訳語で登場した [興味] [関心] [面白] の3つとする。
|
もくじ |
- [興味] を表現する英語を 対訳コーパスで引く
- TED 対訳の問題点 / 日英字幕のズレ
- 収集した英単語の語義・語感を知る
- まとめ / 日英 → 英日の深層学習
- 開発後記(1) 言語特性
- 開発後記(2) 人間特性
- リンク
|
|
|
和英辞典を引くように [興味] を対訳コーパスで引く方法から述べる。
- 対訳コーパス CORPORA を開く
⇒http://www.mintap.com/talkies/pac/corpora.html
- ”興味” を入力し [検索] をタップすると1,890件ヒットする。
- 最初は50件だけ表示されているので、[+1000] や [more] を使ってすべてのテキストを取得する。
- [対訳] をタップして 対訳フィルタをひらく。
- スクロールさせると 対訳語彙の上位100個のリストが閲覧できる。
機能語などは、あらかじめ薄い灰色でグレーアウトされている。
- 語彙リストをスクロールさせながら 気になった単語をタップし、上の欄に収集する。
- 上の図は 単語 [SEE] が関係あるかもしれないと思ったので チェックしたところ。[SEE] は灰色の背景色で示されている。しかし [SEE] がある同じ字幕テキストの中に すでにチェックした語彙 [INTRIGUE] や [CURIOUS] や [INTEREST] が緑や橙や青で混ざっていることがわかる。
[SEE] と [興味] の意義と関係を詳しく見た方がよさそうだ。
- 対訳フィルタ内の [ ― ] ボタンをタップすると フィルタが縮まって、和訳が見えるようになるので、英文と和文の両方を見ると [SEE] が [興味] そのものではなく、[興味深い] と言うような表現の共起語であることがわかる。
- そこで、選択した [SEE] は取り下げることにする。取り下げるには、[clear] ボタンのすぐ右にある [ + ] ボタンをタップしてフィルタを拡幅し、[SEE] を選ぶ。
- すると [SEE] 項目の右端に [×] ボタンが現れる。そのボタンをタップすると [SEE] は 下のリストに戻される。
- こうして最終的に6つの語彙が収集された。
- これらの語彙は [コピー] ボタンでコピーしておくことができる。収集した語彙が6つなので [6] items としてから [コピー] をタップする。
コピーされた情報
TED / 興味 / 1,890 hits / 1,890 views
1 | INTEREST | | 1081 | |
2 | FASCINATE | | 76 | |
3 | INTERESTINGLY | | 55 | |
4 | CURIOUS | | 55 | |
5 | INTRIGUE | | 44 | |
6 | EXCITE | | 30 | |
CORPORA c2019 ミント音声教育研究所
[INTEREST] が1,081と圧倒的に多いことがわかる。
[INTEREST] と同類の [INTERESTINGLY] を合わせると 1,136個となる。これはヒットした字幕総数1,890個の半分を超える。収集した6語彙の合計約1,300個と比べると、その約9割にあたる。
日本語の [興味] の語義は9割の確率で [INTEREST] で表現できることになる。
|
|
注意 ヒット字幕数1,890個に対して、フィルタでの収集語彙が約1,300個なので、まだ約500個(3割弱)未収集で残っている。これについてはいくつかの理由が考えられる。
- 看過
- 意訳
- 文脈から [興味] と訳したので、 語彙に [興味] の意義を持つ単語はない。
- 足切り
- フィルタには度数の上位100個までしか表示していないので、それ以下のところに [興味] と訳した語彙が隠れている。
- 反転
- TED の字幕には文訳のものあるので、日本語字幕に [興味] とあっても、その元意義を持つ英語の語彙は前後の字幕に隠れている場合がある。
対訳リストの語彙100個(機能語34個を除くので 実際は66個になる)を何度か見直したが 今回は見つけられなかった。
(b) 意訳の例 |
Hers is more into boys. |
彼女は男の子に 興味 がある。 |
直訳すると “彼女のには もっと 男の子っぽい ところがある” と言う感じなので、TED の字幕が意訳なのか誤読なのかを知るには、動画を開いて文脈を見ればよい。
そこで字幕をタップする。動画が表示され、該当する字幕を含む10行ほどが閲覧可能となる。
動画が開かないときは 開く字幕バー左端の [動画アイコン] をタップする
確かに 語彙に [興味] の意義を持つ単語はないが、 [興味] の2文字で端的に文意が表現されていることが見て取れた。
(c) 足切りの例 |
You know what, I still don't care. |
今でも興味はありません |
足きりで漏れた表現を探すのは難儀である。フィルタされなかった約500個の字幕を ひとつひとつ点検しなければならないからだ。普段なら面倒なのだが、今回は記事にするので辛抱して探した。すると 一つ それらしいものが見つかった。[care] である。
上位100個のフィルタ語彙リストに care は入っていなかった。足切りされた語彙である。[care] に訳語として [興味] を当てることがよくあるのか、まれにしかないのか、あるいは例外(意訳)なのかを調べる必要がある。
そこで、別途 [care] で検索して対訳フィルタで [興味] に絞りこんだ。
結果 15 件ヒットした。確かに [care] を [興味] と訳す例が一定数存在していることがわかった。
(d) 反転の例 |
in profits, rather than progress, |
利益に興味があると考えていたのですね |
この字幕では確かに、和文の [興味] にあたる語彙が英字幕に見当たらない。
そこで動画で文脈を調べてみた。
該当する字幕を含む文を抽出すると次のようになっていた。
- They thought that we were more interested, as an industry,
- in profits, rather than progress,
日本語の 興味 に対応する語彙 interested は直前の字幕にあることがわかった。英語と日本語の語順の違いが、訳文における字幕のずれとして表れていたのだった。
こうした 言わば「帰り読み訳」をすることはまれではない。特に TED Talk ではこうしたずれは頻繁に発生している。会話に比べて文が長く(複雑に)なる傾向があることが理由かもしれない。
|
|
話が注釈にそれたので、本筋のライティングにもどす。話は [興味] に対応した英語の語彙であった。最多の [INTEREST] 以外の語彙 [FASCINATE, CURIOUS, INTRIGUE, EXCITE] は [INTEREST] と比べてどのように違うのだろうか。それを調べる方法を説明する。
- 対訳フィルタで [FASCINATE] 項目の右寄りにある [ブック] マークをタップする。
- すると、新しく CORPORA が開いて、自動的に [FASCINATE] を検索する。
- ヒットした結果をすべて表示させてから対訳フィルタを開いて、気になる語彙を収集する。
以下の7つの訳語が収集された。
- ここまでの対訳フィルタの使い方は⇒前回の記事を参考にするとよい
TED / FASCINATE / 370 hits / 370 views
1 | 興味 | | 76 | |
2 | 魅力 | | 48 | |
3 | 素晴 | | 35 | |
4 | 魅了 | | 26 | |
5 | 面白 | | 23 | |
6 | 夢中 | | 10 | |
7 | 魅惑 | | 9 | |
2番、4番、7番に [魅力、魅了、魅惑] と [魅] のつく言葉が並び、さらに [素晴、夢中] とあるのを見ると、[INTEREST] に比べて [興味] のありようが具体化されていることが見て取れる。
残りの語彙 [CURIOUS, INTRIGUE, EXCITE] についても同様に検索して対訳フィルタで調べてみよう。
[CURIOUS] は [好奇心、奇妙]、[INTRIGUE] は [興味、面白、魅力、好奇]、 [EXCITE] は [興奮、ワクワク、面白、刺激] などが目についた。
|
|
日本語にあった英語表現を探す作業を表にした。上が今回の事例で、下が概念である。
検索語 | | 対訳フィルタ | |
興味 | | INTEREST, FASCINATE, CURIOUS,,, | |
| |
| |
INTEREST | | 興味、関心、面白 | |
FASCINATE | | 興味、魅力、素晴、魅了 | |
INTERESTINGLY | | 興味、面白 | |
CURIOUS | | 好奇心、奇妙 | |
INTRIGUE | | 好奇、魅力、面白、興味 | |
EXCITE | | 興奮、ワクワク、面白、刺激 | |
| | 対訳フィルタ | 共起フィルタ |
検索語 | | | |
日本語 | | 英語 1, 英語 2, 英語 3,,, | |
| |
| |
英語 1 | | 日本語リスト 1(翻訳) | |
英語 2 | | 日本語リスト 2(翻訳) | |
英語 3 | | 日本語リスト 3(翻訳) | |
--- | | --- | |
今回は、日本語で思い浮かんだ語句を英語にしたいときの CORPORA の使い方を紹介した。対訳コーパスの構造で示すと 下の表の 赤い字の部分である。
| | 対訳フィルタ | 共起フィルタ |
検索語 | | | |
日本語 | | 英語 | 日本語リスト(翻訳) |
英語 | | 日本語リスト(翻訳) | 英語リスト |
この方法で見つけた語彙を使った文を作るにあたって、語彙の周辺に配置する関連語句も知っておくと便利である。対訳コーパスの構造で示すと 下の表の 青い字の部分である。
| | | 対訳フィルタ | 共起フィルタ |
| 検索語 | | | |
今回 | 日本語 A | | 英語 A | 日本語(翻訳) |
| 英語 A | | 日本語(翻訳) | |
次回 | 英語 A | | 日本語(翻訳) | 英語リスト B |
日本語 A の意味を持つ英語リストの中から選んだ使いたい語彙 英語 A を検索語 英語 A として共起フィルタを使うことで、一緒によく使われる関連語彙 英語リスト B を見つけることができれば、豊かな表現が可能となるはずだ。
|
|
日英対訳コーパスでフィルタで役に立った方法は、それぞれの言語の特性であった。
- 英語は 派生語や活用形を一つの見出し語(lemma あるいは word family)にまとめる方法
- 日本語は 漢字とカタカナで分類する方法
日本語では意味のある言葉は漢字やカタカナで書く習慣がある。これを利用すると、平仮名を飛ばして拾い読むことができる。
英語ではそれが難しい。そこで 機能語(function words)と言われる冠詞や接続詞などは あらかじめ薄く表示することで、意味のありそうな綴りだけを拾い読みしやすい工夫が必要であった。機能語として取り上げたのは、以下の6種類である
- 人称代名詞
- 冠詞
- 前置詞
- 助動詞
- 接続詞
- 指示代名詞
- 疑問詞
これらの語彙の統計的特徴は以下のとおりである。
- 文の中で常に一定の割合で使われる傾向がある
- コーパスのサイズを大きくしても 種類が増えない
ちなみに 上にあげた以外の品詞(名詞、動詞)は、コーパスのサイズを大きくするにつれて種類が増えていく。しかもその増え方は、面白いことに名詞も動詞もほぼ一定であることがわかっている。また、名詞と動詞が増えると、同じ割合で形容詞と副詞も増えていく傾向があることもわかっている。これらは機能語に対して内容語(content words)と呼ばれている。
こうした統計的振る舞いは、言語と現実世界との関わり方を示しているようで興味深いものがある。つまり、社会の成長と知識の増大に連れて内容語(物と事)はどんどん増えるが、文構造の枠組みを示す機能語(事物のつながり方)は増えないのである。例えれば、食器棚のお皿は色形大小さまざまだが、一定数以上は不必要であって、それでもスーパーから買ってくるさまざまな食材を盛り付けるのに不足しないようなものなのだろう。
|
|
節 ⇒TED 対訳の問題点 / 日英字幕のズレでは、対訳フィルタの限界について触れた。
限界があれば、それを如何に克服するかが今後の課題となる。課題を解決するには、限界の要因を知っておく必要がある。
- 看過 / 意義をもつ語彙の見落とし。
- 活力と忍耐と精密さに限界があるヒトにとっては、避けられない。
- 機械的な補助が必要となるが、そのためには、形態素解析や意味辞書の整備が必要だろう。
-
- 意訳 / 文脈からの工夫。
- ヒトならではの創意工夫なので、統計的に処理できない。
- もし機械処理できるようなら、コンピュータが人間になったか、あるいは、多く(一定数)の訳者のよくある訳例となっていることを意味する。つまり、訳者の工夫ではないことになる。意訳かどうかは時系列(時代や世代や分野)と無縁ではない。
-
- 足切り / 上位100個だけ表示。
- 対訳コーパスのフィルタはヒトが扱う学習用ツールなので、閲覧数には限度がある。
- 開発初期には出現した全語彙をフィルタのリストに並べていた。その数は優に1,000個を超えていた。とてもチェックできる数ではない。
- 忍耐強い人のために、次の100個を表示する機能を持たせることは検討できる。
- 根本的には機械的な補助が必要な問題であろう。
-
- 反転 / 日本語訳と英語との順序のずれ。
- 機械翻訳は解析単位を次第に拡張しているそうである。
- 語彙の正確な理解のためには、単語から句、句から文、文から段落、段落から節、節から章、章から本、本から分野、分野から・・・と解析単位を層状に積み上げていかなければならないだろう。ヒトが普段、普通に、無自覚に行っている作業である。
- CORPORA は、字幕単位で処理している。字幕は、ほぼ句である。この解析単位を文に拡張することが次の課題であろう。
|
|
> シリーズ 0. 対訳コーパス CORPORA で日本語検索
まえ> シリーズ 1. 対訳コーパス CORPORA にフィルタ追加
ここ> シリーズ 2. 対訳コーパス CORPORA でライティング
つぎ> シリーズ 3. コーパスで見る“興味”の英語表現 1+5
対訳コーパス CORPORA
⇒http://www.mintap.com/talkies/pac/corpora.html
|
..[↑] 8 |
2019.02.10 田淵龍二 TABUCHI, Ryuji
|