ミント音声教育研究所
ホーム

ミント アプリ
ケーションズ

ホーム

映画映像シーン検索サイト
セリーフ

字幕付き動画再生サイト
トーキーズ

Googleでサイト内を検索
    
ミント名作劇場
日本の昔話
朗読絵本

「竹取物語」

群馬の昔話
朗読絵本

「猿地蔵」」

日本の名作
朗読
芥川龍之介

「トロッコ」

英語朗読絵本
マザーグース Mother Goose

映画
オズの魔法使い

歌「オーバーザレインボー」

映画
カサブランカ

シーン「君の瞳に乾杯」

英語で折り紙 Origami
折鶴 つる crane

ベクターライブラリ
公開作品一覧
英語作品
朗読絵本
ふしぎの国のアリス

第1巻

聞き取りドリル
オバマ大統領 就任演説

聞き取りドリル
オバマ ノーベル平和賞演説

語学ソフト
ミングル
リーダビリティ計測ソフト

ワーズピッカー
英単語拾い2

ゲーム
朗詠・百人一首
読み上げ&ゲーム

数独ナンプレゲーム
東海道五十三次
詰独 一人旅

数独ナンプレゲーム
富嶽36景 富士登山
詰独 次の一手

ユーティリティ
書き起こしソフト
ゆ〜ゆ バリュー

書き起こしソフト
ゆ〜ゆ ライト

書き起こしソフト
ゆ〜ゆ ビジネス

書き起こしソフト
ゆ〜ゆ アカデミー


2019/08/23 as 〜 as 考 (1) 〜 に入る最多語彙は?


英語構文を学んでいて面白いのは、〜 がつくことだ。たとえば
a couple of 〜 1対の〜
be absorbed in 〜 〜に没頭している
come up with 〜 〜を思いつく
 
今回注目したのは 
as 〜 as 〜と同じくらい

as 〜 as 構文は as+原級+as という形なので、同等比較とか原級比較とか呼ばれる比較表現だ。

音声としては 〜 の語彙に強勢が来ると、高い確率で予測できる。

では as に挟まれたところに入るのは、どんな語彙が多いのだろうか?

そこで 世界最大規模のひとつと言われる BNC で調べてみた。

もくじ
  1. as 〜 as の共起語を BNC で調べた
  2. as だけの共起語を BNC で調べた
  3. as 〜 as に入る語彙収集用アプリの作成へ
  4. 結論: as 〜 as に入る 最多語彙は
  5. おまけ:

..[↓] 1
 1 as 〜 as の共起語を BNC で調べたもどる
もくじへ

世界最大規模のコーパス BNCweb をひらいて "as * as" を検索した。

as と as の間に入る単語の探索なのだが、やり方がわからなかった。そこで、左右のスパンを1単語とし、頻度順に並べてみた。

結果が下の図だ。

  • 縦の欄の2番目が Word で as * as の左右にあった単語
  • 出現頻度の多い順に並んでいる。使ったコーパスは spoken

機能語に交じって、上から18番目にそれらしい "well" を見つけたので、用例を表示させてみた。それが次の図

query: as * as; span: 1-1; texts: spoken; 5645 hits;

黒の太字 well は、as 〜 as の左か右の外にあることから、当てが外れた。as と as の間にある 〜 の位置は検索対象外なのだった。

それでも、中央の 青の太字部分をざっと見れば、soon, long, far, well などが見て取れる。

しかしこれは as 〜 as でヒットした 5,645 件のほんの一部だ。こんな調子であと100ページ以上を流し見るのは徒労だ。何より結果を数値で共有できない。
..[↑][↓] 2
 2 as だけの共起語を BNC で調べたもどる
もくじへ

中央の青字部分のだけ、つまり as 〜 as の 〜 部分だけの統計処理ができればいいのだが・・・そうだ as だけで検索すれば何かあるかもしれない。

そう思って検索した結果が下の図だ。

query: as; span: 1-1; texts: spoken; 43079 hits;

頻度の高い順に 上から well, a, i, you, it, far, the, long,,, と並んだ。

well, far, long, soon, much,,, はいかにも as 〜 as の 〜 に入りそうな語彙だ。

as 〜 as に入る最大語彙は well の可能性が高いと読み取れる結果だ。

しかし a, i, you,,, など as 〜 as の真ん中に入りそうにない語彙も混じっている。

つまり今回取得したのは 〜 as 〜 as 〜 の3か所の〜に入る語彙リストなのだ。余分な情報(雑音)が多すぎた。



いいとこまで行ったと思ったが、ここでとん挫。
..[↑][↓] 3
 3 as 〜 as に入る語彙収集用アプリの作成へもどる
もくじへ

しかし悔しい。何とかしたい!

そこで as 〜 as に入る語彙収集用アプリを作成することにした。ただし一からではなく、自作の 日英対訳コーパス・CORPORA に組み込むことにした。

基本設計で書いたコードは朝からの1日作業でうまく動作するまでになった。しかしその後は、例によって細かいところを詰めるのに2週間以上かかってしまった。

仕上がった結果が次の図だ。

  • コーパス: Seleaf。検索語: as ~ as。ヒット数: 222。動画: 非表示。
  • 共起フィルタ一覧取得

赤字と緑背で彩色された as long as がずらりと縦に並んでいる。実に壮観である。

スクロールして下を見ていけばよいのだが、膨大なので別の文書(pdf)にしておいた。下はその外観図。

この図では as 〜 as に入る頻度の高い17個の単語を彩色表示させている。

その部分の拡大図を以下に添える。


緑やオレンジで彩色されたところに、as と as で挟まれた位置にあった単語が頻度順に集計されている。左端縦の数列が順位で、右端縦が度数になっている。

最大が LONG で 32個、次が WELL で 25個、以下 SOON 25個、MUCH 19個、GOOD 15個と続く。その下に FAR 15個、BAD 5個が見えている。

ヒット総数が 222個なので、LONG、WELL、SOON の上位3つで全体の4割を占めていることがわかった。

ところで、ここまでは CORPORA 搭載コーパスのうち 映画コーパス・Seleaf の結果である。そこで 講演コーパス・TED で検索してみたらどうなるかもやってみた。TED コーパスは容量が Seleaf の15倍(語数換算)なので統計的信頼性が高くなる。

結果は ほぼ似ていた。

  • コーパス: TED Talks。検索語: as ~ as。ヒット数: 2,529。動画: 非表示。共起フィルタ一覧取得。

最大が WELL で 326個、次が MUCH で 280個、以下 LONG 189個、SOON 163個、FAR 150個と続く。その下に MANY 105個、GOOD 58個、FAST 40個が見える。

ヒット総数が 2,529個なので、上位3つで全体の3分の1を占めていることがわかった。

この節で使った機能の操作説明は


こうして、念願の課題 "as 〜 as に入る語彙収集" が解決した。
..[↑][↓] 4
 4 結論: as 〜 as に入る 最多語彙はもどる
もくじへ

上位を一覧表で示す

順位 Seleaf 頻度  順位 TED Talks 頻度 
1 LONG 32  1 WELL 326 
2 WELL 25  2 MUCH 280 
SOON 25  3 LONG 189 
4 MUCH 19  4 SOON 163 
5 FAR 15  5 FAR 150 
       
総数 222 2,529 

総数: as 〜 as 構文を含む字幕の数

映画コーパス Seleaf では 最多語彙が LONG、講演コーパス TED Talks では 最多語彙が WELL となった。

  • 一つには、会話では as long as、プレゼンでは as well as が最大と見ることができる。
  • 他方では、TED の方が分母が一桁多いので、一般には as well as が最大と見ることもできる。
  • いずれにしても、会話にしろ、プレゼンにしろ、上位5位までは同じだとは言える。

少なくとも指導的には、以下のようになるのではないだろうか。
  1. まず、well と long を押さえつつ
  2. 次に、much, soon,far が使えればよい


しかし、ことはそう単純でないことが、この先 見えてくることになる。
..[↑][↓] 5
 5 おまけ:もどる
もくじへ

映画とTV番組の日英対訳コーパスでは最大規模と称される Japanese-English Subtitle Corpus(JESC 2018-2019)で調べたところ、以下の結果を得た。

順位 JESC 頻度  
1 soon 1,653  
2 long 1,619  
3 much 816  
4 well 658  
5 far 679  
    
総数 8,650  

こちらは as 〜 as の検索で 〜 に語彙が1つだけに限定したので Seleaf や TED コーパス検索と条件(〜 には任意の数の語彙)が違うが、大きな傾向を知ることができた。

  • 会話では soon, long が上位に来る点で Seleaf と同じ傾向であった
  • プレゼンでは well, much が上位に来ることと対比することができそうだ


JESC は、CORPORA と同じく 日英対訳であり、しかも クリエイティブ・コモンズ (CC) ライセンスの元で提供されているので、近い将来、CORPORA に組み込むことを検討したい。

日英対訳コーパス 規模の比較
コーパス  字幕数  
Seleaf  43,659  
TED Talks  661,787  
JESC  2,801,388  
..[↑][↓] 6
シリーズ 日英対訳コーパス・CORPORA / as 〜 as 考
..[↑] 7
2019.08.23 田淵龍二 TABUCHI, Ryuji