- ミント音声教育研究所
ホーム
- ミント アプリ
ケーションズ ホーム
- 映画映像シーン検索サイト
セリーフ
- 字幕付き動画再生サイト
トーキーズ
- ミント名作劇場
- 日本の昔話
朗読絵本 「竹取物語」
- 群馬の昔話
朗読絵本 「猿地蔵」」
- 日本の名作
朗読 芥川龍之介 「トロッコ」
- 英語朗読絵本
マザーグース Mother Goose
- 映画
オズの魔法使い 歌「オーバーザレインボー」
- 映画
カサブランカ シーン「君の瞳に乾杯」
- 英語で折り紙 Origami
折鶴 つる crane
- ベクターライブラリ
- 公開作品一覧
- 英語作品
- 朗読絵本
ふしぎの国のアリス 第1巻
- 聞き取りドリル
オバマ大統領 就任演説
- 聞き取りドリル
オバマ ノーベル平和賞演説
- 語学ソフト
- ミングル
リーダビリティ計測ソフト
- ワーズピッカー
英単語拾い2
- ゲーム
- 朗詠・百人一首
読み上げ&ゲーム
- 数独ナンプレゲーム
東海道五十三次 詰独 一人旅
- 数独ナンプレゲーム
富嶽36景 富士登山 詰独 次の一手
- ユーティリティ
- 書き起こしソフト
ゆ〜ゆ バリュー
- 書き起こしソフト
ゆ〜ゆ ライト
- 書き起こしソフト
ゆ〜ゆ ビジネス
- 書き起こしソフト
ゆ〜ゆ アカデミー
| |
2019/08/23 as 〜 as 考 (1) 〜 に入る最多語彙は?
|
英語構文を学んでいて面白いのは、〜 がつくことだ。たとえば
a couple of 〜 | | 1対の〜 |
be absorbed in 〜 | | 〜に没頭している |
come up with 〜 | | 〜を思いつく |
| | |
今回注目したのは | | |
as 〜 as | | 〜と同じくらい |
as 〜 as 構文は as+原級+as という形なので、同等比較とか原級比較とか呼ばれる比較表現だ。
音声としては 〜 の語彙に強勢が来ると、高い確率で予測できる。
では as に挟まれたところに入るのは、どんな語彙が多いのだろうか?
そこで 世界最大規模のひとつと言われる BNC で調べてみた。
|
もくじ |
- as 〜 as の共起語を BNC で調べた
- as だけの共起語を BNC で調べた
- as 〜 as に入る語彙収集用アプリの作成へ
- 結論: as 〜 as に入る 最多語彙は
- おまけ:
|
|
|
世界最大規模のコーパス BNCweb をひらいて "as * as" を検索した。
as と as の間に入る単語の探索なのだが、やり方がわからなかった。そこで、左右のスパンを1単語とし、頻度順に並べてみた。
結果が下の図だ。
- 縦の欄の2番目が Word で as * as の左右にあった単語
- 出現頻度の多い順に並んでいる。使ったコーパスは spoken
機能語に交じって、上から18番目にそれらしい "well" を見つけたので、用例を表示させてみた。それが次の図
query: as * as; span: 1-1; texts: spoken; 5645 hits;
黒の太字 well は、as 〜 as の左か右の外にあることから、当てが外れた。as と as の間にある 〜 の位置は検索対象外なのだった。
それでも、中央の 青の太字部分をざっと見れば、soon, long, far, well などが見て取れる。
しかしこれは as 〜 as でヒットした 5,645 件のほんの一部だ。こんな調子であと100ページ以上を流し見るのは徒労だ。何より結果を数値で共有できない。
|
|
中央の青字部分のだけ、つまり as 〜 as の 〜 部分だけの統計処理ができればいいのだが・・・そうだ as だけで検索すれば何かあるかもしれない。
そう思って検索した結果が下の図だ。
query: as; span: 1-1; texts: spoken; 43079 hits;
頻度の高い順に 上から well, a, i, you, it, far, the, long,,, と並んだ。
well, far, long, soon, much,,, はいかにも as 〜 as の 〜 に入りそうな語彙だ。
as 〜 as に入る最大語彙は well の可能性が高いと読み取れる結果だ。
しかし a, i, you,,, など as 〜 as の真ん中に入りそうにない語彙も混じっている。
つまり今回取得したのは 〜 as 〜 as 〜 の3か所の〜に入る語彙リストなのだ。余分な情報(雑音)が多すぎた。
いいとこまで行ったと思ったが、ここでとん挫。
|
|
しかし悔しい。何とかしたい!
そこで as 〜 as に入る語彙収集用アプリを作成することにした。ただし一からではなく、自作の 日英対訳コーパス・CORPORA に組み込むことにした。
基本設計で書いたコードは朝からの1日作業でうまく動作するまでになった。しかしその後は、例によって細かいところを詰めるのに2週間以上かかってしまった。
仕上がった結果が次の図だ。
- コーパス: Seleaf。検索語: as ~ as。ヒット数: 222。動画: 非表示。
- 共起フィルタ一覧取得
赤字と緑背で彩色された as long as がずらりと縦に並んでいる。実に壮観である。
スクロールして下を見ていけばよいのだが、膨大なので別の文書(pdf)にしておいた。下はその外観図。
この図では as 〜 as に入る頻度の高い17個の単語を彩色表示させている。
その部分の拡大図を以下に添える。
緑やオレンジで彩色されたところに、as と as で挟まれた位置にあった単語が頻度順に集計されている。左端縦の数列が順位で、右端縦が度数になっている。
最大が LONG で 32個、次が WELL で 25個、以下 SOON 25個、MUCH 19個、GOOD 15個と続く。その下に FAR 15個、BAD 5個が見えている。
ヒット総数が 222個なので、LONG、WELL、SOON の上位3つで全体の4割を占めていることがわかった。
ところで、ここまでは CORPORA 搭載コーパスのうち 映画コーパス・Seleaf の結果である。そこで 講演コーパス・TED で検索してみたらどうなるかもやってみた。TED コーパスは容量が Seleaf の15倍(語数換算)なので統計的信頼性が高くなる。
結果は ほぼ似ていた。
- コーパス: TED Talks。検索語: as ~ as。ヒット数: 2,529。動画: 非表示。共起フィルタ一覧取得。
最大が WELL で 326個、次が MUCH で 280個、以下 LONG 189個、SOON 163個、FAR 150個と続く。その下に MANY 105個、GOOD 58個、FAST 40個が見える。
ヒット総数が 2,529個なので、上位3つで全体の3分の1を占めていることがわかった。
この節で使った機能の操作説明は
こうして、念願の課題 "as 〜 as に入る語彙収集" が解決した。
|
|
上位を一覧表で示す
順位 | Seleaf | 頻度 | | 順位 | TED Talks | 頻度 | |
1 | LONG | 32 | | 1 | WELL | 326 | |
2 | WELL | 25 | | 2 | MUCH | 280 | |
| SOON | 25 | | 3 | LONG | 189 | |
4 | MUCH | 19 | | 4 | SOON | 163 | |
5 | FAR | 15 | | 5 | FAR | 150 | |
| | | | | | | |
総数 | | 222 | | | | 2,529 | |
総数: as 〜 as 構文を含む字幕の数
映画コーパス Seleaf では 最多語彙が LONG、講演コーパス TED Talks では 最多語彙が WELL となった。
- 一つには、会話では as long as、プレゼンでは as well as が最大と見ることができる。
- 他方では、TED の方が分母が一桁多いので、一般には as well as が最大と見ることもできる。
- いずれにしても、会話にしろ、プレゼンにしろ、上位5位までは同じだとは言える。
少なくとも指導的には、以下のようになるのではないだろうか。
- まず、well と long を押さえつつ
- 次に、much, soon,far が使えればよい
しかし、ことはそう単純でないことが、この先 見えてくることになる。
|
|
映画とTV番組の日英対訳コーパスでは最大規模と称される Japanese-English Subtitle Corpus(JESC 2018-2019)で調べたところ、以下の結果を得た。
順位 | JESC | 頻度 | | |
1 | soon | 1,653 | | |
2 | long | 1,619 | | |
3 | much | 816 | | |
4 | well | 658 | | |
5 | far | 679 | | |
| | | | |
| 総数 | 8,650 | | |
こちらは as 〜 as の検索で 〜 に語彙が1つだけに限定したので Seleaf や TED コーパス検索と条件(〜 には任意の数の語彙)が違うが、大きな傾向を知ることができた。
- 会話では soon, long が上位に来る点で Seleaf と同じ傾向であった
- プレゼンでは well, much が上位に来ることと対比することができそうだ
JESC は、CORPORA と同じく 日英対訳であり、しかも クリエイティブ・コモンズ (CC) ライセンスの元で提供されているので、近い将来、CORPORA に組み込むことを検討したい。
日英対訳コーパス 規模の比較
コーパス | | 字幕数 | | |
Seleaf | | 43,659 | | |
TED Talks | | 661,787 | | |
JESC | | 2,801,388 | | |
|
..[↑][↓] 6 |
シリーズ 日英対訳コーパス・CORPORA / as 〜 as 考
|
..[↑] 7 |
2019.08.23 田淵龍二 TABUCHI, Ryuji
|
|