2020/08/08 TED コーパス 増量 / CORPORA
|
CORPORA 収録のTED コーパスが、この半年で 248本増量し、2968本となった。
この半年は、いつもの半年と違い、世界史に刻印されるほどの出来事の始まりなのかも知れない。
そこで、各分野で活躍する識者諸氏の講演集である TED Talks のこの半年の特徴を CORPORA で探ってみることにした。
|
もくじ |
- コロナの流行
- coronavirus に関わる語彙
- PANDEMIC の分布を年代順に調べる
- 2016年に PANDEMIC 関連の Talks が多い
|
|
|
英日対訳コーパス・CORPORA を使うにはキーワードが必要となる。
まずは「コロナ」で引いてみた。
CORPORA は英語でも日本語でも検索できるのが強みだ。
英日対訳コーパス・CORPORA・TED コーパスでの「コロナ」検索結果
ヒットは 21件。
字幕を見ると
- 太陽のコロナ corona
- 感染症をもたらすコロナウィルス coronavirus
の2つあることが分かる。
感染症のコロナは、corona ではなく coronavirus の語彙が使われていることを知った。
|
|
そこで今度は改めて coronavirus で検索した。
ヒットは 11件
英日対訳コーパス・CORPORA・TED コーパスでの「coronavirus」検索結果
coronavirus の他にどんな表現がよく使われるのか調べてみよう。
英日対訳コーパス・CORPORA の共起検索を使う。
共起検索とは 調べたいキーワードと同じ文脈でよく使われる(共起する)語句を調べることだ。
調べ方は 次の手順で簡単にできる。
- 右下の丸に縦3本マーク (|||) (前図の青色矢印)をクリック
- 右端に現れたスライダーにある「共起」(白の矢印)をクリック
- しばらく待つと「共起フィルタ」が現れる
- coronavirus と一緒によくあらわれる単語が 頻度の多い順に並んでいる
- 薄い色の単語は冠詞や一般動詞なので ここでは 色の濃い単語だけを流し見て、気になった単語をチェックする
気になった単語
|
|
PANDEMIC パンデミック は、ニュースでよく聞く言葉だ。
PANDEMIC を CORPORA で引いてみた。
99件もヒットした。
PANDEMIC は感染症とは縁の深い単語なのだ。
感染症は 20世紀に入って何度か流行している。
そこで PANDEMIC の語彙の分布を年代順に調べてみよう。
次の手順で PANDEMIC を話題にした Talk が何年に発表されたのかが分かる。
発表年を調べる手順
- 右下の丸に縦3本マーク (|||) をクリック
- 右端に現れたスライダーにある「一覧」(黄色の矢印)をクリック
- しばらく待つと 棒グラフと Talks 一覧が表示される
- 棒グラフは上から 2020年、2019年、2018年と新しい順に降りていく
- 横に伸びる長さが、その年の Talks の数を表している
- 横棒の左端根元で 色の濃い部分(青色の矢印)が PANDEMIC を扱った Talks を示している
- 図表上段の「パーセント」(赤色の矢印)をクリックすると PANDEMIC を扱った Talks の相対的割合がわかる
- それが次の図
|
|
2006年が圧倒的に高い。47本の Talks のうち 5本(10.6%)であった。
次が 今年2020年の 5本(2.4%)、2016年の 5本(2%)と続いた。
ちなみに サーズ・SARS(severe acute respiratory syndrome)が流行したのは 2002年から2003年にかけてのことだった。
マーズ・MERS(middle east..)は 2012年から流行が始まり、今も断続的に発生しているとされる。
では、なぜ 2006年に PANDEMIC 関連の Talks が多かったのか・・・
それが 次のページの課題だ。
|
..[↑] 5 |
2020.08.08 田淵龍二 TABUCHI, Ryuji
|