2019/02/08 対訳コーパス CORPORA で日本語検索
|
辞書に 英和だけでなく和英もあるように、対訳コーパス CORPORA でも 日本語から英語を調べることができるようになった。
|
もくじ |
- [ 優しい ] を引いてみる
- [ 猫 ] を漏れなく引く工夫は?
- 日本語検索の文法
- 日本語検索と共起フィルタ
- リンク
|
|
|
Seleaf コーパスで [ 優しい ] を引くと17件ヒットした。
検索語が 赤字に黄色マーカーでハイライトされている
英語で引くのとは いくつか異なる点がある。
- 英語なら [ go ] で [ goes going went gone ] など活用形もヒットする
しかし、
- 日本語だと [ 優しい ] で引くと [ 優しい ] しか 引いてこない
- 英語なら [ GO ] で引いても [ go ] で引いても同じ結果だが
- 日本語だと [優しい] と [やさしい] では 結果が異なる
5件ヒットし、[ 優しい ] の結果との重複はない
そこで、入力する検索語をひと工夫する。つまり [ 優しい ] が引きたければ
[ 優,やさし] で引くと90件ヒットした
ヒットした字幕でハイライトされた文字を見ると、欲しい情報が取れている。
- 3 「優」しいのね
- 9 「やさし」くして
- 11 「優」しくする
その他に「優」がつく熟語もヒットしている
- 4 「優」勝しなかった
- 7 最「優」先だ
- 10 ヒトに「優」劣をつけて
こちらは 想定外かもしれない。これを避けたければ [ 優し,やさし] で引くとよい。
このような特徴と限界があることを知ったうえで、使ってみると、和英辞書の冒険が楽しめたりする。
|
|
たとえば [ 猫 ] について引くにはどのような工夫が必要か考えてみよう。
・
・
・
・
・
・
・
・
・
ヒット数が多い TED コーパスでためした結果はこうなった。
| 猫 | 204 hits | 63% | |
| ネコ | 95 hits | 29% | |
| キャット | 23 hits | 9% | |
| ねこ | 3 hits | 1% | |
|
|
|
| |
| 計 | 325 hits | | |
これらの数字は 日本の言語文化を垣間見させてくれるようだ。
やはり 正統派 [ 猫 ] の漢字1文字が、音と字義を伝えていて一番的のようで、過半数の支持を得ていた。
でも [ ネコ ] も3割と 奮闘している。
外来語の [ キャット ] も1割近くと 意外と多かった。
平仮名の [ ねこ ] は1%で極少数派だが、かえって どんな場面で使っているのか 気になるのが 面白いところだ。気になり始めると眠れない方は CORPORA / TED コーパスでひいてみると 「なるほど」 と腑に落ちるかもしれない。
|
|
日本語検索の文法は2つだけ。
(1) | | あるいは検索 / or | | 語を ,(カンマ)で区切る |
(2) | | かつ検索 / and | | 語を ;(セミコロン)で区切る |
|
|
[ 猫 ] はどんな脈絡で 出てきたのか調べたいときには 共起フィルタが便利だ。共起フィルタは 対訳フィルタとセットで今年から導入したツールだ。
さっそく [ TED / 猫,ねこ,ネコ,キャット ] で検索すると 325件ヒットした。共起フィルタを起動すると、これも 世相を反映しているようで 興味深かった。
[ 猫 ] と来るとやはり [ 犬 ] ですね。それに [ 子 ] がかわいい盛りで好まれているようです。[ 写真 ] にも撮りたいし、[ 餌 ] も気になるんですね。
共起フィルタと対訳フィルタについては、シリーズで記事をアップしてあるので、詳しくは以下のリンクへ。
|
|
シリーズ 1. 対訳コーパス CORPORA にフィルタ追加
シリーズ 2. 対訳コーパス CORPORA でライティング
シリーズ 3. コーパスで見る“興味”の英語表現 1+5
対訳コーパス CORPORA
⇒http://www.mintap.com/talkies/pac/corpora.html
|
..[↑] 6 |
2019.02.08 田淵龍二 TABUCHI, Ryuji
|