2019/01/08 日英対訳コーパス 数秒で検索
|
日英対訳コーパス・コーポラ CORPORA の検索が超高速になった。キーワードを打ち込んでから数秒で結果が表示できるようになった。
これまでは 数十秒かかることも稀ではなかったことから、約10倍速である。
|
もくじ |
- 基本設計は従来どおり
- 高速化に伴う改変
- その他の改変
- 開発後記
|
|
|
大きな改善は舞台裏なので、表に見えるところでの使い方はこれまでと変わらない。
- 上段の入力欄にキーワードを入力し、検索ボタンをタップする
- ヒットしたシーンが一覧表示されるとともに
- 一番上のシーンの動画が再生可能となる
- 所望の表現を一覧表に見つけたらそこをタップすると
- そのシーンの動画が再生可能となる
- 最初の一覧表には検索結果の一部だけが表示されているので、必要に応じて more ボタンをタップする。more ボタンは一覧表の上下にある。
|
|
高速化に伴う改変で、いくつかの変更がある。
- 最初に表示される検索結果は 50 シーンとなった
- 検索でヒットした件数は more ボタンの左に記載してある
- more ボタンをタップするたびに、200 シーンずつ追加される
|
|
- 入力欄の下にあったオプションは、コーパス選択のみとして、残りは option ボタン(コーパス選択欄のすぐ左)で出現する
- これは、スマホを横にしたときに視野を確保する目的である
-
- ↑ before
- after ↓
-
- 入力補完機能 はデフォルト(初期設定)で OFF にした
- 入力補完は、検索語彙の入力をスムーズにする目的で設置した。綴りが間違っていたり、わからなければ検索できないからだ。しかしまだ入力補完機能に未対応のブラウザがあるようだ。入力補完機能に未対応なブラウザが原因で CORPORA がフリーズするのではないかとの懸念が出ている。そこで、CORPORA を起動したとき(初期設定と言う)には入力補助をはずしておくことになった。一般のブラウザであれば大丈夫なので必要に応じて option ボタンをタップして機能を有効にするとよい。今まで使っていた利用者には手間で申し訳ないが、対応策を考案中なので今しばらくご容赦願いたい。
- 検索結果のすべてをワンクリックで表示する all ボタンを廃止した
- すべての検索結果を一気に表示しようとすると、多くのブラウザで数十秒から数分の時間が掛かかってしまう。現在のコンピュータの性能では 千件程度までは無理なく表示できるようだ。それでも数分かかる場合もある。
- 研究目的で時間が掛かっても数千項目を取得したいなど特別の必要がある場合には以下の相談窓口にメールしていただきたい。
- mail to: tabuchiryuji@nifty.ne.jp
|
|
日英対訳コーパス CORPORA を公開したのは昨年の1月だった。そのころから高速化の必要を感じていて、改善方法をシュミレートしながら様子を見ていたのだった。実際に高速化のプログラミングに手を付けたのは、クリスマスの声が聞こえ始めた頃だった。基本設計としては、データベースの組み換え、高速検索アルゴリズムの考案、事前検索による予備ファイル生成など数通り準備してあったので、それらを組み合わせながらコードを組んでは検証し、崩しては組みなおす作業を何度も繰り返してきた。ようやく最適な仕組みにたどり着いた時には、クリスマスも終わり、年も変わっていた。
|
..[↑] 5 |
2019.01.08 田淵龍二 TABUCHI, Ryuji
|