ミント音声教育研究所
ホーム

ミント アプリ
ケーションズ

ホーム

映画映像シーン検索サイト
セリーフ

字幕付き動画再生サイト
トーキーズ

Googleでサイト内を検索
    
ミント名作劇場
日本の昔話
朗読絵本

「竹取物語」

群馬の昔話
朗読絵本

「猿地蔵」」

日本の名作
朗読
芥川龍之介

「トロッコ」

英語朗読絵本
マザーグース Mother Goose

映画
オズの魔法使い

歌「オーバーザレインボー」

映画
カサブランカ

シーン「君の瞳に乾杯」

英語で折り紙 Origami
折鶴 つる crane

ベクターライブラリ
公開作品一覧
英語作品
朗読絵本
ふしぎの国のアリス

第1巻

聞き取りドリル
オバマ大統領 就任演説

聞き取りドリル
オバマ ノーベル平和賞演説

語学ソフト
ミングル
リーダビリティ計測ソフト

ワーズピッカー
英単語拾い2

ゲーム
朗詠・百人一首
読み上げ&ゲーム

数独ナンプレゲーム
東海道五十三次
詰独 一人旅

数独ナンプレゲーム
富嶽36景 富士登山
詰独 次の一手

ユーティリティ
書き起こしソフト
ゆ〜ゆ バリュー

書き起こしソフト
ゆ〜ゆ ライト

書き起こしソフト
ゆ〜ゆ ビジネス

書き起こしソフト
ゆ〜ゆ アカデミー


2019/01/08 日英対訳コーパス 数秒で検索


日英対訳コーパス・コーポラ CORPORA の検索が超高速になった。キーワードを打ち込んでから数秒で結果が表示できるようになった。


これまでは 数十秒かかることも稀ではなかったことから、約10倍速である。

もくじ
  1. 基本設計は従来どおり
  2. 高速化に伴う改変
  3. その他の改変
  4. 開発後記

..[↓] 1
 1 基本設計は従来どおりもどる
もくじへ

大きな改善は舞台裏なので、表に見えるところでの使い方はこれまでと変わらない。


  1. 上段の入力欄にキーワードを入力し、検索ボタンをタップする
  2. ヒットしたシーンが一覧表示されるとともに
  3. 一番上のシーンの動画が再生可能となる
  4. 所望の表現を一覧表に見つけたらそこをタップすると
  5. そのシーンの動画が再生可能となる
  6. 最初の一覧表には検索結果の一部だけが表示されているので、必要に応じて more ボタンをタップする。more ボタンは一覧表の上下にある。
..[↑][↓] 2
 2 高速化に伴う改変もどる
もくじへ

高速化に伴う改変で、いくつかの変更がある。

  • 最初に表示される検索結果は 50 シーンとなった
  • 検索でヒットした件数は more ボタンの左に記載してある
  • more ボタンをタップするたびに、200 シーンずつ追加される
..[↑][↓] 3
 3 その他の改変もどる
もくじへ

  • 入力欄の下にあったオプションは、コーパス選択のみとして、残りは option ボタン(コーパス選択欄のすぐ左)で出現する
    • これは、スマホを横にしたときに視野を確保する目的である
    • ↑ before
    •  after ↓
  • 入力補完機能 はデフォルト(初期設定)で OFF にした
    • 入力補完は、検索語彙の入力をスムーズにする目的で設置した。綴りが間違っていたり、わからなければ検索できないからだ。しかしまだ入力補完機能に未対応のブラウザがあるようだ。入力補完機能に未対応なブラウザが原因で CORPORA がフリーズするのではないかとの懸念が出ている。そこで、CORPORA を起動したとき(初期設定と言う)には入力補助をはずしておくことになった。一般のブラウザであれば大丈夫なので必要に応じて option ボタンをタップして機能を有効にするとよい。今まで使っていた利用者には手間で申し訳ないが、対応策を考案中なので今しばらくご容赦願いたい。
  • 検索結果のすべてをワンクリックで表示する all ボタンを廃止した
    • すべての検索結果を一気に表示しようとすると、多くのブラウザで数十秒から数分の時間が掛かかってしまう。現在のコンピュータの性能では 千件程度までは無理なく表示できるようだ。それでも数分かかる場合もある。
    •   研究目的で時間が掛かっても数千項目を取得したいなど特別の必要がある場合には以下の相談窓口にメールしていただきたい。
    • mail to: tabuchiryuji@nifty.ne.jp
..[↑][↓] 4
 4 開発後記もどる
もくじへ

日英対訳コーパス CORPORA を公開したのは昨年の1月だった。そのころから高速化の必要を感じていて、改善方法をシュミレートしながら様子を見ていたのだった。実際に高速化のプログラミングに手を付けたのは、クリスマスの声が聞こえ始めた頃だった。基本設計としては、データベースの組み換え、高速検索アルゴリズムの考案、事前検索による予備ファイル生成など数通り準備してあったので、それらを組み合わせながらコードを組んでは検証し、崩しては組みなおす作業を何度も繰り返してきた。ようやく最適な仕組みにたどり着いた時には、クリスマスも終わり、年も変わっていた。
..[↑] 5
2019.01.08 田淵龍二 TABUCHI, Ryuji