TED+Talkies メルマガ 第77号 2019.02.17 | ||||
こんにちは みなさん 群馬の高崎でも 梅がようやく咲き誇り始めました。 サイクリングロード沿いの土手に10本ほど白梅と紅梅が並んでいるところがあって、その脇を通り抜けると一瞬ですがいい香りが楽しめるところがあるんです。この時期はそれが楽しみで、北風に逆らってペダルを漕いでいます。 ━ もくじ ━━━━━━━━━━━━━━━━━━━ 1. 対訳コーパスで 日本語を引いてみよう コーポラ・CORPORA が母語引きに対応 2. 共起フィルタと対訳フィルタで 語感を試そう その英単語で 何を連想するか? 3. 今年も言語エキスポ2019で発表 対訳コーパスで AIの深層学習を真似てみる ━━━━━━━━━━━━━━━━━━━━━━━ 去年の暮れから手を付けてきた 対訳コーパスの拡張がようやくひと段落した。 1. 高速検索 2. 日本語検索 3. 共起フィルタと対訳フィルタの設置 1番目のテーマは前号のメルマガで紹介した。高速検索は、脳のイライラを押さえてくれると好評です。 今回は2番目と3番目のテーマについての特集です。 ━━━━━━━━━━━━━━━━━━━━━━━ 1. 対訳コーパスで 日本語を引いてみよう コーポラ・CORPORA が母語引きに対応 ━━━━━━━━━━━━━━━━━━━━━━━ 英語が苦手な人にとって、英語で引くコーパスは 面倒だったりする。つづりも面倒だが、肝心の英単語が思い浮かばなかったりする。そんな初級者に朗報なのが、日本語検索だ。思い浮かんだイメージ(言葉)を日本語で引けばいいからだ。 もっといいこともある。それは「ことばの探検」ができること。 cat と言えばネコのこと。疑うべきもない。 しかし、[ cat ] で検索するのと [ ネコ ] で検索するのとでは結果が違ってくる。 [ cat ] で引かれて出てくるのは cat で表現される英語の文脈。[ ネコ ] では ネコで表現される日本語の文脈。 辞書的には cat=ネコ で 意味的にもほぼ cat≒ネコ なのだが、カーバー領域がずれていたり、表現場面で cat≠ネコ であることも多々見つかる。 AI翻訳ではどうだろう? [ Cat and mouse! ] をAI翻訳の Google も Baidu も [ ネコとネズミ ] と訳した。直訳だ。間違いではない。しかし意味(趣旨)が外れている。比喩にはAIもお手上げのようだ。 対訳コーパスではどうだろう? 対訳コーパス・コーポラで [ 豚 ] や [ ブタ ] を引くともちろん [ pig, hog, swine ] などが出てくるが、他方では [ lion ] や [ elephant ] が出てくるシーンもある。日本語で言えば [ ブタ野郎! ] みたいな文脈だ。対訳コーパスを日本語で引くと、言語の文化的側面が見えてくるのが特徴である。 英語の語彙表現の語感を身につけるには、対訳コーパスの母語引きをお勧めする。 日本語検索の仕方、特徴と限界、検索サイトへのアクセスを こちらの記事に公開した。
言葉の森で遊び始めると、金は電気代しかかからないが、あっという間に時間が過ぎていく。 ━━━━━━━━━━━━━━━━━━━━━━━ 2. 共起フィルタと対訳フィルタで 語感を試そう その英単語で 何を連想するか? ━━━━━━━━━━━━━━━━━━━━━━━ AI翻訳は [ Cat and mouse! ] を [ ネコとネズミ ] と訳したが、対訳コーパス・CORPORA を使うとどんな訳になるだろうか? それ調べるには cat と mouse が同じ文脈で出てくる(共起する)ものを探すことになる。 方法は2通りある。 1. cat * mouse で検索 2. cat で検索した後 共起フィルタで mouse を選択 1. の [ cat * mouse で検索 ] を使うと訳がすぐに見つかる。 Seleaf で 3 件。 TED で 2 件。 訳と利用場面を知るだけであれば こちらが速い。 2. の [ 共起フィルタ ] は 手間が増える。 2.1 まず [ cat ] で検索し 2.2 その結果を受けて、共起フィルタをひらき 2.3 共起語一覧から [ mouse ] を選ぶ 手間をかけると その分だけ情報が増える。たとえば・・・ Seleaf では [ cat ] に共起した語彙のうち動物は [ mouse ] だけだったが TED では [ dog ] も共起していて、しかも 共起頻度は dog の方が 4 倍も多かった。 さらに意味に踏み込むと カバー領域がかなり違うことが見えてくる。会話と講演の違いである。 対訳コーパスでの共起フィルタについては こちらの記事が参考になる。
━━━━━━━━━━━━━━━━━━━━━━━ 3. 今年も言語エキスポ2019で発表 対訳コーパスで AIの深層学習を真似てみる ━━━━━━━━━━━━━━━━━━━━━━━ AIの機械翻訳は実用レベルに達しつつあり、外国人労働者が多数居住する地域の小学校などでの利用も始まっている。AI はまだ [ Cat and mouse! ] を [ ネコとネズミ ] と訳してしまう初級レベルの直訳だが、それはそれで支障のない現場も多いことだし、あと数年もすれば、クリアできる課題である。 AI囲碁が ここ数年で あっという間に人間を凌駕し、今ではトップ棋士がAI囲碁の手を真似する時代になっている。AIの手筋を研究し、AIに学ぶことが プロ棋士として生き残るための必須条件となっている。 そこで、言語習得でも AI翻訳を真似して学ぼうと言うのが、今回の研究テーマである。ただし、AIに翻訳させて、それを実用レベルに校正することではない。 AIの機械翻訳を今日のレベルに進化させた方法に学ぼうと言う趣旨である。AI翻訳進化のプロセスは、言語教育が学ぶべき成功例である。 AIの機械翻訳は、コンピュータとネットが普及してきた20世紀の末から新しい局面に入り、文法ベース、対訳ベースと進み、ここ数年前からはニューロン・ベースに至って、一気にレベルを上げて実用化したとされる。 ニューロン・ベースと言うのは、ヒトの脳の働きを真似たシステムで、深層学習である。既知の規則を使ってプログラムするのではなく、膨大な情報を自ら解析処理させて規則を作らせる方法である。ヒトが乳幼児からの体験で言語運用に至るのと同様である。 さて、文法ベースは我々が中学で学んできたことであり、われわれにはもちろん自前の脳がある。 とすると、残っているのは [ 対訳コーパス・ベース ] 手法である。この教授法=学習法が、これまでの我々の言語教育には欠けていたことになる。 [ 対訳ベースの学習法 ] は、データ駆動型学習(data driven learning; DDL)の発展形で [ parallel-corpus-based DDL; PCB-DDL ] と呼ぶこともできる。
この PCB-DDL(対訳コーパスによるデータ駆動型学習)は、始まったばかりだが、言語エキスポ2019で その到達点を初めて紹介する。 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 名称: 言語教育エキスポ 2019 日時: 2019年 3月 10日(日) 9:00〜17:00 ━━━━━━━ 会場: 早稲田大学 早稲田キャンパス 11 号館 4 F会議室 交通: 地下鉄東西線早稲田駅 徒歩5分 : JR山手線高田馬場駅 徒歩20分 主催: JACET教育問題研究会 申込: takane46@gmail.com (山口) 定員: 300名(先着順) ━━━━━━━ 案内: http://www.waseda.jp/assoc-jacetenedu/expo2019gaiyou.pdf 予稿集: http://www.waseda.jp/assoc-jacetenedu/expo2019.pdf ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 田淵の発表 会場: 409会議室(予定・変更あり) 時間: 11:40-12:10 番号: K19 表題: 日英字幕付き音映像コーパスによる英語ライティング学習 索引: 対訳コーパス,データ駆動型学習,ライティング,AI深層学習,機械翻訳 ━━━━━━━ 予稿: http://www.waseda.jp/assoc-jacetenedu/expo2019.pdf 66-67 ページをひらく: Ctrl+Shift+N で 66 を入力する ━━━━━━━ 要約: ライティングの自律的学習法としてコーパスによるデータ駆動型学習(corpus-based data-driven learning)について発表する。Google 翻訳は手軽だが,場面や文脈に即した表現が欲しい時,分野別コーパスが有力である。今回は,映画とプレゼンによる会話と講演の2種類の日英字幕付き音映像コーパス活用法を提案する。和英辞典用例が音映像付きで大規模になったことにより,多様な場面を見聞きしながら最適な表現を学習可能とする。本研究はAIの深層学習を言語学習に応用するパイロット研究である。 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 毎年のことですが、先生方の熱気で 会場がいっぱいになります。 お早めの申し込みを!! ・・・ 本文は ここまで ・・・ ━━━━━━━━━━━━━━━━━━━━━━ Talkies 最新版の入手と確認方法 ━━━━━━━━━━━━━━━━━━━━━━ ブラウザ(推奨はクロム Google Chrome)で以下のアドレスにアクセスします。 http://www.mintap.com/talkies/talkies.html Mac や iPhone、iPad の場合は Safari でも動きますが、不具合が出ることもあります。そのような時は Google Chrome をお使いください。 * 最新版は バージョン 1.90.215 です。 バージョンの確認は トーキーズの ||| menu ボタンからポップアップするメニューで、「トーキーズについて/バージョン」で表示される小窓にあります。 バージョンが古い(番号が小さい)ときには、トーキーズに再アクセスします。再アクセスするには、(シフトキーを押しながら)アドレスバーのすぐ左(Safari では右)にある「リロード」ボタンをクリックあるいはタップします。 ━━━━━━━━━━━━━━━━━━━━━━ Talkies 利用規約について ━━━━━━━━━━━━━━━━━━━━━━ ご利用の方は、必ず「Talkies の利用規約」をお読みください。よくあるナガナガしいものではなく、A4の裏表ほどに短く簡潔にまとめています。 利用規約は、Talkies の [menu] ボタンからポップアップするメニューで、「トーキーズについて/利用規約」で開きます。 ━━━━━━━━━━━━━━━━━━━━━━ メールマガジン 購読中止の手続き ━━━━━━━━━━━━━━━━━━━━━━ このメールは トーキーズのワークショップに参加された方や、会合などでお話をさせていただいた方に お送りしています。 購読中止をご希望の方は このメールへの返信のタイトルに「購読中止希望」とお書き込みください。 ━━━━━━━━━━━━━━━━━━━━━━ メールマガジン バックナンバーのお知らせ ━━━━━━━━━━━━━━━━━━━━━━ 前号のメルマガは次のページです。 * http://www5b.biglobe.ne.jp/~mint_hs/tmail/talkies_mm_0076.html その他のバックナンバーは次のサイトに公開しています。 http://www5b.biglobe.ne.jp/~mint_hs/tmail/ ━━━━━━━━━━━━━━━━━━━━━━ 編集後記 ━━━━━━━━━━━━━━━━━━━━━━ 耳慣れない言葉はスルーすることも多い。しかし [ シンギュラリティ ] は引っ掛かってしまった。それは人工知能(AI)と絡めて使われていたからだ。英語だけど綴りがわからない。そこでコーポラのTEDコーパスで [ シンギュ ] で引くと似たのが2つ見つかった。singular と Cingular だ。なるほど、一方は語彙の属性のひとつで単数・複数で使っていた singular と plural の単数の方だ。もう一方は携帯電話会社の名前だった。 で、肝心の [ singularity ] なのだが、これはAI専門家の造語(新概念)で [ AIがヒトの知性を超える転換点 ] と言う意味合いだそうだ。正確には [ Technological Singularity ] で [ 技術的特異点 ] と訳される。 [ 特異点 ] と言う用語は、理系の専門家にはなじみの語彙だ。物理で言えばブラックホールのような [ 重力が無限大となる場所 ] を指し、普通の物理法則が通用しない場所とされる。数学で言えば連続的変化が突然破綻して微分不可能となる点を指す。物事の連続的変化しか扱わなかった高校数学から見ると、大学で特異点を学ぶと大人になった気分がしたことを思い出す。 そうした [ singularity=特異点=連続性の破綻点 ] の語感からすると、AIにおけるシンギュラリティは、従来の人間的生活の連続性が失われ、全く異なる異次元に入るという意味合いが強くなる。AIに仕事を奪われる、いや、新しい仕事が増える・・・と言うレベルでないことを示唆する用語として考案されたのだろう。 ところで最近個人的にシンギュラリティを体験した。LET関東支部に申し入れた回答期限が1月だったが、何の応答もなかった。わたしはこれまで「誰も傷つけない解決」を求めてさまざまに努力してきた。しかし、LET関東支部は「何も説明しない」「何の説明も聞かない」と言う態度を示したわけだ。「TEDに訴えられる恐れがある」としながら「なぜ訴えられるのか?」「どこが著作権を侵害しているのか?」について説明はしないことを明らかにしたことになる。また「著作権問題がクリアされた場合は発表できる」としておきながら「クリアされた報告は聞かない」ことをも示したことになる。 大相撲の暴力事件、日大暴力タックル事件、東京医科大の不正入試問題、官僚官庁による偽造文書事件などで再三指摘されたことだが、情報を隠蔽し、権限を持ちながら説明をしない態度は問題を深刻にするだけであることを学んでいないようだ。会員の教育研究を妨害し、切実な訴えに耳を傾けない団体にシンギュラリティは訪れるのだろうか? 困ったことである。 2019年2月17日(日) 亥年 きさらぎ 十七日 巳の刻 田淵 龍二 ■□■□■□■□■□■□■□■□■□■□■□■ □ ■ Spread your idea through TED+Talkies group! □ ■ http://www.mintap.com/talkies/talkies.html □ ■□■□■□■□■□■□■□■□■□■□■□■ | ||||