ミント音声教育研究所
ホーム

ミント アプリ
ケーションズ

ホーム

映画映像シーン検索サイト
セリーフ

字幕付き動画再生サイト
トーキーズ

Googleでサイト内を検索
    
ミント名作劇場
日本の昔話
朗読絵本

「竹取物語」

群馬の昔話
朗読絵本

「猿地蔵」」

日本の名作
朗読
芥川龍之介

「トロッコ」

英語朗読絵本
マザーグース Mother Goose

映画
オズの魔法使い

歌「オーバーザレインボー」

映画
カサブランカ

シーン「君の瞳に乾杯」

英語で折り紙 Origami
折鶴 つる crane

ベクターライブラリ
公開作品一覧
英語作品
朗読絵本
ふしぎの国のアリス

第1巻

聞き取りドリル
オバマ大統領 就任演説

聞き取りドリル
オバマ ノーベル平和賞演説

語学ソフト
ミングル
リーダビリティ計測ソフト

ワーズピッカー
英単語拾い2

ゲーム
朗詠・百人一首
読み上げ&ゲーム

数独ナンプレゲーム
東海道五十三次
詰独 一人旅

数独ナンプレゲーム
富嶽36景 富士登山
詰独 次の一手

ユーティリティ
書き起こしソフト
ゆ〜ゆ バリュー

書き起こしソフト
ゆ〜ゆ ライト

書き起こしソフト
ゆ〜ゆ ビジネス

書き起こしソフト
ゆ〜ゆ アカデミー


2018/03/12-16 言語処理学会第24回年次大会(NLP2018)


━━━━━━━
時所: 2018年3月12日(月)〜16日(金)
会場: 岡山コンベンションセンター(ママカリフォーラム)
主催: 言語処理学会(NLP)
━━━━━━━

会場入り口に張り出された歓迎ポスター(左下)
背景は後楽園と桃太郎の銅像

もくじ
  1. 大会の様子
  2. 筆者が参加した企画
  3. 言語処理学会の今とこれから
  4. 筆者の発表資料と質疑応答

..[↓] 1
 1 大会の様子もどる
もくじへ

言語処理学会に参加して、その圧倒的な質量に驚かされた。

数字を見るだけですごく人気のある学会だとわかる。

   
数字で見る年次大会
   
大会期間 - 5日(月〜金)
大会参加者 - 963人
うち事前申込 773人
当日参加 190人
懇親会参加者 - 385人
スポンサー - Google、Yahoo、Docomoなど 56社
一般発表 - 332本
うちうちポスター 156本
発表予稿著者 - 716人
   
主な施設   
大ホール - 250〜360人×4ホール
大会議室 - 100人×3室



 大会期間 5日(月〜金)

初日と最終日を除く中3日間に、口頭発表が166本、ポスターが156本と過密スケジュールだ。そのため、口頭発表はひとり20分と短かった。しかも、朝9時から夕方7時までぎっしり詰っている。

初日と最終日は少し閑散かと思っていたが、まったく違った。初日の午前中から会場は満杯。しかも若手の企画とあって、学部生から博士課程程度までの若者が大勢詰め掛けていた。ひとつの会場には入りきらないので、主会場と同規模の副会場にモニターを設置するほどであった。

最終日はワークショップと銘打った企画で、私が参加した「形態素解析の今とこれから」には、第一線で解析ツールを開発してきたプログラマ達がずらりと並んで講演した。終わると次は、解析ツールを利用した研究やサービスを提供する企業担当者や若手研究者が加わってシンポへと、朝9時半から夕方の5時すぎまで、熱気があふれっぱなしだった。

プログラムはこちら ⇒http://www.anlp.jp/nlp2018/program.html


 スポンサー  Google、Yahoo、Docomoなど 56社

主なスポンサー

発表内容やスポンサーを見るだけで、電子通信技術応用で先端を行く学会であることがわかる。

参加者やスポンサーの増大には主催者も驚いていた。形態素解析やコーパス構築など、専門性の強い学会なので、少数精鋭の地味な学会であったそうだが、近年の人工知能やビッグデータ分析ブームに押されて人気が出てきたことや、若手専門技術者不足に対する業界の動きなどに押されているようであった。こうした動向はスポンサー数の増大に鮮明だ。

2018  56社 ****************************
2017  49社 ************************
2016  38社 *******************
2015  30社 ***************
2014  26社 *************
2013  18社 *********

この5年で3倍増、伸び率にして年25%だ。

スポンサーの多くは、文字言語を媒体としたサービスをしていて、さらに音声言語との融合(音声認識や対話)を牽引しつつある企業であることがわかる。

スポンサーが多いと、いいことも多い。大会会場には休憩所や給水ポイントが4箇所ほど設置され、コーヒーやお茶菓子が常備されていた。疲れた身体と発熱寸前の脳を休ませることができた。


 大会参加者   963人
  うち事前申込   773人
  当日参加     190人
 一般発表    332本

事前申込者が 773人で、一般発表の予稿論文著者が 716人であることから、ほとんどすべての参加者が同時に発表者であることも特徴だろう。何かを創り出すことに携わっている人たちで構成されている学会であることが見て取れた。

このことはポスター発表にも反映されていた。ポスター発表は1回に付き1時間20分の時間帯で4回分も確保されていたが、どのポスターにも人だかりができ、質疑応答が絶えない風だった。

一人でいくつもの発表に名を連ねる研究者も多い。私が構築した予稿集コーパスで調べてみると乾健太郎(東北大/理研AIP)氏は実に22本で共同発表者となっていた。

一人で3本以上の発表に関わっている研究者を数えたところ84人もいた。5本以上でも28人、10本以上は4人。研究熱心な専門家集団であることがよくわかった。
..[↑][↓] 2
 2 筆者が参加した企画もどる
もくじへ

以下は筆者が5日間で見聞した企画一覧である。

12日
1若手チュートリアル企画:学生向けキャリアビジョン講座
2ゼロから始める深層強化学習 / 前田新一,藤田康博(プリファードネットワークス)
3自然言語で書かれた数学問題を計算機で解く / 松崎拓也(名古屋大学)
4スポンサーイブニング

赤字は筆者の発表
13日
5非流ちょうな音声言語の規則性をさぐる / 定延利之(京都大学教授)
6E2-1 会話とスピーチの映像による日英対訳コーパス構築 ― 自律学習を促す適応学年レベルのあるコンコーダンス / ○田淵龍二 (ミント音声教育研究所)
Seleaf と TED を実装した対訳コーパス CORPORA の説明をする田淵と発表会場の様子(下)
7E2-2 クラウドソーシングを用いた語彙テスト結果データセット作成 / ○江原遥 (産総研)
8E2-3 コーパスを教育利用するための要件としての適応学年指標 ― 文法コーパスとTEDコーパス構築 / ○田淵龍二 (ミント音声教育研究所)
9E2-4 日本語文型同定システムにおける曖昧性解消とその評価 / ○Myroshnyk Roman, 加藤恒昭 (東大)
10E2-5 小論文自動採点データ構築と理解力および妥当性評価手法の構築 / 大野雅幸, 泉仁宏太, ○竹内孔一, 小畑友也, 田口雅弘, 稲田佳彦, 飯塚誠也, 阿保達彦, 上田均 (岡山大)
11E3-1 高校英語教科書のCEFRレベル―CEFR-J Wordlistに基づいた語彙の数量的分析― / ○畔元里沙子, 内田諭 (九大)
12E3-2 英語教育支援のための複単語表現平易化手法の検討 / ○芦原和樹, 高田祥平, 荒瀬由紀 (阪大), 内田諭 (九大)
13E3-3 品詞解析の学習者英語への分野適応 / ○永田亮 (甲南大/さきがけ), 水本智也 (理研AIP), 菊池悠太 (PFN), 川崎義史 (東大), 船越孝太郎 (京大)
14E3-4 Identifying Current Issues in Short Answer Grading / ○Tianqi Wang (東北大/理研AIP), Tomoya Mizumoto (理研AIP), Naoya Inoue, Kentaro Inui (東北大/理研AIP)
15E3-5 媒介言語による表現を伴わせて句構造を表示した表現使用例の検索を手掛かりに読解と作文を行なわせる第二言語学習支援 / ○中村宏 (一橋大), 掛川淳一 (兵教大), 伊藤紘二 (東京理科大)

14日
16C4-1 論文閲覧を支援する試み ― 文脈検索可能な NLP 予稿集コーパス構築 / ○田淵龍二 (ミント音声教育研究所)
コーパスと著作権について説明をする田淵
17C4-2 複言語パラレルコーパスを用いた仏英語比較研究 -仏語lorsque (when)節における文体的倒置に対応する英語表現を中心に- / ○谷口永里子 (京大), 高橋真理子 (関西学院大)
18C4-3 プログラミングコンテスト問題からのプログラム生成用データセットの作成 / Panyam Chandrasekarasastry Nagesh (メルボルン大), ○江原遥 (産総研), 徳永拓之 (スマートニュース), 鶴岡慶雅 (東大), 高村大也 (産総研), 小田悠介 (NICT/NAIST), 渡部有隆 (会津大)
19C4-4 WORD GINI: 語の使用の偏りを捉える指標の提案とその応用 / ○村山太一, 若宮翔子, 荒牧英治 (NAIST)
20C4-5 読解による解答可能性を付与した質問応答データセットの構築 / ○鈴木正敏, 松田耕史 (東北大), 岡崎直観 (東工大), 乾健太郎 (東北大/理研AIP)
21C4-6 クラウドソーシングによる日本語FrameNetと自動構築した格フレームとの対応付け / ○河原大輔 (京大/理研AIP), 小原京子 (慶應大/理研AIP), 関根聡 (理研AIP), 乾健太郎 (東北大/理研AIP)
22自然言語処理の歩みとこれから / 辻井潤一 (産総研人工知能研究センター長),河原達也 (京都大学教授),飯田 仁 (東京工科大学名誉教授)
23C5-1 実世界におけるインタラクティブな物体指示 / 羽鳥潤, 菊池悠太, ○小林颯介, 高橋城志, 坪井祐太, 海野裕也, Wilson Ko, Jethro Tan (PFN)
24C5-2 Automatic Flick Keyboard Error Correction Based on GMM-LR-LM Gang Qiao, Yihua Huang, Yabo Li, / ○Jianmin Wu, Tianhuang Su (Baidu)
25C5-3 フレーズ知識補完と生成の同時学習 / ○斉藤いつみ, 西田京介, 浅野久子, 富田準二 (NTT)
26C5-4 自然言語処理における解釈可能な敵対的摂動の学習 / ○佐藤元紀 (NAIST), 鈴木潤 (NTT), 進藤裕之, 松本裕治 (NAIST)
27懇親会

15日
28P10-1 係り受け関係を用いた短単位の単語ベクトルから長単位の単語ベクトルの合成 / ○清藤拓実, 古宮嘉那子, 佐々木稔, 新納浩幸 (茨大)
29P10-2 文献情報の多様な要素を考慮したベクトル表現獲得 / ○米田拓真, 三輪誠, 佐々木裕 (豊田工大)
30P10-3 UD Japanese BCCWJ: 現代日本語書き言葉均衡コーパスのUniversal Dependencies / ○大村舞, 浅原正幸 (国語研)
31P10-10 クエリ中の単語の語義絞り込みによる動画検索精度の向上 / ○平川幸司, 菊池康太郎 (早大), 植木一也 (明星大), 林良彦, 小林哲則 (早大)
32P11-1 機械学習による単語概念の意味属性推定 / ○長谷川美夏, 小林哲則, 林良彦 (早大)
33P11-7 日英対訳絵本の語彙から見た日本語フレームネットの評価 / 小原京子 (慶應大/理研AIP), ○大久保佳子 (JSA)
34P12-4 児童による作文の修辞ユニット分析における中核要素認定 / ○田中弥生 (東大), 浅原正幸 (国語研)
35D6-1 直接分類型日本語ニューラル構文解析 / ○金山博, 村岡雅康 (日本IBM), 小比田涼介 (NAIST)
36D6-2 制限付き疑似ベイジアンネットを用いた組合わせ範疇文法パーザ / ○高橋直人, 一杉裕志 (産総研)
37D6-3 手続きの生成モデルの文法抽出の枠組みによる学習 / ○吉成未菜里 (東北大), 横井祥, 乾健太郎 (東北大/理研)
38D6-4 大学受験レベルの英文法解説ツール / ○山岡幸高 (九大)
39理論言語学と自然言語処理と 戸次大介(お茶の水女子大学准教授)
40A7-1 分子構造を用いた文書からの薬物相互作用抽出 / ○浅田真生, 三輪誠, 佐々木裕 (豊田工大)
41A7-2 自然言語処理とLinked Dataを用いた化学物質情報の可視化 / ○田中一成, 岩倉友哉, 小柳佑介, 池田紀子 (富士通), 進藤裕之, 松本裕治 (NAIST)
42A7-3 リンク先決定における特徴の抽象性を利用したwikificationの精度向上 / ○村上凌悠, 綱川隆司, 西田昌史, 西村雅史 (静大)
43A7-4 関連記事判定のためのニュース記事キーフレーズ抽出 / ○大倉俊平, 小野真吾 (ヤフー)
44論文賞受賞講演
45クロージング

16日
46形態素解析システム JUMAN++ / 河原大輔, Arseny Tolmachev (京都大学 大学院情報学研究科)
47汎用形態素解析システムMeCab / 工藤拓 (グーグル合同会社)
48日本語の単語分割・品詞推定 あるいは KyTea の話 / 森 信介 (京都大学学術情報メディアセンター)
49製品利用可能な形態素解析器 Sudachi / 高岡一馬 (株式会社ワークスアプリケーションズ)
50電子化辞書UniDicを中心に見たリレーショナル・データベースによる統合的言語資源管理環境 / 岡照晃 中村壮範(国立国語研究所 コーパス開発センター)
51単語分かち書き用辞書生成システム NEologd の現状と今後 / 佐藤敏紀(LINE株式会社)
52形態素解析辞書で曖昧性解消に挑む / 坂本美保 (株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所)
53漢文、やらないか? / 安岡孝一 (京都大学人文科学研究所附属東アジア人文情報学研究センター)
54形態素解析が日本語教育に与えたインパクト / 岩田一成 (聖心女子大学)
55検索サービスにSudachiを適用して運用コストを削減した話 / 佐々木 峻 (Acroquest Techonology株式会社)
56ライトニングトーク
57パネルディスカッション

論文賞受賞講演やライトニングトークにはそぞれぞ4名、6名とおられるが、割愛させてもらった。

筆者が5日間で聴講した講演は長短合わせて 35人、一般発表(20分) 34本、ポスター 10本。月曜から金曜まで毎日朝から日暮れまでテーブルについて人の話を聞き続ける生活は、大学はもちろん高校でも経験したことがないほどのハードなものだった。しかし、聴講できた発表は全体の2割に過ぎず、残念だった。

企業など大学以外の発表が多かったように思う。目だった所を数えてみた。
理研   34件
産総研  16件
NTT   15件
Yahoo  8件
国語研 7件

これら5団体で80件、一般発表の4分の1を占めていた。
..[↑][↓] 3
 3 言語処理学会の今とこれからもどる
もくじへ

言語処理学会は、転換点を迎えているようであった。

その様子をデータで追って見よう。

言語処理学会のキーワードは コーパスと形態素

ここ15年間の予稿集を検索すると、コーパスに言及する論文は48%、形態素は37%であった。その割合がほとんど変化していないことに注目したい。コーパスと形態素抜きに言語処理は語れないとも言えそうである。

コーパスに言及する発表は毎年半数程度ある
NLP予稿集コーパス NaCSE

毎年3分の1発表が形態素に言及している


大会5日目のワークショップのテーマが「形態素解析の今とこれから」であり、そこに日本で有数の形態素解析ツールの製作者と利用者が集まったことに見られるとおり、形態素解析はコンピュータによる機械処理が前提である。

ところが、少々意外なことがわかってきた。次のデータを見てみよう。

これは、発表でクラウドソーシングに言及している件数の推移図である。まだ2%程度だが近年確実に増えてきている。

クラウドソーシングが次第に増えてきている

聞きなれない言葉だと思うが、クラウドソーシングはウェブでの仕事を外注することである。具体的中身は現場で異なるが、形態素解析やコーパスで使う語句表現の妥当性や普及度合いを調べるためのアンケートで、対象は一般人である。

次にアノテーションを検索した。

アノテーションはどんどん増えて2割近くになってきた

アノテーションは英語の annotate そのもので、コーパス(辞書)や形態素に言葉の意味を書き添える作業(説明書き)を指している。調べてみると、すべて人手で行っている。

クラウドソーシングやアノテーションから見えてくることは次の2つ。
1. 機械解析処理後の要素(形態素や語句)への意味付与が重要になってきた。
2. 抽出した語句を機械処理するためには、人による意味注釈が欠かせなくなってきた。

論文を読むと、クラウドソーシングやアノテーションへの人的予算が増大しつつあり、負担となってきているようだった。

こうした動向からは、機械処理で発展してきた言語処理分野が「意味」の部分で「」による人海戦術に頼らざるを得なくなっていることがわかる。

これが第一の転換点(内因=壁)である。

第二の転換点(外因)は、AI(人工頭脳)である。ニューロンネットワークによる深層学習は、形態素解析を必要としなくなる方向で進んでいる。

しかし、実際には人工知能もこれから正念場を迎えることになる。しっかりした成果を出すためには優良なデータを大量に必要とすることから、当面は、分野を限った領域での運用が続くと考えられており、ただちにすべてが代替わりするわけでもないようだ。

このあたりのことは今回の学会でも取り上げられていたが、専門的になるので別の機会に譲ることにする。

ただ、ある大手情報通信会社の担当者と話をすると、東京オリンピックごろまでには外国旅行者と手軽に会話できるシステムが実用化することは確実だとのことだった。この流れが加速すれば、英語教育現場に大きな影響を与えることは間違いないだろう。何でも良いから英語をしていれば言い訳ではないことが一層明白になるからである。
..[↑][↓] 4
 4 筆者の発表資料と質疑応答もどる
もくじへ

田淵龍二(ミント音声教育研究所)の予稿とプレゼン原稿、そして会場での質疑を紹介する。


E2-1
会話とスピーチの映像による日英対訳コーパス構築
― 自律学習を促す適応学年レベルのあるコンコーダンス
2018/3/13 15:10-15:30
ハンドアウト: ⇒nlp2018_e2-1h.pdf

Q:単語を間に挟んだような、複雑な検索ができますか?
A:はい、できます。検索ボタンの横にある?マークから検索方法の案内が閲覧できます。見出し語検索を行うとともに、一般的な正規表現に対応しています。
Q:単語の挿入のような、たとえば the more ・・・ the more のように、間に複数の単語がいくつも入るような表現の検索はできますか?
A:はい、できます。やってみましょう。「the more * the more」で検索してます。2件ヒットしました。アスタリクス(*)で任意の単語数が検索できます。
  拡大
  検索語は赤、青字が挟まれた語
  
Q:映画もTEDもスピーキングがかなり速いので、速度調整はできますか?
A:はい、できます。ウェブ・プレーヤーである Talkies の機能で±40% 程度まで5段階の変速ができます。
 
  プレーヤーの右下に速度調整ボタン rate がある
  
Q:映画やTEDで、中学レベルなどがあるのに驚いたのですが?
A:スピーチ全体としては高校レベルであったとしても、チャンク(字幕)単位で見れば、文レベルや語彙レベルが中学生でも対応可能なものがあると言うことです。
 
  左端のアイコンが、文レベル(左)や語彙レベルを示す
  Here we go for another spin. The more you play, the more you win.
  中学レベルの語彙と、短くて平易な文構造である

E2-3
コーパスを教育利用するための要件としての適応学年指標
― 文法コーパスとTEDコーパス構築
2018/3/13 15:50-16:10
ハンドアウト: ⇒nlp2018_e2-3h.pdf

Q:語彙レベルの公式がありましたが、JACET8000 との相関とか関係はどうなっていますか?
A:JACET8000 は欧米英語圏の頻度表を元にしており、それらに接する機会の少ない日本の学習者には不向きなので使っていません。中高の教科書をベースにした方が適していると言う結果が出ています。
  
Q:JACET8000 は日本の学習者用に作られたとされていますが?
A:そのように書籍には記載されていて、改訂を重ねていることも承知していますが、実際には、いろいろ問題点が指摘されていることもご存知のとおりです。
  
Q:リーダビリティ公式はネイティブにも、非ネイティブにも有効なのか?
A:日本で英語を学習してきた人にだけ対応しています。ただ、同じ原理で作成した英語母語話者向けの公式は、フレッシュ・キンケイド公式とは0.97を超える相関を示しています。つまりフレッシュ・キンケイド公式の原理と同等の原理で作成した公式であると言えます。
  参考文献: 音韻符号化の予測時間に基づく日本人英語学習者向けリーダビリティ公式の開発 ⇒let201406_rb.pdf
  
Q:(ここで JACET8000 の改訂に関わった筆者の一人が 挙手して)JACET8000 も日本の教科書を参考に改訂版を出している(と持論を述べた)

C4-1
論文閲覧を支援する試み
― 文脈検索可能な NLP 予稿集コーパス構築
2018/3/14 10:30-10:50
ハンドアウト: ⇒nlp2018_c4-1h.pdf
NLP予稿集コーパス: ⇒http://www.mintap.com/nacse/nacse.html

Q:本文検索の結果に参考文献が入っていますが、工夫すると区別できないでしょうか?
A:参考文献の先頭は各括弧に数字が入っている定形なので分離はしやすいのですが、すべてがそうなっているわけでもないので、どうしようかと決めかねているところです。もう少し調べて、分離できるようにして見ます。
  
Q:発表のコーパスは年次大会の予稿集を対象にしてますが、他の論文、たとえばNLPの機関誌論文などでも検索できるようになりますか?
A:はい、できます。ただ、著作権への配慮も必要ですので、様子を見ながらすすめているところです。公開情報に対してリンクを張るというサービス、つまり、グーグルなどと同じ検索エンジンなので問題はないと考えています。今回の年次大会で口頭発表として採用していただいたので、このコーパスがNLPに受け入れられたと思います。ただ、大会予稿と機関誌論文では多少性質が異なることもあって、一言挨拶してからと思っていました。
Q:個人的見解ですけど、引用元を明示していればよいので、敢えて相手に断る必要もないかと思います。
A:ありがとうございます。わたしもそのように思っていますが、慎重に進めています。
..[↑] 5
2018.03.21 田淵龍二