2018/07/15 さらに充実した論文コーパス NaCSE 3.0
|
自然言語学会(NLP)の 論文誌と予稿集が おかげさまで完結した。
公開時の NaCSE 1 は 予稿集14年分(2004〜20017)で始まり、NaCSE 2 で 論文誌(1994〜20117)を収録し、分厚さを増した。
このとき未収録のままだった予稿集9年分(1995〜2003)の収録が実現し、自然言語学会の公開論文の全体が検索可能となった。
これにより20数年間に及ぶ研究テーマの経年変化の全体像を知ることができるようになった。
NaCSE 2 NaCSE 3
年毎のヒット論文数を表す棒グラフが NaCES 2(左)では空白部分があったが、NaCSE 3 では切れ目なくつながった。
|
もくじ |
- 研究テーマの経年変化を知る
- 研究テーマの経年変化を知る (2) アノテーション
- スキャンから 精読へ (基礎)
- スキャンから 精読へ (応用)
- NLP コーパスについて
|
|
|
研究テーマの経年変化を知る手順
- 入力欄にキーワードを打ち込む
ここでは 『 コーパス 』 とした
- 『 全部 』 ボタンをクリック
これで検索範囲が論文全体に設定される
- 「 検索 」をクリックすると、検索ツールエリアの下に年毎のヒット論文数が表示される(PCの処理速度によっては数分かかることもある)
グラフの上半分が予稿集で、下半分が学会誌。
キーワード 「 コーパス 」 を含む論文数の変動は予稿集に顕著である。
ただ、年毎に論文数の絶対値が増加傾向にあるので、その年の総論文数に占める割合も知っておく必要がある。割合を知るには、グラフのすぐ上にある 「 割合 」 をチェックする。
単語 「 コーパス 」 を含む論文数の年毎割合
グラフの一番下を見ると全体像が分かる。収録論文数 6,050 本のうち、単語 「 コーパス 」 を含む論文は 2,819 本で、全体の 47%と読める。
経年変化は、論文数の絶対値グラフほどではないが、予稿集に占める割合は当初 40%台であったが、近年は 50%台に増えていることがわかった。
注意 > ここでは 『 「 コーパス 」 について深く議論している論文 』 を数えているわけではない。『 単語 「 コーパス 」 を含む論文 』 には、例えば参考資料の論文名に 「 コーパス 」 を含むだけの論文も含まれていることに気を付けたい。
注意 > 人工知能など最近気になる単語だが 「 AI 」 で検索すると、again とか Taiwan など ai を含む単語もヒットするので、具合が悪い。英語の単語検索に対応させることは課題のひとつではある。いずれにせよ、とりあえず漢字の 「 人工知能 」 で検索すると、サインカーブ風の山並みになったので、結構流行があるように見受けられた。
課題 > この年毎比率変化と、特徴語抽出を組み合わせると、時代による研究の流れを知るきっかけになるのではないだろうか。
|
|
いくつか実際に試してみた。
- 「 コーパス 」 で検索した後、「 形態素解析 」 で絞り込んだ
- ヒット率は1〜2割で、目だった経年変化は見られなかった。
-
- 次に絞込みを解除してから 「 アノテーション 」 で絞り込んだ
- 初出が2005年で、2008年ごろから増加の一途であることがわかった。
⇒拡大
-
- ただし、絞込みは 「 コーパス 」 を含む段落で 「 アノテーション 」 も共起しているものだけを取ってきている。「 アノテーション 」 だけで検索するとまた異なった振る舞いになるかもしれない。
-
- なお、いろいろ試して比較したいときは、NaCSE をブラウザ窓(tab)別々に立ち上げるとよい
|
|
論文コーパス NaCSE の設計理念は 『 あるテーマの研究動向を素早くつかむ 』 であり、それを実現する方法のひとつが 『 膨大な論文の スキャンから 精読へ 』 である。
この道はまだ半ばなのだが、スキャンして精読候補を絞り込むツールとして設置してある 『 チェック 』 の機能を強化した。それが 『 スキップボタン 』 である。
- ヒットした論文を流し見て、めぼしを付けた論文にチェックを付ける
- チェックした論文がたまったときに、それらを順に閲覧するために、スキップボタンをクリックする
スキップボタンは画面右下にある
|
|
例えば 「 コーパス 」 で検索すると単年でも150件ほど、全体では3000件近くヒットする。これだけの分量だとスキャンするだけでも大変な作業だ。そこで絞り込む工夫が必要となる。
・ 第二検索語で絞り込んで、キー中央配置する
・ 第二検索語を見つけるには、特徴語抽出を行う
このあたりの手順は ⇒先月の記事(2018/6/21) にアップしている。
- 学術論文検索エンジンの要件
- 検索例 1: コーパスで検索後に 著作権で絞る
- 検索例 2: 特徴語を見つける 【新機能】
- 検索例 3: キー中央配置で共起関係を確認 【新機能】
- 検索例 4: 閲覧する論文をチェックする
今回の新機能(スキップボタン)は、上記手順(チェック)の後に使う。
- 『 あるテーマの研究動向を素早くつかむ 』 『 膨大な論文の スキャンから 精読へ 』 を実現する工夫の提案を歓迎する。
- 連絡先: tabuchiryuji@nifty.ne.jp 田淵龍二
|
|
URL
収録論文(2018年7月現在)
- 会誌 『 自然言語処理 』
- ANLP 公式サイト ⇒こちら
- 創刊(1994)〜 第24号(2017)
- 565 本 .
- 年次大会発表論文(予稿)
- ANLP 公式サイト ⇒こちら
- 第1回(1995)〜 第24回大会(2018)
- 5,485 本 .
- あわせて
検索エンジンの構築と特徴について
- 参考論文
- 『 論文閲覧を支援する試み ― 文脈検索可能な NLP 予稿集コーパス構築 』 (2018 ) ⇒こちら
- 利用案内記事
- 2018/06/21 『 学術論文専用検索サイト NaCSE ナックス 2.2 』 ⇒こちら
- オープンサイト
謝辞
- 長年に及ぶ研究成果をデジタル化することで貴重な資産として公開する言語処理学会の作風と、その作業に携わってこられた関係者の皆様に感謝する。
-
- 公開時に欠落していた2003年以前の予稿集テキストを相澤彰子氏、加藤恒昭氏、菊井玄一郎氏から提供していただいた。お三方は第20回年次大会のオーガナイザーであった。ご苦労とご厚意に感謝する。参照 ⇒こちら
製作著作
- 田淵龍二
- Copyright (c) 2018〜 All rights reserved.
|
..[↑] 6 |
2018.07.15 田淵龍二
|