04-header

以前、コラボリー/Beats! データサイエンス・アドベンチャー杯本選終了、受賞者決定! でも取り上げましたが、2015年3月7日にAll Analytics Championship ~データサイエンス・アドベンチャー杯(以下、アドベンチャー杯)本選が行われ、見事予選を通過した9チームによるプレゼンテーションが行われました。

アドベンチャー杯は実務で統計・データ・言語分析を行う社会人ならびに統計学や情報学・言語処理一般に関心を持つ学生の方々を対象に、分析アイデアおよび分析スキル・得られた成果の優劣を競うコンテストです。主催は(独)科学技術振興機構、後援は経済産業省/文部科学省/データサイエンティスト協会で、弊社は SAS Institute Japan と共にプラチナスポンサーとしてお手伝いしています。

今回、作品名「研究を主導する次世代のリーダーを探る」で見事ジー・サーチ賞を受賞された Terano Lab.(東京工業大学・寺野研究室) の原田泰輔さんに本研究の苦労話や今だから話せる裏話をお伺いいたしました。今回は前編として、受賞した Terano Lab.の発表「研究を主導する次世代リーダーを探る -JST論文データベースからわかること-」を解説します。

当日発表スライドは「研究を主導する次世代リーダーを探る -JST論文データベースからわかること-(SlideShare)」 でご覧いただけます。

次世代のリーダー研究者をデータ解析で探索する!

今回の応募作品「研究を主導する次世代リーダーを探る -JST論文データベースからわかること-」は、昨年開催された第1回データサイエンス・アドベンチャー杯(2014)の応募作品である「論文の共著関係ネットワークの中心性分析」を発展させたものです。

前回は「論文の共著関係」に注目し、工学系分野を対象に共著関係から研究者ネットワークを作成して、そのネットワークについて中心性分析を行うことにより、ハブの役割を果たし、各分野を牽引している研究者(リーダー)を特定していますが、今回は、リーダーと研究資金の関係に着目し、次世代のリーダー(未来にネットワークの中心にいるであろう研究者)を特定しようという試みです。

情報源としてはJST論文データ(現在、JDreamIII としてジー・サーチが提供)と科研費データを使用しています。各論文を第1期(2003-2006)、第2期(2004-2007)・・・第8期(2010-2013)のように発行年をずらして8つの期間に分け、共著者間にリンクを張り、中心性指標により順位付けを行った結果、中心性指標と科研費の獲得率に強い相関があることが分かりました(スライド 6-8)。

どのクラスタから次世代のリーダーが輩出されるのか

続いて異なる時期(第2期と第5期)について、中心性順位でクラスタリングを行い、各クラスタのその後の中心性順位を調査して、現リーダーと言えるクラスタ「D4」と次世代のリーダーが出現する可能性が高いクラスタ「D3」の特定 を行いました(スライド9-11)。

また、第1期と第7期の媒介中心性順位比較による検証の結果、データ解析からみる研究者の特徴「リーダー」「成長」「没落」「底辺」各クラスタを比較しました。

それぞれのクラスタに所属する研究者について、異動(所属機関の変更)、研究分野の変化(共著者の変化)のに注目して特徴の抽出を行った結果、次世代リーダーは所属機関変更直後に大きく順位を伸ばしていることが分かりました(スライド13-14)。

データ解析からみた次世代のリーダー研究者の資質

共著ネットワーク分析により、リーダーの特徴は、1.主要分野を持つ、2.副分野の割合も大きい、 であり、次世代リーダーの特徴は、1.急激に飛躍する期間がある、2.所属変更に成功している、 と結論づけています(スライド19)。

いかがでしたか?「研究資金の獲得状況からみた研究者特性のクラスタリング分析」は、最終選考会の会場でも話題になりました。各クラスタに属する研究者は「個人単位で特定」できるものであり、選考会参加者からは「自社で分析した結果を比較してみたい」などの声があがりました。次世代リーダー研究者の探索においては非常に野心的な取り組みと思います。

後編では、本研究を発表した東京工業大学 原田泰輔さんのインタビュー を掲載しています。

データサイエンス・アドベンチャー杯本選出場作品は以下でご覧いただけます。JSTのデータをもとに、様々なデータを組み合わせた着眼点がおもしろい作品ばかりです。ぜひご覧ください。
第1回データサイエンス・アドベンチャー杯
第2回データサイエンス・アドベンチャー杯