トップデータだけを集めたデータベースは、一等星しか見えない都会の夜空のよう。けれども特性の悪いデータだって、星のように輝く努力の結晶。そんな満天の星空のようなデータベースが作りたいと思いました。

Starrydata(スタリーデータ)プロジェクトは、過去に出版された膨大な論文から、グラフ画像中の実験データを抜き出すことにより、実験データのオープンデータベースをつくるプロジェクトです。
Starrydata2 webシステムは、実験データを使ったデータ科学を推進するため、無料で世界に公開しているデータシェアリングシステムです。
東京大学の桂ゆかりが発案し、熊谷将也がプログラムを開発しました。Starrydata2を使ってみるには、以下のボタンをクリックして、画面右上の「Sign up」をクリックして自分のアカウントを作ってください。
世の中には数千万本の論文が出版されていて、膨大な実験データが眠っています。
これらの実験データを集めて、機械学習などのデータ科学で解析することにより、研究が効率化する可能性があります。逆に、これらの過去の実験データの存在を無視して、新しい研究者や学生が何度も同じ実験を繰り返すのは、時間と税金の無駄ともいえます。
論文中の実験データの多くはグラフ画像として眠っており、元の数値データへのアクセスは簡単ではありません。そこで、グラフ画像をトレースして元の数値データを抜き出し、単位を揃えて一箇所に保存しておくことにより、実験データの再利用ができます。
数値データ化することで、著作権を全く侵害せず、元論文の引用のみでシェアできるようにもなります。ただしデータ登録の際は、数値データだけでは不十分で、論文の本文を読んで、データの意味(ラベル)を入力する必要があります。
この入力作業の自動化は現在の自然言語処理技術ではまだ難しいため、データ収集者がきちんと論文の本文を読んで書き込む作業が必要です。

Starrydata2における論文データ収集は、純粋なアカデミック研究として非営利で行っております。
このためユーザーから利用料を取ることは一切ございません。Starrydata2 を使って研究を行った場合は、以下の論文を引用してください。論文の引用回数が上昇することが、私達の業績評価につながります。
Y. Katsura, M. Kumagai, T. Kodani, M. Kaneshige, Y. Ando, S. Gunji, Y. Imai, H. Ouchi, K. Tobita, K. Kimura, K. Tsuda, Data-driven analysis of electron relaxation times in PbTe-type thermoelectric materials, Science and Technology of Advanced Materials (STAM) 20 (2019) 511-520.
Starrydata2に集められたデータは、誰がアップロードしたデータであっても、全世界にシェアされます。このため論文からデータを収集・登録してくれるユーザーが増えるほど、データベースの規模が大きくなっていきます。
ユーザーは、自分で作った論文リストに基づいて、それらの論文に紐付けられたデータをまとめてダウンロードできます。Excelで編集しやすい表形式のデータファイルも、それらを補間したグリッド上のデータファイルも、複数の独立な表から構成されたリレーショナル・データベース状のデータファイルもダウンロードできます。
さらにAPIを用いて、プログラムから自動でデータを収集することもできます。これらは全て、機械学習などのデータ科学研究において使いやすい形を追求したデータ出力機能です。
現在のデータ収集作業は研究プロジェクトの一環として、研究費でデータ収集者を雇用して行っています。並行して、クラウドソーシングによって論文1本あたりの報酬を定めて集めております。

私達以外にも、データを使った研究をしたい研究者にStarrydataを活用していただけたら嬉しいです。
データ科学研究を含む大型研究費を申請し、その予算で研究業務員を雇用してデータを収集してもらうことが、データを増やす最も効率的な方法です。
また、企業から寄付金をいただくことにより、その寄付金を使って当方で研究業務員を雇用して、論文データ収集を代行することも可能です。収集したデータはすべて公開されるため、独占利用はできなくなりますが、他社に先駆けて大規模実験データの研究ができるようになります。
元論文のフルテキストを企業で購入するよりも安価に、大規模実験データを得ることができます。

Starrydataのユーザーインターフェースは、手作業によるデータ収集とその利用を効率化するためにさまざまな工夫を凝らしておりますし、論文データ収集のノウハウもございますので、論文データのアップロード先として利用していただければ嬉しいです。
事例:熱電材料データベース
論文からの実験値データベースの例として、熱電材料のデータベースを作ってみました。データ収集対象のグラフは、熱電特性(ゼーベック係数・電気伝導率(電気抵抗率)・熱伝導率・出力因子・性能指数など)の温度依存性のグラフです。いずれのグラフも、熱電材料の論文には標準的に載っているグラフです。

莫大な予算をかけて自動化プログラムを開発しなくても、2〜3人のデータ収集者と、クラウドソーシングによる外注によって、わずか3年で4000本以上の論文から2万個以上の熱電材料試料の熱電特性データを集めることに成功しました。
これは熱電材料の分野において、既存データベースの規模を2桁上回る、世界最大の実験値データベースです。これにより、機械学習による熱電特性予測など、世界最先端のデータ科学研究を行うことができるようになりました。
熱電材料など材料科学の分野では、同じ物質でも製法によって特性が大きく変化するという現象がよく見られます。
今までのデータベースは、その中からトップデータだけを集めたデータベースでした。Starrydataでは、論文中で報告されていた比較用の(特性の悪い)試料も含め、特性に基づく選別なしに登録しました。これにより、データ選定にかかる時間を減らしてデータ量を増やすとともに、データ分布に対する人為的なバイアスを減らすことに成功しました。
下の図は、PbTe系熱電材料のデータを、既存の熱電特性データベース(UCSB Thermoelectric Data)と比較したものです。1点が1つの試料を表しますが、UCSBの試料が高特性の試料(グラフ右下)に偏っているのに対して、Starrydataのデータは幅広く分布していることがわかります。これにより、高特性試料同士の比較だけではわからなかった、材料特性傾向や特徴を見ることができるようになります。

Image from: Y. Katsura, M. Kumagai et al., Sci. Tech. Adv. Mater. 20 (2019) 511-520.
現在、熱電材料以外の機能材料についても、データベース化プロジェクトを順次始めております。
次に取り組むのは、永久磁石材料と強誘電体材料です。Starrydataではこの他にも、いろいろな材料科学分野のデータベースを作りたいと考えておりますが、それには協力者が必要です。
もし自分の研究分野においてデータ収集の希望がある方はご連絡ください。

一緒にStarrydataデータベースを大きくして、論文データのMaterials Informaticsの分野で世界の先駆けになっていきましょう。