これまでの歩み

構想のきっかけ

論文データ収集プロジェクト「Starrydata」は、2015年に始まりました。きっかけとなったのは、2015年7月に始まった、MI2Iというプロジェクトです。これは、データ科学を使って材料科学を進める新しい研究分野Materials Informatics (MI) を活発化させるため、日本全国の材料科学者や情報科学者を集めて、オールジャパン体制でこの分野を開拓していこうという巨大プロジェクトでした。

東京大学で熱電材料の研究をしていた桂ゆかりは、この初期メンバーとして声をかけていただきました。熱電材料の第一原理計算(電子状態のシミュレーション計算)の研究を行うため、このプロジェクトに呼ばれたのでした。

MI2Iの開始から一週間後、熱電材料に関する国際学会がドイツで開催されました。そこで桂はアメリカのチームの講演を目にしました。第一原理計算で2000物質の熱電特性を計算し、それをデータベースとして無償で公開したという報告でした。

「困ったぞ、もうやることがなくなってしまったではないか・・・」

そこから桂は、MIの分野での次の新しい一手は何かと考え始めました。そして、論文から実験データを集めるという構想を広げ始めました。

論文からの実験データ収集の構想

桂は、次のMIには実験データがカギになると考えました。熱電特性についていくら計算をしても、計算だけでわかることは少なく、実験データとの比較が必要になる場面が多かったのです。ただ、熱電材料の過去の実験データは、論文中のグラフに埋まったままでした。そこで、それらを集めてデータベースにしたら、世界で初めてのMIの研究成果にできるのではないかと思いました。

ただそれは、たくさんの人の協力を借りないといけないプロジェクトでした。今までほとんど1人で研究してきた自分なんかに、そんなことができるんだろうかと思いました。

自分の持っていないものばかり考えてもしょうがない。そこで、今自分の持っているもので、使えるものはなんだろう、と考えました。研究者であるという肩書と、MI2Iのメンバーであるという権利。この2つを使えば格上のすごそうな研究者でも、相談に乗ってもらうことはできそうだと思いました。

それから熱電学会で得てきた信頼。今まで真摯に研究をやってきたので、自分が何か新しい活動をしてもポジティブに受け取ってくれると期待しました。そしてプレゼン技術。対面のトークでは説得が難しくても、プレゼンできる場をつくれれば、多少は人を説得することはできると思いました。最後に今の若手研究者の置かれた状況。「意識の高い研究者が集まって、安心して過ごせる場所」があまりないので、そういうコミュニティを自分が作るようにしたら、優秀な人が集まれる楽しい場が作れるのではないかと思いました。

共同開発者さがし

私の構想は、論文データ収集は完全自動化することは難しいけど、人手で行う作業をアプリで簡単にすることができれば、データ収集は実現するのではないかと考えました。ただ、私の開発能力では限界がありました。そこで、一緒に開発してくれる人を探すことにしました。

まず、情報系の研究者や、材料データベースの研究をやっている研究者を探して質問してみることにしました。勇気を出してメールを書き、アポが取れたら会いに行く。わからないことだらけなので、とにかく会いに行ってしまうことにしました。

いろいろ相談した結果、データベースの作り方や、データベースを研究とすることの難しさを教えていただきました。共同研究としてこのプロジェクトに協力していただける余裕のありそうな方はいなさそうだと思いました。そこで、開発の外注も考えました。ただアプリ開発には数千万円という大金が必要であり、自分が研究費で使っているような年100万円程度の研究費では、ほぼ何もできないということがわかりました。

そうして開発者探しを始めた2か月後、意外に近くでそんな人が見つかりました。先述のドイツの学会で夜中まで語り合った、大阪大学の博士課程2年の熊谷将也さんでした。熱電材料の実験の研究をやりながら、今の材料科学に閉塞感を感じていて、もっと面白いことをやりたいと考えていました。そして、アプリ開発技術を持っていて、IT企業への就職に興味を持っている。そんな学生さんでした。

このため私は熊谷さんをスカウトすることにしました。計24ページの企画書を執筆して、学会で会った時に手渡して、共同研究をしないかと声をかけてみました。熊谷さんは企画書を渡すと黙って考え込み、次の日に「できそうだ」とお返事をくださりました。また、私はローカルのアプリを作ることを考えていましたが、「Webシステムとして作ったほうがいい」というアイディアをいただきました。

日本熱電学会でのデータ収集コミュニティの設立

熱電材料のデータベースを作るため、日本熱電学会の研究者のネットワークを使わせてもらおうと考えました。そこで、学会の会長の河本邦仁先生に、データベースを作りたいという話を相談してみました。熱電学会にワーキンググループ(WG)を作ることを提案していただいたので、10人のアドバイザーの先生を集めて提案書を書き、理事会で「日本熱電学会 熱電特性データベースWG」の設立を許可していただきました。

理事会では、データベースに必要なお金を誰が出すのか、どうやって熱電学会の会員の利益を得るかなどの相談が行われました。たとえば、データベースのライセンス料で維持するという案や、熱電学会の会員だけがアクセスできるようなシステムにするという案です。しかし、データベース化は面倒くささを減らさないと実現しないプロジェクトなので、面倒くさくなる可能性のある仕組みの導入は避けた方が将来のためだと考えました。そこで一番シンプルな「無償・オープン」のデータベースを提案させていただき、運営費は自分で獲得する競争的研究費で賄い、熱電学会からは人のネットワークだけを借りるという形で運営させていただくことにしました。

2015年12月にWGの設立許可が下りたので、プロジェクト紹介のプレゼンを行いました。2016年3月に第一原理計算と抱き合わせにした「計算&データ研究会」という2日間の研究会を開催しました。4月以降は、全国行脚の旅を行いました。大阪(阪大)、つくば(NIMS)、名古屋(豊田工大)、仙台(東北大)、奈良(奈良先端大)、福岡(九工大)などで説明会を開催し、各地の研究者や将来有望な学生さんたちと仲良くなることができました。最終的に49名の方に参加していただくことができ、熱電学会のメンバーの約10%にあたる数の賛同者を得ることができました。

その後このWGメンバーの方たちと、権利関係の問題のディスカッションと、具体的なデータ収集方法の設計を行いました。ただ、私たちが開発した初代Starrydata webシステム(Starrydata1)は、実際に使ってみると問題点が多くありました。その結果、新しいシステム(Starrydata2)を開発しなおすことになってしまい、多くの学生さんも卒業してしまって、直接データ収集をお願いする機会がなくなってしまいました。ただ、ここで多くの方々と意見交換できたことはプロジェクトを進めるにあたってとても有意義で、深く感謝しております。

専属データ収集者による論文データ収集

WGのメンバーと話していてわかったことの1つは、優秀な研究者や学生さんほどこのプロジェクトに興味を持ってくれるが、そのような方は忙しく、データ収集に割く時間は少ないということでした。そこで、専属のデータ収集者に来てもらった方が効率的にデータが集められると思いました。

2016年7月に、NIMSのMI2Iプロジェクトで2人の専属データ収集者さんにプロジェクトに参加していただきました。当時は初代Starrydata webシステムのちょっと使いにくい環境だったので、データ収集はなかなか思うようにいきませんでした。このため、最初の1年は、データ収集に使う論文を集めることに取り組んでいただき、約1年かけて、1万5千本ほどの論文をダウンロードしていただきました。また、私の研究室の学生さんにもデータ収集作業をお願いし、そのデータを使って研究を行ってもらうことにしました。

Starrydata1の仕組みでは、著作権の管理の問題や、データの整理法、作業のワークフローなどいろいろな点で行き詰まっていました。そこで、新しい仕組みでシステムを作り直すことにしました。論文PDFではなく、論文のリンクのみを扱う、Starrydata2 webシステムでした。Starrydata2を使った場合は、作業の途中で行き詰まることも少なくなり、それまでとは違う勢いでデータがたくさん集まるようになりました。

2017年12月には、新たなデータ収集者の安藤有希さんに加入していただき、Starrydataでの本格的なデータ収集を始めていただきました。また、クラウドソーシングシステム経由で、見ず知らずの数名のデータ収集者さんたちにもデータ収集にご協力いただきました。それから2019年度の終わりには、田中敦美さんと坂本吉宏さんにも専属データ収集者として加わっていただき、現在の運営体制になりました。そうして、Starrydataに日々多くのデータが追加されるようになりました。

外部からの評価

Starrydataに関する論文は何度か投稿したのですが、リジェクトされることが続きました。私たちの研究は、Webアプリによって人間の手作業によるデータ収集作業を効率化するというアプローチだったので、研究方法自体に科学的な新規性がなかったためです。新しい全自動データ収集プログラムを開発したわけではなく、新しい材料科学的な発見をしたわけでもなかったので、論文として認めてもらうのは難しい状況だったのではないかと思います。

ようやく1本の論文がアクセプトされたのが、2019年4月でした。Science and Technology of Advanced Materials (STAM)という雑誌に、PbTe系熱電材料について行った、第一原理計算と大規模実験データを合わせて行った解析結果を載せました。その序盤に、Starrydata webシステムについて紹介させていただきました。これによりやっと、Starrydataを使っていただいた方に引用していただける論文を用意することができました。この論文を最初に引用してくれたのは、世界の熱電材料研究の第一人者G. J. Snyder先生でした。

2019年7月には国際熱電学会(ICT2019)で共同開発者の熊谷がポスター発表を行い、優秀ポスター賞を受賞できました。この研究内容は、日本熱電学会(TSJ2019)でも優秀ポスター賞をいただくことができました。プロジェクトリーダーの桂もこのプロジェクトへの企画・貢献を評価され、日本熱電学会の「進歩賞」をいただくことができました。

共同研究・外部資金

Starrydataのデータを使って、さまざまな共同研究プロジェクトが始まりました。韓国KERIとの共同研究では、熱電変換モジュールの効率を厳密に計算してみるために、Starrydataを使った研究が行われています。国内の企業から寄付金をいただいて、その寄付金でデータ収集者を新規採用してデータ収集を行うことも始めました。アメリカで最先端のMIを行うチームとも、共同研究が始まりました

Starrydataプロジェクトの独自性が認められて、競争的研究費を獲得できる機会も増えてきました。2019年4月には、AICE(自動車用内燃機関技術協同組合)のプロジェクト研究として、熱電材料のMaterials Informaticsが採択されました。2019年10月には、桂を研究代表者とした大型共同研究プロジェクト(JST-CREST)が採択されたほか、科学研究費補助金などでもプロジェクトの支援をいただいております。