FAQ

FAQ

よくある質問

Q1. 共同研究費の目安は?

A1.データ収集者をつける場合は、最低でも数百万円が必要になります。

データ収集者の人件費(数百万円)と、NIMSへ支払う間接経費(30%)が必要になります。データ収集者は1名でも無理ではないですが、2名以上いた方がお互いに情報交換できて効率的に仕事を進められます。また当然ですが、チーム人数が多いほど早くデータ収集が進みます。
1年以内の短期契約の場合は派遣職員を雇用します。数年間の長期契約の場合はNIMSでの直接雇用にすることで人件費を節約できます。
桂を含むNIMSの研究者がデータ解析を行う場合は、研究者の稼働時間から計算した研究費を追加でいただきます。この研究費はマネジメント担当者の人件費として使用させていただくことで、担当する研究者の研究以外の業務のサポートとさせていただきます。
より本格的なMI研究や新しいWebシステム開発を依頼したい場合は、専属のポスドク研究員やWebエンジニアを雇用する人件費も含めてください。

Q2. 論文データ収集をStarrydataチームに依頼するメリットは?

A2.MI用の大規模論文データを安価に入手できることです。

Starrydataは、営利目的ではなく学術的な目的のオープンデータベースプロジェクトです。人件費のサポートは必要ですが、集めたデータは世界の研究者のために公開するため、データ元の論文を購入するための費用を個別の企業が支払う必要はありません。図表キャプションの直接検索によるデータ収集対象論文の選定など、5年間の論文データ収集経験から得た効率的なデータ収集ノウハウも有しています。

Q3. 自動データ収集の方が安く上がるのでは?

A3.自動データ収集の方が高くつきます。

「人手による論文データ収集にそんなにお金がかかるなら、AIで自動化した方が安そうだ」と考える方も多いと思います。しかし、それは余計にお金のかかってしまう方法だと考えています。
まず、現在の自動データ収集技術は発展途上で間違いが多いです。近年の自動翻訳AIの活躍を見て、自動データ収集技術にも高い性能を期待してしまう方が多いのですが、翻訳と意味理解は別技術であり、意味理解については残念ながら実用レベルに達しておりません。間違いが多いと、そのままでは研究に使えないので、専門知識を持った人が論文を読んでデータを確認することが必要になります。つまり、結局人手が必要になるのです。
次に、自動データ収集システムの開発に膨大な人件費がかかります。開発には高いスキルを持つエンジニアが必要ですので、数千万円の人件費または委託費が必要となります。複数年の開発期間も必要なうえに、そのシステムが成功するかどうかも未知数なので、その期間に手でコツコツデータを集めた方が確実だというのが桂の考えです。
さらに、論文PDFを一括取得する追加費用が必要です。研究機関では論文PDFの一括ダウンロードが禁じられているためです。NIMSで一括購入している論文XMLファイルは、テキスト・データマイニング用に集合的に利用することはできますが、個別の論文から直接データを取り出してデータベースを作成することは許されていません。論文を一括購入するには、1本あたり3000円〜5000円という高額な費用も取られてしまうので、人件費以外の出費が多くなってしまいます。

Q4. 論文データを自社で独占使用できますか?

A4.お断りさせていただいております。

共同研究で集めた論文データを自社で独占したいというのは、企業との共同研究で非常によく聞かれる質問です。
確かに、お金を出していない競合他社にデータを使われてしまうのは困るという考えは理解できます。けれども研究機関で無料で読める論文は、研究目的での利用が前提なので、営利目的の利用に独占的に提供してしまうと、ライセンス契約違反となる恐れがあります。
Starrydataチームとしては、1企業のみしかアクセスできないデータは作りたくありません。それは、その企業でプロジェクトが終了して、そのデータが使われなくなった際に、データ収集者の膨大な努力がお蔵入りしてしまうからです。また、今後別の研究チームがその論文のデータを使いたくなった際に、もう一度同じデータを集め直さないといけなくなるのは大変です。よって、オープンデータ化を了承していただける企業様のみと、共同研究をさせていただいております。
オープンデータにすることは、企業のご担当者にも大きなメリットがあります。公知のデータであるにもかかわらず、安易な理由で社外秘データにしてしまうと、外部の人にデータを見せるたびに社内で許可を取らないといけなくなります。外部のデータ科学者に相談したり、学会発表や論文執筆に使うたびにデータ持ち出し許可を得るのは大変だと思います。それならば研究開始時にオープンデータとして会社から許可を得ておいたほうが、以後の研究開発がスムーズになります。
Starrydataの論文データはMI用の外部公開可能なサンプルデータとして扱うことで、MIプログラムの研究開発にお役立てください。そして高性能なMIプログラムが完成したら、社内に蓄積されてきた膨大な社外秘実験データをStarrydataと同じデータフォーマットでまとめることで、そのMIプログラムを適用してください。これによって他社にはない独自のMIプログラムが完成し、材料開発に役立てることができます。

Q6. 無償で共同研究はできますか?

A6.データ利用だけなら共同研究は不要です。
また、自分で手を動かしていただける方のいらっしゃる共同研究であれば無償でできます。

Starrydataのデータを使用して研究開発を行うだけなら、Starrydataチームへのコンタクトは不要です。成果発表の際に、Starrydataの論文を引用していただくだけで結構です。
Starrydataチームからのアドバイスが欲しい場合も、自分でデータ解析やMIができる方、もしくはインターネットで調べながら自分で学習できる方がいる場合は、共同研究費用は不要です。論文や学会発表の共著者に加えていただけたら幸いです。
Starrydataに新しく論文データを追加する場合も、データ収集者を手配していただけるなら人件費は不要です。ただし、データ収集は片手間では務まらない大変な仕事なので、別業務に従事する社員や学生ではなく、必ず専属のデータ収集者を手配してください。

Q7. 技術指導はできますか?

A7.初心者向けの講習会を開催することはできます。

機械学習やMIの考え方を知らない初心者の方向けに、直観的な図や事例を盛り込んだ1時間程度のセミナーを行うことはできます。またPythonスクリプトを書いてMIを行うための、自習用の書籍やWebサイト、Web上の無料の学習教材やレビュー論文をまとめて紹介するセミナーを行うこともできます。
これらの講習会は学会やシンポジウムなどの招待講演、もしくは企業様向けの有償セミナーとして開催できます。

Q8. 共同研究の具体的な進め方を教えてください。

A8.新しいデータ収集プロジェクトを始める手順を別記事にまとめる予定ですので、
そちらをご参照ください。

Starrydata
Copyright © Starrydata. All rights reserved.