
SRIの複数のラボおよび部門を横断するこの共同プロジェクトでは、科学分野の文献レビューに伴う煩雑な作業を軽減するアプリケーションの開発を進めている
ソフトウェアのエンジニアリングチームがコードを作成する手法では、生成AIによる変革がすでに始まっています。まもなく科学分野の研究者たちの日常的な業務にも、こうした変化が訪れるのかもしれません。SRIの新しいプロジェクトでは、科学的な文献のレビューに従事する研究者に対して、知見を迅速に提供できるAIアシスタントの開発を目指しています。
SRIのSARA(Scientific Assistant with Reasoning Ability:推論能力を備えた科学アシスタント)プロジェクトの主任研究員であるYunye Gongが率いるSRIのチームは、市場に広く出回っている大規模言語モデル(LLMs: Large Language Models)に存在する大きなギャップを埋めようとしています。GPT-4のような言語モデルはテキスト情報の処理能力には優れていますが、数学的な推論となると苦戦するのです。
「これはよく知られている課題です」とGongは指摘しています。「私たちが見つけたある失敗の事例では、GPT-4oは9.11が9.8より大きいと考えており、しかもそのことに確信をもっていました」
汎用のLLMsは、解析の方程式や数値テーブルの理解を誤ることが多いため、科学的な論文に関する複雑な質問に対して正確に答えるのはかなり難しいのです。研究者がAIツールを信頼して個々の論文や広範な研究分野で迅速に分析できるようにするには、この課題を解決する必要があります。この課題に対応すべく、GongはSRIの情報・コンピューティングサイエンス部門(Information and Computing Sciences)、先端技術・システム部門(Advanced Technologies and Systems)、および教育部門(Education)の研究者と連携して解決策を模索しました。
AIに科学的推論を教え込む
SARAツールの開発はデータキュレーションから始まりました。科学的な文献に関して研究者が投げかけるであろう、広範かつ複雑な(事実確認から比較分析、報告結果の応用まで多岐にわたる)質問群を収集したのです。このデータセットはツールを設計するにあたり、その検証と妥当性の確認という点で極めて重要なものでした。
「科学者たちが論文をレビューする際は、どのような分析を行いたいのでしょうか?この新ツールを構築するにあたり、私たちはこの問いを真剣に考える必要があるのです」―Yunye Gong
次に、Gongが率いるチームはLLMの科学的な推論を行う能力を向上させるべく、自己反省を自動化することに焦点を当てました。SARAはベースのLLMに対して、ユーザーのクエリ(質問)に対する最初の回答を自ら批評させ、この自己批評に対する反省をもとに最終的な回答を改善させます。この手法だけで、ベースラインであるGPT-4oモデルと比較して、数式と表を理解する精度が9%向上しました。
更に、SARAは厳選した外部ツールや関数を呼び出して応答の精度をさらに向上させることができます。自動コード生成機能は特に有用で、ツール全体の数学的な理解力の向上に寄与しています。SARAツールはその理解をLLMのみに依存していないことから、記載されている方程式や2つの表の定量的比較など、科学的な推論を行う際に必要な基礎的な計算式について分析シミュレーションを行えるよう、Pythonのスクリプトを構築・改良することが可能です。このような計算式は数学的に正しいコンテキスト情報を提供してくれます。また、この手法では、ベースラインのGPT 4oモデルと比較して数学的な推論の精度が14%向上しました。
科学的な研究に使用するツールの検証
もちろん、科学研究に使用するツールは、科学者たちが実際に各自の作業に適していると判断した場合にのみ有用となります。「この新たなツールを構築するにあたり、科学者は論文を査読する際にどのような分析を行いたいのだろうかという課題を慎重に考察する必要があるのです」とGongは指摘します。
幸いなことに、SRIには様々な先端分野を横断して研究する研究者たちが在籍しており、SARAのようなプラットフォームを検証するにあたっては理想的な実験の場となっています。Gongはまず、内部で小規模な実験から始め、その後は材料科学者のグループにこのツールを提供してその効率性や正確性、そして使いやすさを探りました。
SRIの科学者たちは、論文を手作業でレビューするグループ、ベースラインのGPT-4oモデルを用いてレビューするグループ、SARAの支援を受けてレビューするグループという3つのグループに分けられました。そしてSARAツールを使用したグループは、1つの科学的な論文の詳細なレビューに関する時間制限付きのクイズで最高点を獲得したのです。グループのメンバーはどのアシスタントを使用しているかを知らなかったため、この小規模なテストはユーザーの好みに対する初期データも提供してくれました。文献レビューにSARAを使用した研究者の75%が今後の定期利用に関心を示した一方、ベースラインのGPT-4oモデルの継続利用を希望すると回答したのはわずか25%だったのです。
展開を視野に入れて構築する
このような結果はあくまで初期段階のものであり、査読もされていませんが、実世界で研究目的に使用できるほど信頼性の高いツールをSARAチームの技術が提供できる段階に近づきつつあることを示しています。
チームは今年、検索拡張生成(RAG:Retrieval-Augmented Generation外部の知識ベースを活用することで生成AIのハルシネーションを低減する手法としてよく知られている)および不確かさ評価(各回答に対する「信頼度スコア」をユーザーに提供する)という機能を組み込むことに力を注いでいます。
「ベースラインのGPT-4oモデルでは、専門知識がないと、正しい答えを出しているかどうかの判別が難しいです。たとえ完全に間違っていても、自信にたっぷりの口調で答えを返します。信頼度スコアがあれば、研究者はツールの出力をいつ、どこで再確認すべきか、より明確に把握できるようになります」とGongは述べています。
Gongは、このような介入やチームが検討している他の手法によって、ツールの一貫性がさらに向上するとともに、未来の科学者の研究を加速させられるような、新たな機能を見出すことに期待を寄せています。
SRIのAI分野におけるイノベーションについての詳細はこちらをご覧いただくか、またはこちらまでお問い合わせください。



