LLMリスクの全容を分析

Code reflected in a man's eyeglasses

SRIとブラジルのInstituto Eldoradoが発表した新たな論文は、大規模言語モデルのセキュリティリスクに関する包括的な最新情報を提供している


SRIのAdvanced Computer ScientistであるBriland Hitajは、「AIのセキュリティリスクに関する新しいプレプリント論文(研究論文の暫定版)が、ほぼ毎日私の受信トレイに届きます」と述べています。

これは、一見すると良いことのように見えるかもしれませんが、良くない面もあります。AIセキュリティの研究に携わる研究者にとって、情報過多に陥る危険性は極めて切実なことです。そして、これは研究者だけの問題ではなく、組織や政府の情報セキュリティチームも同じような問題を抱えています。セキュリティの専門家たちは、新たな脅威に関する最新の情報と、そのような脅威をいかに阻止し封じ込めるかについてのデータに基づく最新分析の両方を研究界に求めています。情報が混沌としていると、それだけで困難さが増すのです。

この情報過多の状況に対応すべく、SRIとブラジルのInstituto Eldorado(エルドラド研究所)の研究者たちは、現在の大規模言語モデル(LLMs: Large Language Models)を取り巻くあらゆる潜在的なサイバーリスクについての包括的な分析を、世界中のサイバーセキュリティコミュニティに提供できるような論文を共同で執筆することにしました。

「私たちは、この膨大なノイズの中から本質を見極めたかったのです」とHitajは述べています。

その結果として、LLM関連のワークフローを保護するにあたり研究者やサイバーセキュリティチームが考慮しなければならない25超の特徴的な脅威を分析した論文が、時宜を得て発表されました。

LLMのリスクに関する現状

LLMsを取り巻くリスクの現状を把握するにあたり、SRIとInstituto Eldoradoは関連するリスクを取り扱った1,000本超の論文を1年以上かけて精査し、最終的に、リスクに関する学術論文として最高水準のものを約300本選出しました。

Instituto EldoradoのVitor Hugo Galhardo Moia研究員は次のように述べています。「我々は極めて深く掘り下げました。トレーニングからデプロイまで(training-to-deployment)のパイプライン全体を精査したのです。このパイプラインのあらゆる要素に対する攻撃や脅威を特定して理解し、それらがLLMのさまざまなユースケースにどのような影響を与えるかを把握したいと思っていました」

「LLMsは自然言語インターフェースを提供しているため、適切なプロンプトを使うことでネットワーク内の高度で複雑かつ機密性の高いシステムへの『裏口: back door』となり得るのです」―Briland Hitaj

これは、大規模言語モデルそのものだけでなく、それ以外の要素も検討する必要があることを意味しました。研究者たちは、LLMsの出力に悪影響を及ぼす可能性のある、様々なソフトウェアアプリケーションやデータ保存方法、そして人間の行動を検討しました。これらの脅威は、データポイズニングや様々な種類の「脱獄(ジェイルブレイク)」から、「時間のかかる処理」や「トークンの浪費」といった戦略まで多岐にわたります。これらは必ずしもモデルの出力に影響を及ぼすわけではないのですが、システムに負荷をかけてパフォーマンスの低下やエネルギー消費の非効率性、更にはサービスの完全な停止さえも引き起こす可能性があるのです。

そこで、研究チームは25を超える脅威ベクトルを特定し、各ベクトルに対してリスクスコアを総合的に算出しました。また、このチームは50種類近くの緩和策を文書化し、攻撃の戦略とこれに対応する緩和策をマッピングしたのです。

この論文がAIセキュリティにいかに貢献できるのか

SRIとInstituto Eldoradoの研究者たちは、この論文は単なる学術的な取り組みを超えたものであると捉えています。この論文の目的は、AIに関するリスクについて、最も適した論文を見つけるにあたり、何らかの指針を必要としているセキュリティの実務者のために、実用的なリソースを作成することでした。論文の著者らは、このような実務に携わる人々が、質の高い研究を反映しているかどうかも定かではないような研究論文に、日々圧倒されているとみています。

SRIのSenior Technical DirectorであるUlf Lindqvistは次のように述べています。「私たちが大きく寄与したことの1つは、現時点で入手可能な最高水準の研究を厳選することに、意識的に取り組んでいることです。AIセキュリティやAIレッドチーミング(AI red-teaming)の取り組みを強化したいのであれば、どこから始め、何を読むべきかがわかるようになるでしょう」

この論文が示しているもう1つの重要な示唆は、逆説的ではあるのですが、LLMs自体の機能向上こそがLLMsに対するリスクを増幅させているのかもしれない、という認識が高まっているということです。

「LLMsは自然言語インターフェースを提供しているため、適切なプロンプトを使うことでネットワーク内の高度で複雑かつ機密性の高いシステムへの『裏口: back door』となり得るのです」とHitajは指摘しています。

Lindqvistは、初期段階からある例として「これまでの指示をすべて無視する」という指令をあげています。これは、LLMを誤動作させる方法として悪意のある攻撃者がすぐに発見した手法です。このような攻撃の戦術が洗練されるにつれ、「メンバーシップ推論攻撃(membership inference)」のような、セキュリティとプライバシーに関するより強力な攻撃が開発されました。これらは、LLMsのトレーニングに使用したデータを強制的に明らかにしてしまうことも示されているのですが、この中にはプライバシーに関する重大なリスクをもたらす可能性のある機密関連のデータも含まれています。

そして、われわれとって最大の未知数は、次の自然言語に関する攻撃がどのような形になるかまったく予測できないということです、とHitajは指摘しています。

Hitajは次のように警告しています。「『次のプロンプト』は常に存在しています。セキュリティ対策を回避する、次の巧妙な手法が現れるでしょう。自然言語への攻撃を受けた初期のころから大きく進歩していますが、問題が解決したわけではありません。この問題は依然として未解決のままです。そして、モデルが学習すればするほど、より多くの情報を開示するようになる可能性があることも判明しています。攻撃者にとっては、あとは忍耐と、いかに巧妙にやり遂げられるかという問題になるだけなのです」

Instituto EldoradoのR&D DirectorであるMateus Pierre氏は次のように述べています。「AIセキュリティは技術開発の中核でなければなりません。この取り組みを通じて、私たちはこのコミュニティやパートナーが、強力かつ信頼性の高い生成AIソリューションを構築しそれを保護できるよう、支援することを目指しています」

論文はこちらからお読みいただけます。また、SRIのセキュリティ関連のイノベーションについては、こちらをご覧ください。


SRIのブログはこちら