AIモデルに迫る新たなセキュリティ上の脅威

Lines and nodes

SRIの研究により、複雑な深層ニューラルネットワークに検出困難なマルウェアが埋め込まれる可能性が明らかに


情報セキュリティの分野では、何十年もの間、同じ警告である「インターネットからダウンロードしたソフトウェアには、マルウェアが含まれている可能性」が繰り返されてきました。では、この警告はAIモデルにも当てはまるのでしょうか?

多くのAI開発者は、公開リポジトリで入手できるサードパーティ製の事前学習済みモデルを活用しています。生成AIツールを支える深層学習モデルも、そうしたモデルの一例です。これらのモデルは一般的に「安全」と見なされてきました。開発者たちは、あるモデルの性能に不足を感じることはあっても、公開されているモデル群が深刻なITセキュリティ上の脅威になるとは認識していなかったのです。

SRIのAdvanced Computer ScientistであるBriland Hitajとその共著者による最近の論文は、衝撃的な事実を明らかにしています。深層ニューラルネットワークに、ほとんど検出不可能な形でマルウェアを埋め込むことが、現時点でも十分に可能だというのです。

AIに迫るセキュリティリスクの新局面を読み解く

「博士課程では、セキュリティやプライバシーに対する攻撃手法の研究に多くの時間を費やしました。特に重点的に取り組んだのは、分散学習や連合学習です」とHitajは語ります。最近では、大規模言語モデル(Large Language Models: LLMs)が悪意ある攻撃者によってパスワード推測能力の向上に利用されてしまう可能性についても研究しています。

Hitajらの新しい論文は、公開されている深層学習モデルにどのような脆弱性が潜んでいるのかを深く探ろうという問題意識に基づいています。

生成AIなどの機能を支える深層学習アルゴリズムは、従来のソフトウェアとは本質的に大きく異なります。これらのニューラルネットワークには、数十億から数兆もの「パラメータ」が含まれています。パラメータは、入力された指示(プロンプト)に応じてオン・オフが切り替わるデジタルな脳の細胞のようなものと考えるとわかりやすいでしょう。最高水準の生成AIが不思議なほど人間のように振る舞えるのは、このパラメータのおかげです。また、こうしたパラメータは、生成AIの出力が「なぜそうなったのか」を説明しにくくしている原因でもあります。確かに、出力された答えが正しかったり役に立ったりすることはあるでしょう。しかし、関わる変数があまりに多いため、モデルがどのようにその答えにたどり着いたのか、その正確なところを説明するのは難しいのです。

コンピュータサイエンスの分野では、このような複雑さが、マルウェアにとっての潜伏先となり得る無数の隙を生むことも認識されています。

Hitajはこう説明します。「たとえば、攻撃者があるモデルを公開するとします。それをHugging FaceやGitHub、あるいは他のどんなプラットフォームでもいいですが、そういった場所でリリースするのです。攻撃者は、そのモデルが本来の目的どおりに正しく動作するように仕込んでおきます。つまり、そのモデルが画像を補正するちょっと面白いフィルターを生成したり、文章の要約を手伝ったりするものだとして、そうした本来の機能は完璧にこなせるのです。しかし、そのモデルの重みパラメータの中には、別の隠された機能が含まれている可能性があります。そこで私たちは、深層ニューラルネットワークの中に、悪意あるコードをこっそり埋め込むことが本当に可能なのかを調べてみることにしました」

MaleficNetの構築

これまでにも、深層学習モデルにマルウェアを隠す試みは行われており、マルウェアを埋め込んでもモデルの性能が損なわれないことはすでに示されています。ただし、こうした従来の手法は、ウイルス対策ソフトを使うと比較的簡単に検出できました。

マルウェアを埋め込む別の手法を探るために、Hitajらは「MaleficNet」と呼ばれるフレームワークを開発しました。このフレームワークでは、CDMA(符号分割多元接続, Code-Division Multiple-Access)とLDPC(低密度パリティ検査: Low-Density Parity-Check)誤り訂正の技術を使って、マルウェアのコードがどんな高度な検出エンジンにも見つからないようにすることを目指しています。

「機械学習のサプライチェーンに潜むあらゆる弱点を明らかにすることが重要です」―Briland Hitaj

結果は深刻なものでした。MaleficNet論文はこう述べています。「大規模な実験を通じて次の点が明らかになりました。すなわち、マルウェアが仕込まれていても、MaleficNetモデルには、性能劣化がほとんど、または、まったく見られず本来のタスクを問題なく実行できます。MaleficNetは、さまざまなアーキテクチャやデータセットに対応できます。しかも最先端のマルウェア検出技術や統計的分析手法によっても埋め込まれたマルウェア・ペイロードを検出できませんでした」

言い換えれば、マルウェアに感染した深層学習モデルは、性能にまったく問題がないように装い、しかも現在の検出技術ではそのマルウェアを見つけられないのです。さらにHitajは、場合によってはこうしたマルウェアが自動的に発動するまで広く拡散してしまい、甚大な影響をもたらす可能性もあると指摘しています。

解決策を求めてさまよいだした問題

「企業の間には『機械学習のサプライチェーン』という発想が生まれています」とHitajは指摘します。AIプログラムがもたらす成果「新しい効率化、新しい製品、新しいビジネスの形」は、現代の市場で競争優位を築くために極めて重要です。そして、もし入力(データ、AIの開発・運用に携わる人々、あるいはAIモデルそのもの)の信頼性が損なわれれば、AIプログラムがもたらす成果も大きく揺らぐことになります。

AIのリスクについての議論は、いつもモデルの性能や学習データの限界といったテーマに集中します。たとえば、事実と異なる内容を生成するハルシネーションが起きるとか、偏った判断を示すといった点がよくとりあげられます。しかし、高性能なAIモデルが、ある種のマルウェアを隠すのに実に都合がよいという事実も、AIコミュニティが正面から向き合うべき問題なのです。

「機械学習のサプライチェーンに潜むあらゆる弱点を明らかにすることが重要です」とHitajは結びます。「脆弱性を理解することが、対処への第一歩です。私たちの研究結果が、深層学習モデルに特有のこのリスクを軽減するためのさらなる研究につながることを願っています」

MaleficNetは、SRI、Swiss Data Science CenterおよびSapienza University of Romeの研究者たちによる共同研究の成果です。この研究は2本の論文としてまとめられており、 1本目は欧州コンピュータセキュリティ研究シンポジウム(ESORICS)で発表され、2本目はarXivにプレプリントとして公開されています。


Read more from SRI