Cyber Risk
DeepSeek-R1モデルの「Chain of Thought推論の特徴」が狙われる危険性を分析
本稿では、DeepSeek-R1 AIモデルのChain of Thought(CoT)推論が、プロンプト攻撃や不適切な出力生成、さらには機密データの盗難に対して脆弱である可能性について分析します。
- DeepSeek-R1はChain of Thought(CoT)推論を採用しており、思考プロセスを段階的に明示する仕組みになっています。しかし、この透明性が攻撃者に悪用される可能性があることが確認されました。
- CoT推論の透明性を利用したプロンプト攻撃により、フィッシングの手法と同様に悪意のある目的を達成することが可能となります。その影響は状況によって異なりますが、セキュリティ上のリスクとなる可能性があります。
- NVIDIAのGarakなどのツールを用いてDeepSeek-R1に対してさまざまな攻撃手法を検証したところ、出力の安全性が確保されていないケースや、機密データの窃取が発生する可能性が特に高いことが判明しました。これは、CoTによる思考プロセスの公開が一因となっています。
- プロンプト攻撃のリスクを軽減するためには、チャットボットアプリケーションにおいてLLMの応答からタグをフィルタリングすることが推奨されます。また、継続的な脆弱性評価と防御策として、レッドチーム編成の戦略を取り入れることも重要です。
これらのリスクを軽減するため、チャットボットアプリケーションにおいてLLMの応答から特定のタグをフィルタリングすることや、レッドチーム編成を活用して継続的な脆弱性評価と防御策を講じることが推奨されます。
本稿は、AIモデルの評価に焦点を当てたシリーズの第一弾となります。今回は、DeepSeek-R1のリリースを分析します。
Chain of Thought(CoT)推論の普及は、大規模言語モデルに新たな時代をもたらしました。CoT推論では、最終的な応答を導き出す前に、段階的に思考プロセスを展開することが求められます。DeepSeek-R1の特徴の一つとして、このCoT推論が明示的に共有される点が挙げられます。今回、6710億パラメータを持つDeepSeek-R1に対して一連のプロンプト攻撃を実施し、その結果、この情報が攻撃の成功率を大幅に向上させる要因となることを明らかにしました。
Chain of Thought(CoT)推論
CoT推論は、最終的な応答に到達する前に、一連の中間ステップを踏むことをモデルに促す手法です。このアプローチは、GSM8Kデータセットのような文章題を含む数学系ベンチマークにおいて、大規模モデルの性能を向上させることが示されています。
CoTは、最先端の推論モデルにおける重要な要素となっており、OpenAIのO1やO3-mini、さらにDeepSeek-R1などのモデルは、いずれもCoT推論を活用するように設計されています。
DeepSeek-R1モデルの特徴として挙げられるのは、プロンプトへの応答において、タグを用いて推論プロセスを明示的に表示する点です。
プロンプト攻撃
プロンプト攻撃とは、攻撃者が巧妙に作成したプロンプトをLLMに送信し、不正な目的を達成しようとする手法です。これらのプロンプト攻撃は、大きく「攻撃技術」と「攻撃目的」の2つの要素に分けることができます。

上記の例では、攻撃者がLLMを騙し、システムプロンプトを開示させようとしています。システムプロンプトとは、モデルの動作を定義する一連の指示のことであり、これが公開されると、システムの文脈に応じてさまざまな影響が生じます。例えば、エージェント型のAIシステムでは、攻撃者がこの手法を用いることで、AIエージェントが利用できる全ツールを特定することが可能になります。
このような攻撃手法の開発プロセスは、フィッシングリンクをクリックさせるためにユーザを欺く攻撃と類似しています。攻撃者は、システムの防御機構を回避する手法を見つけ出し、それを利用して攻撃を行います。そして、防御側が対策を講じると、攻撃者は新たな手法を編み出し、それに対抗するというサイクルが繰り返されます。
今後、エージェント型AIシステムの普及が進むにつれ、プロンプト攻撃の手法も進化し、組織にとってのリスクが増大すると予測されます。実際、GoogleのGemini統合においても、研究者は間接的なプロンプトインジェクションを利用して、モデルにフィッシングリンクを生成させることが可能であることを明らかにしています。
DeepSeek-R1のレッドチーム編成
オープンソースのレッドチームツールであるNVIDIAのGarakを使用し、DeepSeek-R1に対して一連の分析を実施しました。Garakは、LLMに自動化されたプロンプト攻撃を送信することで脆弱性を特定するためのツールです。加えて、特別に作成したプロンプト攻撃も用い、さまざまな攻撃手法と攻撃目的に対するDeepSeek-R1の応答を調査しました。
以下の表では、調査で使用した攻撃手法とその目的を示しています。また、OWASPの2025年版 LLMおよび生成AIアプリ向けトップ10リスク&対策やMITRE ATLASに基づく攻撃手法の識別番号も併せて記載しています。


秘密情報の盗難
機密情報はシステムプロンプトに含めるべきではありません。しかし、セキュリティ意識の欠如により、意図せず漏洩してしまうケースがあります。以下の例では、システムプロンプト内に秘密情報が含まれていますが、プロンプトの強化(ハーデニング)による防御手法が適用され、モデルにはその情報を開示しないよう指示されています。
下の例のように、LLMの最終的な応答には秘密情報は含まれていません。しかし、ユーザのプロンプトで要求されていないにもかかわらず、タグ内には明確に秘密情報が記載されています。モデルは、ユーザのプロンプトを適切に解釈しようとする過程で、利用可能なすべての情報を検索します。その結果、API仕様を参考にしながらHTTPリクエストを生成し、ユーザの質問に回答しようとします。このプロセスにより、システムプロンプト内のAPIキーが意図せずChain of Thought(CoT)推論に含まれてしまうことになります。
モデルはリクエストを拒否しました。そこで、次にその防御機構(ガードレール)について直接尋ねてみました。
モデルはなりすましを拒否するように学習されているようです。さらに、その思考プロセスについて詳しく尋ねてみました。
タグ内に記載された例外を確認したことで、攻撃を設計し、ガードレールを回避できる可能性が出てきました。具体的には、ペイロードスプリッティングを活用することで目的を達成することができます。
攻撃成功率
NVIDIA Garakを使用し、DeepSeek-R1に対するさまざまな攻撃目的の成功率を評価しました。その結果、不適切な出力生成および機密データの盗難のカテゴリで、有害コンテンツの生成、ジェイルブレイク、モデルの盗用、パッケージハルシネーションといった他の攻撃目的よりも高い成功率が確認されました。この差異は、モデルの応答に含まれるタグの存在による影響を受けている可能性があります。しかし、これについてはさらなる研究が必要であり、今後の調査結果を共有する予定です。

プロンプト攻撃への防御
今回の調査では、モデルの応答内に含まれるタグの内容が、攻撃者にとって有用な情報となり得ることが確認されました。モデルのChain of Thought(CoT)を公開することで、脅威アクターがプロンプト攻撃の手法を発見し、より精巧な攻撃を行うリスクが高まります。これを防ぐために、チャットボットアプリケーションでは、モデルの応答からタグをフィルタリングすることが推奨されます。
加えて、レッドチーム編成は、LLMを活用したアプリケーションにおける重要なリスク軽減戦略です。本記事では、敵対的テストの一例を紹介し、NVIDIAのGarakのようなツールがLLMの攻撃対象領域を削減するのに役立つことを示しました。
脅威の状況は進化し続けており、今後も調査を継続し、さらなる知見を共有していきます。今後数カ月の間に、より幅広いモデル、攻撃手法、攻撃目的を評価し、より深い洞察を提供する予定です。
参考記事:
Exploiting DeepSeek-R1: Breaking Down Chain of Thought Security
By: Trent Holmes, Willem Gooderham
翻訳:与那城 務(Platform Marketing, Trend Micro™ Research)