サイバー脅威
ChatGPT やAI音声クローニングをサイバー犯罪や恐喝詐欺に利用した「バーチャル誘拐」を解説
本稿では、「バーチャル誘拐」による攻撃の手口について述べた上で、この種の攻撃に不正利用される音声クローニングツールやChatGPTなどのAI技術について解説します。
人口知能(AI:Artificial Intelligence)や機械学習(ML:Machine Learning)といった分野は、一般的な見方として、効率の改善や生産性の向上、生活への支援を目的として開拓されてきました。しかしその一方、不当な利益を追求するサイバー犯罪者も、これらの技術に目を向けるようになりました。近年では、AI技術を不正利用して実在する人物に巧妙になりすまし、詐欺や攻撃に及んだ事例も確認されています。
AI技術を不正利用する事例の数は、増加傾向にあります。2023年6月初頭、米国の連邦捜査局(FBI:Federal Bureau of Investigation)は、近年のサイバー犯罪者が「セクストーション」と呼ばれる脅迫活動を行っていることについて、注意喚起を発表しました。この活動は、ディープフェイクの技術によって無害な画像や動画に不正な細工を施し、それを当事者に突きつけて金銭の支払いを要求するものです。米国の連邦取引委員会(Federal Trade Commission)によると、2022年のなりすまし詐欺による損害額は26億米ドルにも及び、これは詐欺全体の中でも2番目に位置しています。
なりすまし詐欺の中には、AIによって生成された偽の音声(ディープフェイク・ボイス)を用いるものも存在します。ディープフェイク・ボイスの生成に必要なデータとしては、被害者の生体情報がわずかに存在するだけでも十分であり、TikTokやFacebook、Instagram、政府系ポータルなどの公開コンテンツがその主な取得元となります。攻撃者は、取得した生体情報をVoiceLabなどのAIツールにかけることで、その被害者が実際に話しているかのように聞こえるディープフェイク・ボイスを生成できます。この手法は音声クローニングとも呼ばれ、身代金の要求を伴う恐喝または詐欺活動に悪用される場合があります。
こうした不正な活動の一例として「バーチャル誘拐」が挙げられます。攻撃者は、映画の台本などから抜粋したスクリプトを元手に、特定個人の子どもが実際に動揺して泣き叫んでいるかのようなディープフェイク・ボイスを生成します。続いて、これを両親に聞かせることで実際に誘拐が行われているものと信じ込ませ、多額な身代金の支払いを要求します。
本稿では、バーチャル誘拐による攻撃の手口について述べた上で、この種の攻撃に不正利用される音声クローニングツールやChatGPTなどのAI技術について解説します。
バーチャル誘拐の実例
2023年4月、米国アリゾナ州在住のJennifer DeStefanoさんは、「ある匿名の人物から突然電話を受け、15歳の娘を誘拐したという内容を告げられた」ことを明かしました。さらに、「身代金として100万米ドルを支払わなければ暴行を加えると、脅された」と続けました。
電話で聞いた声について、DeStefanoさんは、「確かに娘のものであり、後ろで泣き叫び、懇願しているものと理解した」と述べました。続けて「ただし、娘と電話越しで話をすることについて、誘拐犯は許可しなかった」と付け加えました。
以降の経緯として、数分に渡る交渉後、身代金の要求額は5万米ドルに引き下げられました。幸いなことに、身代金を支払う前に、DeStefanoさんの娘が実際には誘拐されていなかったことが判明しました。この件はすぐに警察に通報され、一般的な詐欺の1つとして分類されました。
バーチャル誘拐は、近年急浮上しているサイバー犯罪の1つであり、AI技術の不正利用を通して人間の意思決定を巧みに操るものです。攻撃者はAIを武器として用いることで被害者に精神的な苦痛を与え、悪辣に感情を揺さぶることで、不当な利益を得ようとします。先述したバーチャル誘拐の実行者は、子どもが誘拐されたという事態によって家族が経験する苦痛や衝撃の大きさにつけこむことで、被害者に身代金を支払わせようとしました。
被害者を陥れて動揺させる追加の手段として、「SIMハイジャッキング」が利用される可能性も考えられます。この手口は、攻撃者が被害者の電話番号を乗っ取り、その番号への呼び出しやデータ送信を、攻撃者の端末側に転送させるものです。被害端末では、電話呼び出しへの応答や、メッセージの受信、セキュリティシステムへのテレメトリ送信などが一切できなくなります。誘拐に遭ったとされる本人の端末がSIMハイジャックされた場合、その端末を通して本人にコンタクトを取ることができなくなり、結果として、身代金の支払いにまで至る可能性が高まります。
バーチャル誘拐による攻撃の進行
新興技術や急浮上するソーシャルメディアに柔軟に対応できる若い世代や著名人ほど、生体情報を抜き取られてバーチャル誘拐に利用されるリスクが高いと考えられます。TikTokやFacebook、Instagramをはじめとするソーシャルネットワークサービスは、攻撃者側の視点に立つと、標的として狙えそうな被害者を発見する貴重なツールと見なせます。また、そこで得られるさまざまな個人情報は、被害者やその関係者が信じ込みそうなストーリーを組み立てる際の参考資料になるでしょう。
バーチャル誘拐は本質的に騙しの手口であり、虚偽の情報を利用して被害者に身代金を支払わせようとするものです。被害者は金銭を失うだけでなく、精神的に大きな苦痛を被ることとなります。仮に詐欺を見抜いて身代金の支払いを回避できた場合でも、子どもが誘拐されたという状況に対峙することは、例えそれが寸刻の間であったとしても、家族や関係者に対して大きなショックをもたらすものです。残念ながら、バーチャル誘拐の実行者は、非常に多くの人々に対して攻撃を仕掛けることが可能です。さらに、その一件一件が被害者を深刻な状況に追い込み、そのうちの一つが成功しただけでも、攻撃者に多額の利益が渡ることとなります。
バーチャル誘拐は、下記の段階を踏んで進行します。
- 恐喝対象者(誘拐される人の親族)の選定:身代金の支払い能力がある個人を選定する。先述したバーチャル誘拐の実例では、DeStefanoさんがこれに該当する。
- 誘拐対象者(誘拐される人)の選定:先述したバーチャル誘拐の実例では、DeStefanoさんの娘が該当する。
- ストーリーの組み立て:感情を揺さぶる内容であるほど、それを聞かされた被害者側では、冷静な判断や行動が難しくなる。恐怖に駆られた被害者は、落ち着いて考える余裕がなくなり、衝動的な判断に走る可能性が高いと考えられる。
- 誘拐対象者の音声生体情報をソーシャルメディアから取得:さらに攻撃者は、映画の誘拐シーンなどから恐怖を演出する音声を抜き出し、これをディープフェイク技術にかけることで、その映画内の言葉を誘拐対象者が実際に話しているかのような音声データを生成できる。
- 時間と場所の選定:攻撃者は、ソーシャルメディアの投稿を調べ、誘拐対象者が恐喝対象者から長期間に渡って物理的に離れている時間帯を推測する。この時間帯を狙って恐喝を実行した場合、恐喝対象者側では、誘拐対象者が実際には無事であることをすぐには確認できなくなる。結果として、身代金の支払いに応じる可能性が高まる。
- 恐喝対象者への電話:攻撃者は、自身の声がより恐ろしく威圧的に聞こえるように、フリーの音声変換ソフトウェアを用いる場合もある。電話中、上記4.で作成した誘拐対象者のディープフェイク・ボイスを同時再生することで、実際に誘拐が行われているものと信じ込ませる。
- 後始末の実施:攻撃者は、支払われた身代金のマネーロンダリング、関連するファイルの削除、一時利用した電話の処分など、各種作業を実施する。
上記を実行するにあたり、マネーロンダリング以外に専門的な知識や実践的なスキルは要求されません。関連分野として、広告分析では、大多数の人々に共通する挙動を抽出し、さらに人々が行うであろう挙動を統計的に予測することが可能です。こうしたターゲット(標的)の分類やレート付けの手法は、バーチャル誘拐にも適用可能であり、条件に合った標的を見つけだす作業が効率化されると考えられます。また、ChatGPTなどのAIツールも、上述した攻撃手順の多くを自動化させる効果が見込まれます。
バーチャル誘拐におけるAIチャットツールの不正利用
AI音声クローニングツールに加え、ChatGPTなどの自然言語によるチャットボットも、通常では手作業で時間のかかる作業を効率化し、攻撃者のスキルギャップを埋める効果があります。例えば、標的を選定する際には、事前調査で収集した多量の被害者データをフィルタリングする必要があります。この際、ChatGPTを利用することで、フィルタリングの指示を柔軟な自然言語表現によって行うことが可能となります。また、フィルタリングの条件として、音声やビデオ情報に加え、API(Application Processing Interface)経由で取得される地理情報などを含めることも可能です。この場合、収集したデータをChatGPTで処理した上で、標的向けに最適化された情報を活用できます。さらに攻撃者は、標的からの反応に対し、ChatGPTで作成、または改良した応答を返すことも可能でしょう。こうした標的選定に関わる作業は、対象を絞り込んだ広告分析と同様、さまざまな公開ソースからの情報を利用して行うことが可能です。さらに、標的が支払いに応じる可能性や、その見込み額も考慮して、フィルタリング条件や優先順位付けを別途追加することも考えられます。これにより、被害者の選定に際して、いわばリスクベースのスコアリングシステムが導入されることとなり、利益の向上が図られると同時に、規模に応じた柔軟性も確保されると考えられます。
バーチャル誘拐の実行者は、将来的に、または現時点で十分な資金を有していれば、「Text to Speech」のアプリによってChatGPTのテキストを音声ファイルに変換できると考えられます。これにより、攻撃者と誘拐対象者の双方が完全にバーチャルな存在(本人の音声クローン)となります。また、音声ファイルが一斉電話サービス(Mass Calling Service)を通じて配信されるパターンも考えられ、この場合、攻撃の頻度が高まり、より広範囲に渡って影響が及ぶ可能性が懸念されます。
バーチャル誘拐に不正利用される可能性がある新たな技術やアプローチ
先述したバーチャル誘拐の攻撃手順は、ソーシャルネットワーク分析および動向(SNAP:Social Network Analysis and Propensities)に関するモデル化と類似しています。SNAPの目的は、ソーシャルネットワークのユーザが行いそうな、または選択しそうな行動を推測することにあります。例えば、各個人がどのような製品を購入する傾向があるかをまとめたレポートを、SNAPによって作成することが可能です。さらに、こうしたレポートをベースに動くソーシャルメディア広告サービスを構築し、対象企業の売上や利益を高めるという売り文句でビジネスを展開するパターンが考えられます。
SNAPは、コンテンツ(ソーシャルメディア広告)をターゲット(製品やサービスの購入意欲があり、かつ、十分な資金を有する人)に配信する際のアプローチであり、大規模でスケーラブル、かつ自動化されている点で特徴的と言えます。ターゲットに対しては、感情や美的感覚に訴えかける宣伝を見せつけ(通常、有名人やインフルエンサーを介して行われる)、行動(購入)を促します。この流れは、先述したバーチャル誘拐にも当てはまります。具体的に、「購入意欲があり、かつ、十分な資金を有する人」は、「身代金支払い能力のある両親」に相当し、「感情や美的感覚に訴えかける宣伝」は、「子どもの泣き叫ぶ声」や「威圧的で不気味に聞こえるように変調された声による脅迫」に相当します。
将来的に攻撃者は、被害者全般の行動モデルを利用して大規模な標的候補リストを作成する可能性があります。こうしたリストがあれば、各標的候補に対して自動で脅迫電話をかけるなどの手口も可能になるでしょう。これは、面識のない人々に電話越しでビジネスを持ちかける「売り込み電話」の誘拐脅迫型に相当します。さらに攻撃者は、作業を効率化するためにダークウェブ上のビジネスに手を伸ばし、既成のSIMハイジャック用ツール、データ侵害によって流出した認証情報、マネーロンダリング・サービスを購入する可能性も見込まれます。
バーチャル誘拐は、AIを武器として用いる詐欺行為の一種であり、フィッシング詐欺や正規なマーケティングと似たような手順を踏みながら、標的の絞り込みを行います。選ばれた標的に対しては、感情的に揺さぶりをかけた上で、恐喝行為に及びます。これは、AIの進化に伴って急浮上した新たな攻撃法であり、今後、ランサムウェア攻撃と同じように進化し、その手口も巧妙化していくと推測されます。バーチャル誘拐の特徴として、被害者を騙して恐喝する際に、音声または動画ファイルを用いる点が挙げられます。通常、これらのファイルの中身については、セキュリティ製品による監視の対象外となっています。
しかし、状況認識ネットワーク(Context Aware Networks)の機能が向上するに従い、将来的には、セキュリティツール側でさまざまな種類のテレメトリ情報を受け取り、状況依存型の不正を検知できるようになると見込まれます。なお、この「状況認識」においては、単一の値に基づくトリガ情報だけではなく、各種データの関連性も考慮に含めて判定を行う必要があります。
一例として、多層構成によるアイデンティ認識システム(Identity-Aware System)を用いて、バーチャル誘拐の対象者(誘拐されたとされる人)が自身のスマホを普段通りに使用しているか、または物理的に動かしているか(スマホに搭載されている加速度計で検知)をチェックすることが挙げられます。もし本当に誘拐されているならば、そのようなことは出来ないため、こうした分析が詐欺の看破に役立つものと考えられます。
結論とセキュリティ推奨事項
あらゆる恐喝行為に言えることとして、被害者が身代金を支払った場合、それに味をしめた攻撃者はさらに別の標的にも同じ攻撃を仕掛けようと勢いづきます。また、当該の被害者は、脅しに屈服した標的としてリストに加わり、その情報は別のサイバー犯罪組織に売り渡される場合があります。残念ながら、こうした悪循環によって、さらなる犠牲が生じることとなります。
バーチャル誘拐では、音声や動画のようなセキュリティ製品等の監視の届きにくいコミュニケーション手段が利用されました。将来的にはこの手口がさらに広まり、ランサムウェア攻撃をはじめとする従来型のサイバー犯罪にも導入されていくと推測されます。また、音声や動画だけでなく、メタバースのような新しい環境が利用される可能性も考えられます。
これらのコミュニケーション経路下で行われる状況依存型の不正を検知するには、典型的な「ルーターレベル」のセキュリティ解析だけでは不十分であり、より抽象的なレベルでの状況分析をいかに実現するかが課題となります。そのため、今後は、先述したアイデンティティ識別などを前提とする詐欺対策の技術が重要になってくると考えられます。一つの道筋として、バーチャル誘拐攻撃が増加するに伴い、利用できるテレメトリ情報の量も増加していきます。こうした情報をベースにセキュリティ解析のレベルを向上させれば、アイデンティティ識別が可能なセキュリティセンサーとして応用することも可能になるでしょう。
参考記事:
Virtual Kidnapping - How AI Voice Cloning Tools and ChatGPT are Being Used to Aid Cybercrime and Extortion Scams
By: Craig Gibson, Josiah Hagen
翻訳:清水 浩平(Core Technology Marketing, Trend Micro™ Research)