MTTR(平均復旧時間)とは?~サイバーセキュリティの重要指標を解説~
サイバーセキュリティにおいて、MTTD(平均検出時間:Mean Time To Detect)やMTTR(平均復旧時間:Mean Time To Recovery)といった評価指標を取り入れることは、法人組織のビジネスレジリエンスを高める為に重要です。指標の意義や活用するメリットを解説します。
MTTDとMTTRとは
・MTTD(平均検出時間:Mean Time To Detect):
MTTDは、システムになんらかの問題が発生した際に、その問題が対処するべき事柄として識別されるまでにかかった時間の平均値です。「Mean Time To Detect」の略称で、日本語では「平均検出時間」と訳されます。
・MTTR(平均復旧時間:Mean Time To Recovery):
MTTRは、問題が発生(問題を最初に検知)した後、システムが再稼働し平常運用を再開するまでに要する時間の平均値です。「Mean Time To Recovery」の略称で、日本語では「平均復旧時間」と訳されます。
※ MTTRはMean Time To Repair(平均修復時間), Mean Time To Respond(平均応答時間) ,Mean Time To Resolve(平均解決時間)などの略称としても使用される場合があります。本稿では主にMean Time To Recoveryを取り上げますが、これらの違いについても後述します。
これらは、「特定のシステムにインシデントが発生してから迅速に復旧できるか」という可用性の高さを測る上で重要な指標です。また同時にSOC(Security Operation Center)などの対応能力を測る指標にも、組織のセキュリティレベルを計測する指標としても使用されています。
実際に情報セキュリティトレーニングなどを行うSANSの調査「SANS 2023 SOC Report」においても、全体の回答者の内、約88.8%がMTTDなどの計測指標を定期的に活用していると回答しています。
なぜ今これらの指標が注目、活用されているのか、法人組織のセキュリティ担当者がこれらの指標を活用したい場合、どのように取り組むべきか、などMTTD/MTTRといった指標がもたらすメリットを解説します。
MTTD(平均検出時間)/MTTR(平均復旧時間)を測るメリット
MTTD/MTTRを測るメリットの例として、下記が挙げられます。
セキュリティソリューションの導入効果を復旧の観点で定量化できる
セキュリティソリューションの導入による効果は、「導入後インシデントが発生したかどうか」という事前防御の観点に目がいきがちです。もちろんそれ自体も重要ですが、サイバー攻撃による多数の事業停止事案が発生している現在においては、「導入後インシデントからの迅速な復旧ができるようになったか」という事業継続性の観点も同時に重要と言えます。「セキュリティソリューションを導入した後、大きなインシデントは起きていないから効果があった」という評価軸だけでは、万が一の有事の際の対応能力が見落とされてしまう可能性があります。
MTTDやMTTRといった指標を測ることで、セキュリティソリューションの導入前後で、インシデントの兆候を平均何分素早く検出できるようになったかや復旧にかかる時間がどれくらい短縮されたか、を定量化できます。これらの算出された数値は導入したセキュリティソリューションを被害低減に向けて適切に運用しようとする取り組みに繋がり、同時にセキュリティソリューションへの投資対効果を部門外の関係者に示すことにもつながります。
組織のインシデント対応能力を定量化できる
SOCを構築し、インシデントが起こった際にどう動くのかといった訓練を行うことは重要ですが、評価指標を取り入れないことには、その対応が適切か否かを判断できません。またSOCが場当たり的に様々なインシデントに対応し続けている場合、復旧に関わる全体の業務行程の中でボトルネックになっているなど非効率な部分が放置されたままになる可能性があります。
MTTDやMTTRといった指標を測ることで、現在のSOCのインシデントの対応能力をメンバー全員に共有でき、課題のある(時間がかかっている)部分を明確化することで、時間短縮に向け優先すべき領域がどこなのか(例:原因分析なのか、トリアージ作業なのかなど)を把握・改善し、全体プロセスの最適化を行うことができます。またセキュリティソリューションの運用等をアウトソース(MDRなど)している組織においても、アウトソース先のインシデント対応が期待する成果を出しているのか測定することができます。
システム復旧に必要な時間の見積もりができる
有事の際には、現実的に復旧できる時間とシステムの非稼働時間が与える経済的損失を天秤にかけた上で、経営的な判断が必要になります。医療機関やインフラ系の組織であれば人命や社会生活などの社会的損失も考慮されるかもしれません。そうした際、一部の機能だけを復旧するのか、原因究明を割愛するのか、などの判断においても時間の要素が非常に重要視されます。
MTTDやMTTRといった指標を測ることで、どのくらいの安全性をもって、平均何時間以内に復旧してきたのかというある程度の予測情報が提供できます。これは上述の通り、経営判断に直結する要素であり、有事を想定する際には不可欠な指標とも言えます。
他にも、冒頭で紹介した「SANS 2023 SOC Report」の中で、SOC業務の価値をMTTD/MTTRなどの指標を用いて定量化に取り組んでいると回答した内の84%が、インシデント業務のコストを50%以下に減らすことができたと報告しており、定量化に取り組むこと自体に一定の効果があることがわかります。
MTTD/MTTRが重要な理由
MTTD/MTTRが、現在サイバーセキュリティ分野で重要視され始めてている理由として下記が考えられます。
セキュリティ対策がより時間との勝負になっている
現在サイバー攻撃の高度化によって、組織にとって大きな問題の一つとなっているのが、「サイバー攻撃のステルス化」です。
・セキュリティ製品に検出されない
・長期的に工作活動を続けて大事な情報を盗む
・侵害範囲を広げて脅迫しやすくする
などサイバー攻撃者にとって「攻撃に気づかせない」ことは様々な目的を達成する上で重要な役割を担っています。
過去の記事でも紹介していますが、攻撃をステルス化させる為に、サイバー攻撃者はLiving Off The Land(環境寄生型)攻撃と呼ばれる、標的組織内で使われる正規の遠隔操作ツールなどを使用しセキュリティ製品に検知されにくい工夫を施した攻撃を展開します。
こうした攻撃を防ぐことが難しいことは、2023年の国内の公表事例の内、約3割が攻撃者からの脅迫や警告画面などの通知が起きるまで、侵害に気づいていない事例だったことからも明らかです。
図:2023年に公表された国内組織のインシデントの発覚原因(N=125, 原因が公表されていないものは除く)※
※公表事例を基にトレンドマイクロが整理。
攻撃を防ぐことが難しい原因として、組織で使用するIT機器が多すぎてログの数が膨大になってしまい、攻撃の可能性がある挙動を見つけることが困難になったことが挙げられます。トレンドマイクロの検証では、1,000台のデバイスからはわずか7日間で12.5億ものログが収集されました。
これらをセキュリティチームが全て人力で調査するには膨大な作業量と時間が必要になります。
一方で、ランサムウェア攻撃を行うサイバー攻撃者の組織内潜伏時間の平均が5.96日(トレンドマイクロのインシデントレスポンスサービスで2019年1月から2024年3月までに対応した案件から集計)というデータがでていることから、セキュリティチームは一週間に満たない時間で、攻撃の検出からブロック、排除までを行う必要性に駆られています。
こうした課題に対して、EDR/XDRといったセキュリティソリューションは、増大するログの分析作業を自動化するなどセキュリティチームの活動を効率化し、より短い時間で攻撃の兆候の検出を支援する機能を提供しています。
これらの背景から、現在の高度なサイバー攻撃に対しては、セキュリティ対策の効果を測る指標として「時間」が重視されます。
セキュリティに対する投資額が増加してきている
サイバーセキュリティに関する投資額は年々増加してきていると多くの調査で言われており、トレンドマイクロが2022年に行った調査でも2023年のセキュリティ投資に関してIT部門の意思決定者565人に尋ねたところ、回答者の約3分の2を占める65%が、2023年にはセキュリティ投資を増やす予定であると回答しました。
サイバーセキュリティはビジネスの観点において、利益を生み出すものというよりも、事業継続性を担保するものの側面が強く、なかなかその費用対効果の算出が難しいものです。
一方で経営層や意思決定層は限られた予算の中で、サイバーセキュリティ予算と他の分野の予算との比較をしながらその優先度や金額を決定しなければなりません。
そうした中で、MTTDやMTTRに代表される「時間」という尺度を用いることによって、経済的損失と関連付けて投資判断が行えるようになることから、これらの指標が重要視されていることが考えられます。
1. MTTD(Mean Time to Detect:平均検出時間)…ある問題が注意を要するものとして特定されるまでの時間
2. MTTI(Mean Time to Investigate:平均調査時間)…アラートを確認し、セキュリティチームにアクション開始の合図が発行される(チケット発行など)までに必要な平均時間
3. MTTR(Mean Time to Respond:平均応答時間)…セキュリティチームがアクションを開始するために必要な平均時間
4. MTTK(Mean Time to Know:平均把握時間)…障害の原因把握に必要な平均時間
5. MTTR(Mean Time to Repair:平均修復時間)…検出時点からシステムが修復されるまでに要する時間
6. MTTR(Mean Time to Resolve:平均解決時間)…検出時点からシステムが修正され、関連システムが適切に動作することを確認するためにテストされるまでに要する時間
7. MTTR(Mean Time to Recovery:平均復旧時間)…検出時点から関連システムが完全に稼働するまでに要する時間
この例ではアラートの選定は1、フォレンジック調査などは4に当てはまります。こうした複数の行程で復旧業務が実施されていることを理解し、それら個別の平均対応時間を計測することが求められます。
なお、これらはあくまで例であり、これら以外にも複数の指標が存在し、利用されていることをお含みおきください。
複数のインシデントに関して、それぞれの時間を計測したのち、その平均値やばらつき(時間がかかる時とかからない時の差が極端に発生しているなど)を分析することで、ボトルネックになっている業務を特定することが可能です。
MTTD/MTTRを短縮する為に行うべきこと
トレンドマイクロの過去の調査では、検出に関わるMTTDの時間が復旧時間全体(MTTR)に大きく影響を及ぼすことがわかっています。
特に検知1時間以内とそれ以上の間での差分が大きく、上述の通りSOCは迅速な対応が求められていることがわかります。
しかし、一方でサイバー攻撃者の巧妙さも向上していることから、EDR/XDR等のセキュリティソリューションを導入していても、迅速な検知を達成することは一筋縄ではいきません。
より迅速な対応を実現するには最新のサイバー脅威への幅広い知識と同時に、インシデントレスポンス現場などで培われたナレッジが必要となります。
ここまで紹介してきた通りトレンドマイクロでは、多くの調査や多数のインシデント対応の実績を持っており、それらから得たナレッジを自社製品に反映するだけでなく、セキュリティ対策に不安のある組織に対して、サイバーセキュリティ分野の”パートナー”として情報提供など行っています。
今年7月に開催するカンファレンス「2024 Risk to Resilience World Tour Japan」においても、インシデントレスポンスサービスチームのリーダーやスレットリサーチャーが登壇し、サイバーレジリエンス向上に向けた様々な知見を参加者の皆様にお届けします。
また会場でしか見れないアンダーグラウンド調査の分析画面が見れる機会なども用意しておりますので、ぜひご参加ください。
Security GO新着記事
ソブリンクラウドとは?プライベートクラウドやガバメントクラウドとの違いを解説
(2024年11月5日)
VPN機器の脆弱性はなぜ管理しづらいのか~ネットワークエンジニアの立場から探る
(2024年11月1日)