【続報】誤ったECS展開によって停止したMicrosoft 365(bleeping computer/NetwingsJ)

どうやら、アメリカ発の情報らしいのですよ。ある、情報セキュリティ系VTuberの方から教えていただいたものなんですが、このあらましは、次のホームページに記載されています。

誤ったECS展開によって停止したMicrosoft 365

https://www.bleepingcomputer.com/news/microsoft/massive-microsoft-365-outage-caused-by-faulty-ecs-deployment/ 

このように、いくつかの Microsoft 365 サービスが止まった原因が書いてあります。

インシデント後の予備レポートで、Microsoftは、今週の5時間にわたるMicrosoft 365の世界的な停止が、複数の地域にわたるカスケード障害と可用性への影響につながる障害のあるEnterprise Configuration Service(ECS)展開によって引き起こされたことを明らかにしました。 ECSは、Microsoftサービスが複数のサービスや機能、およびテナントやユーザーごとの特定の構成などの対象を絞った変更を行うことができるように設計された内部中央構成リポジトリです。

最初はMicrosoftTeamsのマイナーな停止のように始まったものが、 Exchange Online、Windows 365、OfficeOnlineなどのECSも活用するTeams統合を備えた複数のMicrosoft365サービスにダウンタイムで拡大することになりました。 その結果、世界中のユーザーが、MicrosoftTeamsおよび複数のMicrosoft365サービスまたは機能を使用できないと報告し始めました。

「この問題は、Microsoft Teamsのデスクトップ、Web、およびモバイルクライアントに接続するユーザーの能力に影響を及ぼしました」と同社は予備報告書で説明しました。

「テレメトリは、このイベントによって約30万件の通話が影響を受けたことを示しました。アジア太平洋(APAC)地域は、影響ウィンドウと一致する営業時間のために最も影響を受けました。さらに、ダイレクトルーティングとSkypeMFAはサービスにほとんど影響を受けました。」

レドモンド(マイクロソフトがある街の名前のこと)の報告によると、事件は7月21日木曜日の午前1:05 UTCに始まり、同社のエンジニアは5時間以内の午前6:00UTCまでにほとんどの影響を修復しました。

ただし、ソーシャルメディア上の顧客レポートと一致する、同じ日の午後1時14分UTCまで、いくつかの孤立した残留影響もありました。 最終的に、このインシデントは、次のMicrosoft 365サービスおよび機能の1つ以上を利用しようとするユーザーに影響を及ぼしました(すべて、停止によってある程度影響を受けました)。

  • Exchange Online(メール送信の遅延)
  • Microsoft 365管理センター(アクセスできない)
  • 複数のサービス内のMicrosoftWord(ロードできない)
  • Microsoftフォーム(Teams経由で使用できない)
  • Microsoft Graph API(このAPIに依存するサービスが影響を受けている可能性があります)
  • Office Online(Microsoft Wordアクセスの問題)
  • SharePoint Online(MicrosoftWordアクセスの問題 プロジェクトオンライン(アクセス不能)
  • PowerPlatformおよびPowerAutomate(データベースを使用して環境を作成できない)
  • Microsoftマネージドデスクトップ内の自動パッチ Yammer(Yammerのフライトへの影響)
  • Windows 365(クラウドPCをプロビジョニングできません)

予備的な根本原因はECSの失敗でした。

レドモンド(マイクロソフトがある街の名前のこと)がインシデントレポートで説明し、冒頭で述べたように、この停止の背後にある予備的な根本原因は、エンタープライズ構成サービス(ECS)の展開の失敗でした。

「ECSサービスの展開には、ECSを活用するサービスとの下位互換性に影響を与えるコードの欠陥が含まれていました。最終的な結果として、ECSを利用するサービスでは、すべてのパートナーに誤った構成が返されました」と同社は説明しました。

これにより、ダウンストリームサービスに「200」ステータスメッセージ(プルが成功したことを示す)が表示されましたが、実際には不正な形式のJSONオブジェクトが含まれていました。

「影響の程度は、個々のMicrosoftサービスがECSによって提供される不正な構成をどのように利用するかによって異なります。影響は、Teamsなどのサービスのクラッシュから、他のサービスでは影響がないことまでさまざまでした。」

この事件の結果として、Microsoftは、将来のECS障害が発生した場合に、キャッシュされたECS構成バージョンにフェールバックするためにMicrosoftTeamsサービスの復元力の向上に取り組んでいると述べています。

また、ECS障害の影響を制限するための追加の障害分離に投資し、監視しきい値を更新して、このような低グレードの障害をより適切に識別しています。

……このように述べています。ちょっと訳して読んだだけでは、何のこっちゃですが、要は、デプロイに失敗してこうなったということですよねえ? ああー、何のこっちゃ(笑)

ではでは(・∀・)ノ

パソコンのお医者さん デプロイに失敗したようです ネットウイングス 代表 田所憲雄 拝

ネットウイングス Netwings.JP

どうも(・∀・)ノ 兵庫県尼崎市のネットウイングスです。パソコンのお医者さんとして、「インターネットで愉しむ」と同時に「情報技術者同士の緩やかな連帯感の醸成」にもこだわっています。

このページに掲載された記事の名称や内容は、各社の商標または登録商標です。また、ページ内でご紹介しているソフトウェア、バージョン、URL等は、各ページの発行時点のものであり、その後、変更されている場合があります。なお、画像や文章の著作権は、ベルヌ条約・万国著作権条約・著作権法で定めのある通り、原著作者に帰属します。