piyolog

piyokangoの備忘録です。セキュリティの出来事を中心にまとめています。このサイトはGoogle Analyticsを利用しています。

2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた

2020年10月1日、東京証券取引所はアローヘッドの機器故障によりシステム障害が発生し、終日売買を停止すると発表しました。故障した機器は交換が行われ、取引は翌日再開されています。ここでは関連する情報をまとめます。

機器故障起きるも縮退運用に失敗

f:id:piyokango:20201002195119p:plain
障害概要図
  1. アローヘッド内の共有ディスク装置1号機で機器故障が発生した。実際故障したのはサーバー上のメモリ周辺機器とされる。
  2. 1号機故障により両現用で稼働していた2号機のみのフェールオーバー(縮退運用)が行われるはずだったが何らかの問題により行われなかった。
  3. 共有ディスク装置を使用する相場配信、売買監視のシステムで障害が発生。
  4. 障害復旧時に発生する注文データ消失による市場混乱を避けるため当日終日の取引停止の措置を実施。(遮断)
フェールオーバー失敗原因は設定ミス
  • フェールオーバーに失敗した理由が特定できたとして10月5日に発表。
  • 障害発生時のフェールオーバー機能の内、メモリ故障に起因する障害パターンで自動切替が機能していなかった。
  • ファームウェアに設定された切替用設定値の不備。
  • 強制フェールオーバーは構築当時テスト済で、テスト時は二号機への縮退運転も正常に行われていた。ただし、取材に対しメモリ故障に対するテストは難しかったとコメントもしている。テスト時にこのミスを防げなかった理由は調査中。*1
  • 開発、設定は富士通が担当。設定内容の確認は東証が実施していた。*2
機器故障がシステム障害に波及
  • 共有ディスク装置が故障したことにより、アローヘッド内部のシステム(情報配信ゲートウェイ、売買監視サーバー)の2つで障害が発生した。
  • 情報配信ゲートウェイは相場情報を利用者に対し送信する役割を担う。配信処理に異常が起きたことにより、銘柄等の情報を送るジョブが連携できない状況が発生した。
  • 売買監視サーバーの監視業務も処理異常が発生してしまった。
  • 東証内システムで稼働する機器故障そのものは珍しくなく、発生もしている。
  • これらの機器故障に対してフェールオーバー、多重化、故障前の予備交換等の対応により今回の様なシステム障害は発生していなかった。
故障した共有ディスク装置とは
  • アローヘッド内に設置された約350のサーバー群で構成されるものの1つ。
  • 開場前の定時処理(ジョブ)を行う際、各サーバーより共有が必要な情報が格納、参照する場所として機能する。
  • 現在稼働するシステム・機器類は2019年11月納入されたものでこれまでに機器交換は行われていない。

混乱回避のため売買停止を判断

  • 東証は証券会社など内外関係者と事前協議の上、市場混乱回避を目的に終日売買停止することを決定した。
  • 東京証券取引所で終日取引が停止されるのは1999年5月にシステム化が行われてから初めて。
  • 東証の株券売買システムを使用している国内3か所の証券取引所(札幌、名古屋、福岡)も全銘柄の売買を停止された。
  • 10月1日も市場自体は開かれており、休場という措置ではなく、障害により取引ができないという状況となった。
用意されているバックアップ 手動対応による取引再開がされなかった理由
共有ディスク装置二号機 手動対応に伴う売買システムの再起動で10/1の注文が全てリセットされる。市場混乱や証券会社等の顧客対応発生が懸念となった。
セカンダリデータセンター 大規模災害を想定して準備されており、即時の切替を行うことが出来なかった。(BCP上では24時間以内の再稼働を定めている)
  • 再起動を通じ発注データが消失することにより、約定したかどうかの返しが行われない状況となることが予見された。
  • 大量の発注情報を管理する証券会社において、連続性を持つデータ管理が難しくなり、円滑に取引を再開することは困難と判断された。

東証で停止措置が取られた取引は以下の通り。

  • 東証の株券全銘柄の取引を停止。
  • 立会内取引、ToSTNeT取引全銘柄売買を終日停止(ToSTNeTは10/1 8時56分まで受け付けた注文に限り売買成立。)*3

障害関連のタイムライン

日時 出来事
10月1日 7時4分 売買システムのディスク装置の故障を検知。情報配信、管理機能の不具合を東証が把握し調査を開始。
: 8時1分 システム障害事象を証券会社のシステム担当者へ通知。
: 8時23分 復旧目途立たず、影響確認中と証券会社へ通知。
: 8時36分 証券会社に対し売買停止を通知。
: 8時39分 売買停止を東証Webサイトに掲載。
: 8時52分 株券売買システムを使用する3か所の証券取引所も売買停止することを証券会社へ通知。
: 8時54分 ネットワーク遮断、これをもって売買停止
: 9時26分 共有ディスク2号機への強制切替を完了。
: 11時45分 午後も全銘柄の売買を停止すると東証がWebサイト上で発表。
: 11時57分 東証が終日売買停止を証券会社へ通知。
官房長官が記者会見にて東証の障害についてサイバー攻撃の可能性に関する情報は確認していないと発言。*4
金融庁が東証に原因究明と復旧等の対応を指示。*5
: 16時半頃 社長らシステム障害に関する記者会見。
:19時25分 東証が10月2日に売買を再開すると発表。
富士通がシステム障害に関して謝罪。*6
2020年10月2日 9時 東証で売買を開始。
同日 東証に対し、金融庁が金融商品取引法に基づく報告徴求命令。
2020年10月5日 東証がシステム障害の直接的な原因が特定できたと発表。
同日 日本取引所グループが障害原因の調査委員会を設置。
2020年10月16日 日本取引所グループと東証が金融庁へ報告書を提出。*7
2020年10月19日 日本取引所グループ、東証、富士通が障害原因と再発防止策等を公表。
2020年10月23日 再発防止策検討協議会 1回目の会合開催。
2020年11月30日 金融庁が東京証券取引所、日本取引所グループに対して業務改善命令の行政処分。
同日 日本取引所グループがシステム障害に係る調査委員会の報告書を公表。
同日 東京証券取引所社長がシステム障害の責任を取る形で辞任。
2020年12月3日 富士通が関係役員の処分を発表。
2020年12月21日 再発防止策検討協議会 2回目の会合開催。
  • タイムラインは記者会見や報道記事*8より作成。

東証の障害後対応

次の対応を行い、10月2日は通常通り再開を行うと発表。

  • 共有ディスク装置の故障メモリ交換
  • 全体システムの再立ち上げ
  • 1号機2号機の正常稼働確認
富士通との対応
  • 東証側が富士通へ故障した機器を持ち込み、原因の調査を行っている。
  • 調査結果、経緯等は富士通が詳細を発表することは控え、東証が公表する対応をとる。
  • 東証は市場運営責任は自分たちにあるとし、富士通側への損害賠償は現時点で考えていないと発言。*9
  • アローヘッドは富士通が担当だが、相場情報の配信に係るシステムは富士通が開発したものではないとされる。*10
フェールオーバーが行われなかった事象への今後の備え
  • 故障自体はレアケースであるが、起きたことは事実。
  • 今後、同事象発生時に売買への影響が出ないよう、当面は人的な監視を行い、万一の際は手動で対応を行う。
  • 暫定対応はフェールオーバー失敗の原因が究明出来るまでは続けられる予定。

サイバー攻撃が否定された理由

障害当日昼頃にはサイバー攻撃ではないことが報道された。東証会見で明らかにされた理由は以下。

  • 機器の故障個所はログで判明。
  • 故障発生した機器は取り外し済みで特定できている。
  • 共有ディスク装置は直接インターネットとの接続は行われていない。
  • DDoS攻撃等の外部からの攻撃に対し、常時監視を行っており今回の障害発生時にアラートは確認されていない。
金融庁へ報告書提出
  • 金融庁の報告徴求命令に基づき10月16日に報告書を提出。
  • 金融庁は提出を受けた報告書の内容に基づき行政処分の検討を行う。
  • 報告書には次の内容が含まれていたとみられる。
    • 障害発生の原因として、機器故障時の設定不備によるバックアップが動作しなかったこと
    • 当該原因となった設定の変更、および同様の問題がないかシステム全体の総点検の実施を行ったこと
    • システム障害発生時に速やかな売買再開が行えるよう、証券会社と事前にルールを設けること
    • 再発防止を検討する協議会を設置する方向での調整を進めていること
障害原因を公表
  • 東証は障害原因がマニュアル不備による設定誤りに起因した自動切替の無効化であったと公表。
  • 東証はNAS故障時に30秒以内に自動的に切替を行い業務継続することを要件として定めている。
  • 現在稼働するarrowhead構築時に設定の内容を東証、富士通の2社で妥当性を共同検討。これまでの稼働実績から富士通の設定値を東証が確認し決定された。
  • マニュアル上では設定によらず自動切替が行われる記載となっていたが、設定次第で自動切替が無効となる機器仕様となっていた。
  • 製品のOSバージョンアップの際、この仕様変更が生じたがマニュアル上にこの記載が反映されていなかった。
  • 富士通は初期設定値でのテストのみを行っていたことから、製品出荷時の試験で検出できなかった。
f:id:piyokango:20201021051611p:plain
マニュアル不備によりこれまでの設定値を踏襲してしまった。JPX発表の資料より。

富士通も今回の障害について、お詫びと原因等の公表を行った。

その後、社長を含む5人の関係役員の処分(月額報酬10%~50%の4か月間の減額)を発表した。

障害報告書の公表と社長の辞任
  • システム障害に係る独立社外取締役による調査委員会による調査報告書を公表。
  • 小括として、技術的原因の観点として、富士通の責任についての言及が行われている。

以上のとおり、本障害発生の技術的原因という観点からは、一定頻度での発生を避けられないメモリカード故障という偶発的事象に対処するための NAS の自動切替えに関する設定にマニュアルの記載ミスに起因する不備があったという点が最大の問題であり、その点については富士通の責任が大きい。
また、自動切替えが正常に動作しない場合を想定し、手動切替えの方法や手順等の準備を十分にしておけば本障害の影響をより低減することができたと考えられるから、事前対応においても富士通には十分でない点があったと考えられる。

  • 東証取引所社長がシステム障害の責任を重く受け止め、役職辞任をしたいと申し出。
  • 11月30日付で現職社長が退任し、日本取引所グループCEOが社長に異動となる。
迅速な復旧対応に向けた取り組みを報告
  • 12月21日に再発防止策検討協議会を通じて再発防止策の中間報告を発表
  • 障害復旧に係るルール、手順の整備についての検討や障害訓練計画、障害発生時の情報発信についての考え方を公表。
  • 2021年3月めどに最終報告書をまとめる予定。

証券取引所の障害関連発表

東証が10月1日に行った記者会見

www.youtube.com

その他

  • 10月1日は円相場は小幅な値動きにとどまり、外国為替市場での目立った反応は起きていない。*11

更新履歴

  • 2020年10月2日 PM 新規作成
  • 2020年10月2日 PM 共有ディスク装置は両現用稼働であり、2号機を待機系とした表現が誤りであったため図や記述を修正
  • 2020年10月7日 AM 続報反映(システム障害の直接的原因判明)
  • 2020年10月17日 AM 続報反映(金融庁への報告書提出)
  • 2020年10月21日 AM 続報反映(障害原因の公表)
  • 2020年12月1日 PM 続報反映(金融庁の行政処分等)
  • 2020年12月9日 AM 続報反映(富士通関係役員処分)
  • 2020年12月30日 AM 続報反映(再発防止策の検討状況)