東京証券取引所のトレード停止の裏に何があったのか・・・
前書き
2020年10月1日、東証のシステム全停止のニュースが報道されました。
東証の上層部の対応が賞賛されていましたが、
マスコミは「なぜバックアップを取れなかったのか」と叩いていた覚えがあります。
ただ自分が興味があるのは技術的要因です。
X-Techの記事を読み漁りました。
トレードシステム「ArrowHead」
ArrowHeadとは富士通が最新技術を駆使し開発した現物株用の株式売買システムの通称です。
絶対落ちないシステムを開発したと言われてましたが、今回落ちてしまいました・・・
なお今回のArrowHeadは東京・名古屋・札幌・福岡の証券取引所でも活用されています。
原因はArrowHeadを構成するNASのディスクメモリの故障
ArrowHeadを構成する運用ネットワーク内のNAS(共有サーバー) 1号機 ディスクにおけるメモリ故障が原因とされています。
NASでは複数のシステムが使用する認証用データが格納されており、
ここが故障する事によって、電文の送受信やArrowHeadを構成する売買監視サーバーのアクセスが不能になったそうです。
実はIT界隈であるあるらしいフェイルオーバーの失敗
フェイルオーバーとはシステムに異常が発生した際に、待機系システムに切り替われる機能を示します。
これほど信頼性の高いシステムだとフェイルオーバーくらいは実現できてそうですよね。
もちろんArrowHeadでも不能となったNASに加えて、もう一台NAS 2号機が存在していました。
そのNAS 1号機とNAS 2号機はActive-Active構成(同じシステムを同時に動作させ、全ての系統を同時に稼働)。
どちらか一方の異常で2号機に切り替わる機能が実装されています。
(逆にActive-Standby構成はどちらか一方が待機モード)
記事によると2019年でもAWS(Amazon Web Service)の空調制御システムがフェイルオーバーに失敗した例があったり、
2017年に東証でも売買システムのサーバーの部分的故障を「故障」と認識できずに失敗したりと・・・。
全世界のどこかで頻繁に発生してるっぽい。
実はNAS 2号機へのフェイルオーバーができなかった理由は判明しています。
フェイルオーバーの失敗原因は切り替え用設定値の不備でした。
2019年の11月にArrowHeadのテストとして、
NASの死活監視(ソフトウェアやシステムが正常に動作するか定期的に調査)のテストでフェイルオーバーの成功を確認しました。
しかしそのテスト時に設定不備を見つけられなかった要因は不明だそうです。
東証の対応
システム自体は再起動すれば午後からの取引はできるとのことでしたが、
全停止により午後も見送ったようですね。
対応にまだ不確定要素が多かったためか・・・。
TOPIX(東証株価指数)や日経平均株価も算出されないんですし、トレーダーの顧客からは問い合わせの嵐だったそうです。