orangeitems’s diary

クラウド専任の40代インフラエンジニアが書くブログ。新規事業マネージャー。20世紀末の就職氷河期スタート時にIT業界に文系未経験で入りこみそのまま生き残った人。

KDDI障害報告、雑感

KDDIの大規模障害の報告内容を見て、思ったこと。 japan.zdnet.com KDDIは7月29日、同月2~4日に発生した通信障害の原因や再発防止策、顧客への補償などについて明らかにした。通信障害はコアルーターの経路設定ミスが発端となったことが分かった。 全方面に…

データセンターが熱くなるとこうなる

ロンドンが猛暑でえらいこっちゃ、らしいです。 www.itmedia.co.jp Google Cloudの欧州リージョンの一部(europe-west2)で障害が発生している。ロンドンにあるデータセンターの1つで、7月20日午前2時13分ごろ(日本時間、以下同)から、冷却関連のトラブル…

システム障害の説明責任と、現場の統制

経験をふまえて言っておくと、対外的な説明と、社内的な事情はだいたい乖離している。社内的にはわかっていることは積み上げられているが、まとまってはいない。それらの情報をいかに対外的に表現するか。技術トップがシナリオをいくつか作り、経営層へ提示…

au通信障害に思う 基盤とソフトウェアの密接で難しい関係

auの障害の件、コアルーターの交換がトリガーになっているのに、記者会見のプレゼンの絵に掲載されていないので理解がしずらくなっているように思う。 発生事象概要 pic.twitter.com/EsNja9dLcp — Munechika Nishida (@mnishi41) 2022年7月3日 クラウド運用…

au通信障害を踏まえ、過去の通信障害の振り返り・VoLTEの概要を知る

まだ収束しないauの通信障害。 私の家族がUQ Mobileを使っていて、一台は復活したけど、もう一台がまだ復活していないみたいな変な状態にある。 なかなか大きな障害なのだが、過去10年の通信障害を振り返ってみた。 *** 2018/12 ソフトバンク www.itmedia.co…

障害報告書をめぐる上司と部下のお話

A君「C課長、障害報告書作りました。確認していただけますか。」 C課長「ああ、この前のヒューマンエラーの件ね。君が、サーバーを間違えて、開発じゃなくて本番のほうを落としたんだっけ。B君も見てたけど、気づかなったって言ってたけど。」 A君「・・はい…

障害報告書作成がなぜ意味を無くしているか 止まらない障害の理由

障害報告書を一生懸命書いて残業している方々を見ているんだけど。障害を起こした人が報告書を作成し、それを上司が確認し、突き返したりして、延々と時間を重ねている。 皆真剣で、仕事している感は出るんだけど、さて、そのできた報告書って誰が読むんだろ…

デジタルはアナログでもある

三井住友銀行の先日の障害について、原因がはっきりしたらしい。 xtech.nikkei.com 一部設定の不備に伴い、国内の勘定系システムとATMチャネル間の中継システムにおいて処理時間が長くなったことが原因だった。同行は5月1日にプログラムを修正し、システム上…

一見安定しているシステム運用の現場が、急に危機になる理由

知床遊覧船の事故について、犠牲者のご冥福をお祈りするとともに、行方不明者の無事を願っています。 この件のバックグラウンドを調べると、学ぶべき話が聞こえてきた。 toyokeizai.net 観光船を運航する「知床遊覧船」(北海道斜里町)は、2020年末に退職した…

若手に痛みをどう伝えるか

自責障害、という言葉で表現される、いわゆるオペミス、というのは本当に怖いものである。自分が、それをしたことで、障害が発生するということ。 オペミスを掘り返していくと、かなり初歩的なミスであることが多い。勘違いしていたとか、値を間違えたとか、…

あわせて読みたい 「ポストモーテム みずほ銀行システム障害 事後検証報告」

もうすぐ話題の本が出るらしい。 ポストモーテム みずほ銀行システム障害 事後検証報告 単行本 – 2022/3/17日経コンピュータ (著) なぜ繰り返すのか、メガバンクの失敗に学ぶ みずほ銀行で2021年2月からの12カ月間に11回ものシステム障害が発生した。2002年…

障害対応って、どうやったら身に着くんだろうか

障害対応って、自分ではできる。 それも、かなりの品質でできると思ってる。ハードウェア、通信、仮想基盤、OS、ミドルウェアのレベルまで、幅広く対応してきたのがここに来て生きている。ITの世界は抽象化し過ぎて、それぞれの領域の専門家が存在するのはい…

どうすれば障害がおきない現場ができるか

見ましたか?、このニュース。 www3.nhk.or.jp 去年、相次いだシステム障害をめぐり、みずほフィナンシャルグループが来週、金融庁に提出する業務改善計画案の全容が明らかになりました。システムの開発や保守に必要な要員を確保するとともに、企業風土の改…

バックアップを取ること自体に、リスクがあるという現実

システム運用の仕事に関わって随分長いので、バックアップという行為についての危険性は十分に承知をしています。数年前にバックアップ絡みで大きな事故があったのを記憶していて、あの件から多くの人が学んで最近はもう聞かなくなったとおもったら、先日ま…

大規模サービス障害、BGPプロトコル絡みがち説

大規模サービス障害とよく絡むBGPプロトコルの話題 インターネットサービスは最近はちょっと止まっただけでも世界的大ニュースになるから大変ですよね。中の人たちもメンタル保つのが大変だと思います。 今月はFackbookやインスタの件がクローズアップされま…

金融庁、みずほ銀行へ「管理命令」発動の意味とは

始めて知った時に、目を、耳を疑ったニュースです。驚きました。 www.nikkei.com 金融庁は週内にも、ATMなどの障害が多発するみずほフィナンシャルグループとみずほ銀行に対し、異例の行政処分となるシステムの「管理命令」を発動する方針だ。年内いっぱいを…

報告書に書いてはいけないNGワード

最近、世の中はすごくシステム障害に厳しくなっていて、一般のテレビのニュースを見ていてもシステム障害の話をするようになりました。 システム運用を仕事にしている私にとってはとても胃の痛くなるような時代が到来しましたが、社会的責任がいよいよ高まっ…

「性能問題」ハードウェアの問題だけど単純に交換しても治らないケースのお話

今日(2021/9/1)は、AWSで障害が起き、かなりの会社が巻き込まれて話題になっていました。 www.nikkei.com 米アマゾン・ドット・コムのクラウドサービス「アマゾン・ウェブ・サービス」(AWS)で2日、障害が発生した。複数の証券会社や大手銀行のアプリなど…

みずほ銀行システム障害(2021/8/20)ハードウェア障害で話を終わらせてはいけない

2021/8/20に発生したみずほ銀行のシステム障害について、記者会見をNHKのサイトにて閲覧しました。 www.itmedia.co.jp 勘定系システム「MINORI」のハードウェア部分で発生したシステム障害により、8月20日朝からみずほ銀行とみずほ信託銀行の店頭窓口で入出…

システム運用における何もしないことの尊さ

夏期休暇のある会社も多いと思いますがそういった休暇期間の前は、大きなシステム変更はできるだけ行わないのが鉄則です。 なぜかと言うと、システム障害の発生率はシステム変更後に高くなるからです。何も変更しない場合は本当に大きな障害は少ない。システ…

みずほ銀行の障害報告に思う(2)

第三者委員会が調査報告書を公開 みずほ銀行のシステム障害の件、第三者委員会の調査報告書が公開されました。 nordot.app みずほフィナンシャルグループ(FG)は15日、みずほ銀行で相次いだシステム障害に関する第三者委員会の調査報告書を公表した。システ…

みずほ銀行の障害報告に思う

みずほ銀行の中間障害報告(2021/4/5付)を読んでの率直な感想です。 www.mizuho-fg.co.jp 株式会社みずほフィナンシャルグループ(以下「当社」)およびBKは、BKにて発生したシステム障害につきまして、原因究明を進めており、現時点において認識している課…

運用エンジニアがコロナ対策を考える

3回目の緊急事態宣言発動で、言論も盛り上がってますね。 お金を配れ、という意見に対しては私はこう思ってます。 →お金を配って、ステイホームや休業が効果的に発動したとしても、どうせほっとけばまた感染拡大するので、何度もお金配ることが非現実的であ…

COCOA不具合調査・再発防止策検討チームが、報告書を提出した件

報告書が公開 業界内で話題になった、COCOAの不具合放置ですが、報告書が出たそうです。 www.asahi.com 新型コロナウイルス感染者との接触を知らせるスマートフォンのアプリ「COCOA(ココア)」で起きた不具合について、厚生労働省による検証結果の報告書が1…

運用強化をルールの追加と読み間違えるほとんどの現場

去年の東証障害から、今年はみずほの件と、金融システム障害が立て続けに起こっています。そこに日経新聞が「運用不備」「運用のゆるみ」と書きなぐり、運用に問題があるんじゃないかと言う話で盛り上がっているようですのでコメントをば。 そもそも「なぜな…

ていねいに物事に接することが今後の命運を分ける

世の中を見ていると、終わりそうで終わらないコロナ禍に対して、対応が雑になってきていると思う。政府の細やかな福祉はだんだんと、雑な福祉に変わってきている。全員に10万円配るという政策が、本当に所得がない人にだけ5万円配る、みたいな話になってきて…

トラブルになりやすい データ移行という沼を考える

みずほ銀行が、データ移行という沼にハマってしまったと聞いて。 piyolog.hatenadiary.jp みずほ銀行は障害の発生原因を定期預金取引のデータ移行作業によるものと発表。データ移行作業は障害が発生した28日朝までに行われており、作業中に不具合が発生した…

災害に強い情報システムとは言うけれど

昨日深夜の地震で私の身の周りには被害は出なかったのですが、ツイッターなどを見ていると家財道具が散乱している事例がたくさん見られました。被害に遭われた皆様は今日片づけ作業が大変かと思います。 一方で、情報システム周りでも、今日地震が原因で停止…

Microsoft Teams障害の裏で、AzureでCosmos DBの障害が発生中(解決済み)

Teamsの障害 コラボレーションツールで有名なMicrosoft Teamsが障害中とのこと。 k-tai.watch.impress.co.jp 日本時間の2月12日午前から、米マイクロソフトが提供する「Teams」が正常に利用できない問題が発生していると、一部ユーザーが報告している。 提供…

謝罪のメカニズム

テレビでニュース番組を見ていて思うのは、謝罪の場面。どうも聞いていると、謝罪すべきその内容について、とにかく謝っているということです。申し訳ありませんでした。すいませんでした。言葉は踊るのですが、なぜその問題が発生したのかの経緯。原因の深…