orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。

大規模サービス障害、BGPプロトコル絡みがち説

大規模サービス障害とよく絡むBGPプロトコルの話題 インターネットサービスは最近はちょっと止まっただけでも世界的大ニュースになるから大変ですよね。中の人たちもメンタル保つのが大変だと思います。 今月はFackbookやインスタの件がクローズアップされま…

金融庁、みずほ銀行へ「管理命令」発動の意味とは

始めて知った時に、目を、耳を疑ったニュースです。驚きました。 www.nikkei.com 金融庁は週内にも、ATMなどの障害が多発するみずほフィナンシャルグループとみずほ銀行に対し、異例の行政処分となるシステムの「管理命令」を発動する方針だ。年内いっぱいを…

報告書に書いてはいけないNGワード

最近、世の中はすごくシステム障害に厳しくなっていて、一般のテレビのニュースを見ていてもシステム障害の話をするようになりました。 システム運用を仕事にしている私にとってはとても胃の痛くなるような時代が到来しましたが、社会的責任がいよいよ高まっ…

「性能問題」ハードウェアの問題だけど単純に交換しても治らないケースのお話

今日(2021/9/1)は、AWSで障害が起き、かなりの会社が巻き込まれて話題になっていました。 www.nikkei.com 米アマゾン・ドット・コムのクラウドサービス「アマゾン・ウェブ・サービス」(AWS)で2日、障害が発生した。複数の証券会社や大手銀行のアプリなど…

みずほ銀行システム障害(2021/8/20)ハードウェア障害で話を終わらせてはいけない

2021/8/20に発生したみずほ銀行のシステム障害について、記者会見をNHKのサイトにて閲覧しました。 www.itmedia.co.jp 勘定系システム「MINORI」のハードウェア部分で発生したシステム障害により、8月20日朝からみずほ銀行とみずほ信託銀行の店頭窓口で入出…

システム運用における何もしないことの尊さ

夏期休暇のある会社も多いと思いますがそういった休暇期間の前は、大きなシステム変更はできるだけ行わないのが鉄則です。 なぜかと言うと、システム障害の発生率はシステム変更後に高くなるからです。何も変更しない場合は本当に大きな障害は少ない。システ…

みずほ銀行の障害報告に思う(2)

第三者委員会が調査報告書を公開 みずほ銀行のシステム障害の件、第三者委員会の調査報告書が公開されました。 nordot.app みずほフィナンシャルグループ(FG)は15日、みずほ銀行で相次いだシステム障害に関する第三者委員会の調査報告書を公表した。システ…

みずほ銀行の障害報告に思う

みずほ銀行の中間障害報告(2021/4/5付)を読んでの率直な感想です。 www.mizuho-fg.co.jp 株式会社みずほフィナンシャルグループ(以下「当社」)およびBKは、BKにて発生したシステム障害につきまして、原因究明を進めており、現時点において認識している課…

運用エンジニアがコロナ対策を考える

3回目の緊急事態宣言発動で、言論も盛り上がってますね。 お金を配れ、という意見に対しては私はこう思ってます。 →お金を配って、ステイホームや休業が効果的に発動したとしても、どうせほっとけばまた感染拡大するので、何度もお金配ることが非現実的であ…

COCOA不具合調査・再発防止策検討チームが、報告書を提出した件

報告書が公開 業界内で話題になった、COCOAの不具合放置ですが、報告書が出たそうです。 www.asahi.com 新型コロナウイルス感染者との接触を知らせるスマートフォンのアプリ「COCOA(ココア)」で起きた不具合について、厚生労働省による検証結果の報告書が1…

運用強化をルールの追加と読み間違えるほとんどの現場

去年の東証障害から、今年はみずほの件と、金融システム障害が立て続けに起こっています。そこに日経新聞が「運用不備」「運用のゆるみ」と書きなぐり、運用に問題があるんじゃないかと言う話で盛り上がっているようですのでコメントをば。 そもそも「なぜな…

ていねいに物事に接することが今後の命運を分ける

世の中を見ていると、終わりそうで終わらないコロナ禍に対して、対応が雑になってきていると思う。政府の細やかな福祉はだんだんと、雑な福祉に変わってきている。全員に10万円配るという政策が、本当に所得がない人にだけ5万円配る、みたいな話になってきて…

トラブルになりやすい データ移行という沼を考える

みずほ銀行が、データ移行という沼にハマってしまったと聞いて。 piyolog.hatenadiary.jp みずほ銀行は障害の発生原因を定期預金取引のデータ移行作業によるものと発表。データ移行作業は障害が発生した28日朝までに行われており、作業中に不具合が発生した…

災害に強い情報システムとは言うけれど

昨日深夜の地震で私の身の周りには被害は出なかったのですが、ツイッターなどを見ていると家財道具が散乱している事例がたくさん見られました。被害に遭われた皆様は今日片づけ作業が大変かと思います。 一方で、情報システム周りでも、今日地震が原因で停止…

Microsoft Teams障害の裏で、AzureでCosmos DBの障害が発生中(解決済み)

Teamsの障害 コラボレーションツールで有名なMicrosoft Teamsが障害中とのこと。 k-tai.watch.impress.co.jp 日本時間の2月12日午前から、米マイクロソフトが提供する「Teams」が正常に利用できない問題が発生していると、一部ユーザーが報告している。 提供…

謝罪のメカニズム

テレビでニュース番組を見ていて思うのは、謝罪の場面。どうも聞いていると、謝罪すべきその内容について、とにかく謝っているということです。申し訳ありませんでした。すいませんでした。言葉は踊るのですが、なぜその問題が発生したのかの経緯。原因の深…

システム障害の表と裏を語る

昨日、Googleの障害がありまして・・。 www.itmedia.co.jp 米Googleの「Workspace」を含む同社の多くのサービスが12月14日の午後9時ごろから約45分間使えなくなっていた障害の原因は、各種サービスにログインするための認証ツールのストレージクォータの問題…

ファイルサーバーはもうオワコン 危険性を認識せよ

どんな会社にも、ファイルサーバーはありますよね。 そのデータが流出したら。 www.asahi.com 企業や組織の機密情報を盗み取り金銭を要求するサイバー犯罪グループが、ゲーム大手カプコン(大阪市)に攻撃を仕掛けて機密情報などを入手したとして、同社に取…

「ふくいナビ」の件で契約終了と削除の関係を考える

※写真は記事とは関係ありません。 www.fukuishimbun.co.jp ふくい産業支援センター(福井県坂井市)は11月5日、同センターが運営するポータルサイト「ふくいナビ」のデータが全て失われ、使用できなくなったと発表した。同センターによると、サーバーを貸…

40代が思う無理な労働をした後のフォローアップ

土曜日午前四時。 休日なので前日は夜更かしして午前二時まで起きていて、深い睡眠に入りかけているころ。一週間の疲れを取るために朝も寝坊しようと思っていてリラックスしているこのタイミングで、スマホが鳴るのです。 「ブー」っと。 さすがに真夜中にメ…

システム運用者だがつながらない権利が欲しいけど見つからない

システムは24時間動いているので、業務時間外でも対応が必要なケースがあります。すぐに気が付けるように監視を様々組み合わせてスマホに通知が来るようにしていますが、そういえばこれは「つながらない権利」をあきらめていることと同じですね。 www.sankei…

最新バージョンに上げ続ける運用 VS フリーズさせる運用

東証システム障害の報告書を見ましたが、IT業界全体が抱える哲学的な話だと思いました。 pr.fujitsu.com マニュアルの記載と実際の仕様の齟齬が生じた原因は、当該共有ディスク装置のオペレーティングシステムのバージョンアップにより製品仕様が変更された…

Twitterがおかしい

うーん、Twitterに書き込みができません。 タイムラインも最新ツイート順に並んでいるようには見えないし、通知も先ほどまでは全く表示できず、今は復活しているものの誰も書き込めない様子でだんまりです。 Twitterが停止していると社会的な影響も大きいと…

旧来の冗長化対策はもう古い これから考えるべき冗長化の在り方

そろそろ、アクティブ-スタンバイ型の冗長構成は、冗長化と言わない方がいいかもしれないなあと東証のシステム障害を思い返して感じます。 例えば、あなたが何か重要な任務に就いているとします。重要ですが一人、ワンオペなので役員が心配して、一人部下を…

東証システム障害「設定値に不備」を考える

引用:arrowhead の障害に関する原因と対策について | 日本取引所グループ 2020年10月1日に発生した東証システム障害について、東証から続報が発表されています。 www.itmedia.co.jp 東京証券取引所は10月5日、1日に発生した株式売買システム「arrowhead」の…

東証システム障害への雑感

昨日、2020年10月1日に発生した東証のシステム障害について、いろいろな情報に目を通しているが、おそらく数年は語られるであろうこの件についていろいろ考えていた。影響が大きすぎるので軽はずみなことも書けず、まとまらなかったので昨日時点での記事の作…

Azure ADが停止すると何が起きるのか

Microsoftが提供するパブリッククラウド基盤であるAzure。その状態を確認できるステータスページを見ると、Azure Active Directory(通称Azure AD)が警告状態であることがわかります。 警告は、英語で書かれていますが日本語訳すると以下のような感じです。…

あの部署は本当にひどかったなっていう思い出(の一部)

不定期にデータセンターに電源ボタンを押しに行く 昔の話です。 会社のメールサーバーをオンプレ運用していまして、ウイルスチェック用のアプライアンス+Windowsでメールサーバー用ソフトウェアを動かす、という構成でした。 オフィスで仕事をしていると、…

仕様通りに作ってバグもないのに大問題になるケースをどう防ぐか

ドコモ口座問題、大変なことになっていますね。 www.itmedia.co.jp NTTドコモが提供する電子決済サービス「ドコモ口座」を利用して、銀行から不正に現金を引き出す被害が相次いでいる。七十七銀行(宮城県仙台市)は9月7日、同行の顧客に被害があったとして…

人間は愚者であることを頭に入れればシステム障害は減る件

ちょっとドライな話ですが・・。 私は運用保守の仕事をしているので、システム障害が大嫌いです。どうすれば無くなるのだろうと日々、運用改善に取り組んでいます。 システムというのは、構築をし、テストをし、本番リリースします。そして修正を繰り返して…