orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。

運用エンジニアがコロナ対策を考える

3回目の緊急事態宣言発動で、言論も盛り上がってますね。 お金を配れ、という意見に対しては私はこう思ってます。 →お金を配って、ステイホームや休業が効果的に発動したとしても、どうせほっとけばまた感染拡大するので、何度もお金配ることが非現実的であ…

COCOA不具合調査・再発防止策検討チームが、報告書を提出した件

報告書が公開 業界内で話題になった、COCOAの不具合放置ですが、報告書が出たそうです。 www.asahi.com 新型コロナウイルス感染者との接触を知らせるスマートフォンのアプリ「COCOA(ココア)」で起きた不具合について、厚生労働省による検証結果の報告書が1…

運用強化をルールの追加と読み間違えるほとんどの現場

去年の東証障害から、今年はみずほの件と、金融システム障害が立て続けに起こっています。そこに日経新聞が「運用不備」「運用のゆるみ」と書きなぐり、運用に問題があるんじゃないかと言う話で盛り上がっているようですのでコメントをば。 そもそも「なぜな…

ていねいに物事に接することが今後の命運を分ける

世の中を見ていると、終わりそうで終わらないコロナ禍に対して、対応が雑になってきていると思う。政府の細やかな福祉はだんだんと、雑な福祉に変わってきている。全員に10万円配るという政策が、本当に所得がない人にだけ5万円配る、みたいな話になってきて…

トラブルになりやすい データ移行という沼を考える

みずほ銀行が、データ移行という沼にハマってしまったと聞いて。 piyolog.hatenadiary.jp みずほ銀行は障害の発生原因を定期預金取引のデータ移行作業によるものと発表。データ移行作業は障害が発生した28日朝までに行われており、作業中に不具合が発生した…

災害に強い情報システムとは言うけれど

昨日深夜の地震で私の身の周りには被害は出なかったのですが、ツイッターなどを見ていると家財道具が散乱している事例がたくさん見られました。被害に遭われた皆様は今日片づけ作業が大変かと思います。 一方で、情報システム周りでも、今日地震が原因で停止…

Microsoft Teams障害の裏で、AzureでCosmos DBの障害が発生中(解決済み)

Teamsの障害 コラボレーションツールで有名なMicrosoft Teamsが障害中とのこと。 k-tai.watch.impress.co.jp 日本時間の2月12日午前から、米マイクロソフトが提供する「Teams」が正常に利用できない問題が発生していると、一部ユーザーが報告している。 提供…

謝罪のメカニズム

テレビでニュース番組を見ていて思うのは、謝罪の場面。どうも聞いていると、謝罪すべきその内容について、とにかく謝っているということです。申し訳ありませんでした。すいませんでした。言葉は踊るのですが、なぜその問題が発生したのかの経緯。原因の深…

システム障害の表と裏を語る

昨日、Googleの障害がありまして・・。 www.itmedia.co.jp 米Googleの「Workspace」を含む同社の多くのサービスが12月14日の午後9時ごろから約45分間使えなくなっていた障害の原因は、各種サービスにログインするための認証ツールのストレージクォータの問題…

ファイルサーバーはもうオワコン 危険性を認識せよ

どんな会社にも、ファイルサーバーはありますよね。 そのデータが流出したら。 www.asahi.com 企業や組織の機密情報を盗み取り金銭を要求するサイバー犯罪グループが、ゲーム大手カプコン(大阪市)に攻撃を仕掛けて機密情報などを入手したとして、同社に取…

「ふくいナビ」の件で契約終了と削除の関係を考える

※写真は記事とは関係ありません。 www.fukuishimbun.co.jp ふくい産業支援センター(福井県坂井市)は11月5日、同センターが運営するポータルサイト「ふくいナビ」のデータが全て失われ、使用できなくなったと発表した。同センターによると、サーバーを貸…

40代が思う無理な労働をした後のフォローアップ

土曜日午前四時。 休日なので前日は夜更かしして午前二時まで起きていて、深い睡眠に入りかけているころ。一週間の疲れを取るために朝も寝坊しようと思っていてリラックスしているこのタイミングで、スマホが鳴るのです。 「ブー」っと。 さすがに真夜中にメ…

システム運用者だがつながらない権利が欲しいけど見つからない

システムは24時間動いているので、業務時間外でも対応が必要なケースがあります。すぐに気が付けるように監視を様々組み合わせてスマホに通知が来るようにしていますが、そういえばこれは「つながらない権利」をあきらめていることと同じですね。 www.sankei…

最新バージョンに上げ続ける運用 VS フリーズさせる運用

東証システム障害の報告書を見ましたが、IT業界全体が抱える哲学的な話だと思いました。 pr.fujitsu.com マニュアルの記載と実際の仕様の齟齬が生じた原因は、当該共有ディスク装置のオペレーティングシステムのバージョンアップにより製品仕様が変更された…

Twitterがおかしい

うーん、Twitterに書き込みができません。 タイムラインも最新ツイート順に並んでいるようには見えないし、通知も先ほどまでは全く表示できず、今は復活しているものの誰も書き込めない様子でだんまりです。 Twitterが停止していると社会的な影響も大きいと…

旧来の冗長化対策はもう古い これから考えるべき冗長化の在り方

そろそろ、アクティブ-スタンバイ型の冗長構成は、冗長化と言わない方がいいかもしれないなあと東証のシステム障害を思い返して感じます。 例えば、あなたが何か重要な任務に就いているとします。重要ですが一人、ワンオペなので役員が心配して、一人部下を…

東証システム障害「設定値に不備」を考える

引用:arrowhead の障害に関する原因と対策について | 日本取引所グループ 2020年10月1日に発生した東証システム障害について、東証から続報が発表されています。 www.itmedia.co.jp 東京証券取引所は10月5日、1日に発生した株式売買システム「arrowhead」の…

東証システム障害への雑感

昨日、2020年10月1日に発生した東証のシステム障害について、いろいろな情報に目を通しているが、おそらく数年は語られるであろうこの件についていろいろ考えていた。影響が大きすぎるので軽はずみなことも書けず、まとまらなかったので昨日時点での記事の作…

Azure ADが停止すると何が起きるのか

Microsoftが提供するパブリッククラウド基盤であるAzure。その状態を確認できるステータスページを見ると、Azure Active Directory(通称Azure AD)が警告状態であることがわかります。 警告は、英語で書かれていますが日本語訳すると以下のような感じです。…

あの部署は本当にひどかったなっていう思い出(の一部)

不定期にデータセンターに電源ボタンを押しに行く 昔の話です。 会社のメールサーバーをオンプレ運用していまして、ウイルスチェック用のアプライアンス+Windowsでメールサーバー用ソフトウェアを動かす、という構成でした。 オフィスで仕事をしていると、…

仕様通りに作ってバグもないのに大問題になるケースをどう防ぐか

ドコモ口座問題、大変なことになっていますね。 www.itmedia.co.jp NTTドコモが提供する電子決済サービス「ドコモ口座」を利用して、銀行から不正に現金を引き出す被害が相次いでいる。七十七銀行(宮城県仙台市)は9月7日、同行の顧客に被害があったとして…

人間は愚者であることを頭に入れればシステム障害は減る件

ちょっとドライな話ですが・・。 私は運用保守の仕事をしているので、システム障害が大嫌いです。どうすれば無くなるのだろうと日々、運用改善に取り組んでいます。 システムというのは、構築をし、テストをし、本番リリースします。そして修正を繰り返して…

「誰でもできる 障害報告書の書き方」というnote記事を書きました

noteに有料記事を書きました。 note.com それはそうと、この記事を書いている間に、note自体の障害に巻き込まれるというレアイベントが・・。 【復旧のお知らせ】修正対応が完了し、現在はご利用いただけます。ご不便をおかけし申しわけありませんでした。 h…

想定外の障害に取り組んで気が付いたこと

ここ最近、想定外の障害が続いています。 この土日でやっと落ち着いた感じです。 本当に毎日毎日毎日、想定外が発生しました。 落ち着いているときは一か月単位、いや、季節単位、年単位で落ち着いているのに、なぜかこの数週間、驚きの想定外です。 先週は…

ヤバいと思ったらオフィスに行け

障害発生 なーんでこんな時に、と思うときに起こるのが障害です。 まさに今日、降りかかってきました。とんでもないヤツが。 で、内容はヒミツですが、まあ言葉にならないぐらい大変です。 クラウドだから、テレワークでも十分対応できるよね、と皆思います…

サービス共通基盤のかかえるリスク、リターン、コントロール

https://point.recruit.co.jp/ リクルートIDにトラブル発生 2020/3/2 16:30現在、リクルートIDに何らかのトラブルが発生しているようで、緊急メンテナンスを実施しているそうです。 ※18:00ごろに復旧したっぽいです。 ユーザー判別にリクルートIDを利用して…

なぜシステム監査でシステム障害や不正が防げないか

システム監査の勉強中です 情報処理技術者試験ですが、まだIPAが予定通り2020/4/19に行うと言っているので、ここはまだ予定通り実施する体で準備をするべきだと思います。延期や中止があっても、試験自体はいつか行われますから、決して損にはなりません。 …

顧客へのお知らせ文言にベンダーの名前を出すのって本当に良くない

そこでベンダー名出すかな 本当に住友SBIネット銀行って日本IBM嫌いなんだろうな・・と思う。 mainichi.jp 住信SBIネット銀行は23日、振り込みや残高照会などほぼ全ての取引が一時できなくなるシステムトラブルが起きたと明らかにした。日本IBMのデータセン…

「無印良品」システムトラブルに関する情報収集

システムトラブルの概要 無印良品の各サイトについて、昨年の年末年始から雲行きが怪しいことは存じ上げていましたが先週あたりからメディアにまで記事が出始めていました。 tech.nikkeibp.co.jp 同社広報によると、もともと2019年12月31日午前0時から通販サ…

システムの重み/仕事の責任、二者の関係性についての考察

金融系システムの重み 金融系システムは社会的に重要な役割を担っていて、その責任は重大・・ということはわかるんです。 togetter.com というのは私も4年ほど金融系システムに関わったことがあって、現場がどれくらい真摯にシステムの安定運用に携わってい…