orangeitems’s diary

40代ITエンジニアが毎日何か書くブログ

Microsoft Teams障害の裏で、AzureでCosmos DBの障害が発生中(解決済み)

Teamsの障害 コラボレーションツールで有名なMicrosoft Teamsが障害中とのこと。 k-tai.watch.impress.co.jp 日本時間の2月12日午前から、米マイクロソフトが提供する「Teams」が正常に利用できない問題が発生していると、一部ユーザーが報告している。 提供…

謝罪のメカニズム

テレビでニュース番組を見ていて思うのは、謝罪の場面。どうも聞いていると、謝罪すべきその内容について、とにかく謝っているということです。申し訳ありませんでした。すいませんでした。言葉は踊るのですが、なぜその問題が発生したのかの経緯。原因の深…

システム障害の表と裏を語る

昨日、Googleの障害がありまして・・。 www.itmedia.co.jp 米Googleの「Workspace」を含む同社の多くのサービスが12月14日の午後9時ごろから約45分間使えなくなっていた障害の原因は、各種サービスにログインするための認証ツールのストレージクォータの問題…

ファイルサーバーはもうオワコン 危険性を認識せよ

どんな会社にも、ファイルサーバーはありますよね。 そのデータが流出したら。 www.asahi.com 企業や組織の機密情報を盗み取り金銭を要求するサイバー犯罪グループが、ゲーム大手カプコン(大阪市)に攻撃を仕掛けて機密情報などを入手したとして、同社に取…

「ふくいナビ」の件で契約終了と削除の関係を考える

※写真は記事とは関係ありません。 www.fukuishimbun.co.jp ふくい産業支援センター(福井県坂井市)は11月5日、同センターが運営するポータルサイト「ふくいナビ」のデータが全て失われ、使用できなくなったと発表した。同センターによると、サーバーを貸…

40代が思う無理な労働をした後のフォローアップ

土曜日午前四時。 休日なので前日は夜更かしして午前二時まで起きていて、深い睡眠に入りかけているころ。一週間の疲れを取るために朝も寝坊しようと思っていてリラックスしているこのタイミングで、スマホが鳴るのです。 「ブー」っと。 さすがに真夜中にメ…

システム運用者だがつながらない権利が欲しいけど見つからない

システムは24時間動いているので、業務時間外でも対応が必要なケースがあります。すぐに気が付けるように監視を様々組み合わせてスマホに通知が来るようにしていますが、そういえばこれは「つながらない権利」をあきらめていることと同じですね。 www.sankei…

最新バージョンに上げ続ける運用 VS フリーズさせる運用

東証システム障害の報告書を見ましたが、IT業界全体が抱える哲学的な話だと思いました。 pr.fujitsu.com マニュアルの記載と実際の仕様の齟齬が生じた原因は、当該共有ディスク装置のオペレーティングシステムのバージョンアップにより製品仕様が変更された…

Twitterがおかしい

うーん、Twitterに書き込みができません。 タイムラインも最新ツイート順に並んでいるようには見えないし、通知も先ほどまでは全く表示できず、今は復活しているものの誰も書き込めない様子でだんまりです。 Twitterが停止していると社会的な影響も大きいと…

旧来の冗長化対策はもう古い これから考えるべき冗長化の在り方

そろそろ、アクティブ-スタンバイ型の冗長構成は、冗長化と言わない方がいいかもしれないなあと東証のシステム障害を思い返して感じます。 例えば、あなたが何か重要な任務に就いているとします。重要ですが一人、ワンオペなので役員が心配して、一人部下を…

東証システム障害「設定値に不備」を考える

引用:arrowhead の障害に関する原因と対策について | 日本取引所グループ 2020年10月1日に発生した東証システム障害について、東証から続報が発表されています。 www.itmedia.co.jp 東京証券取引所は10月5日、1日に発生した株式売買システム「arrowhead」の…

東証システム障害への雑感

昨日、2020年10月1日に発生した東証のシステム障害について、いろいろな情報に目を通しているが、おそらく数年は語られるであろうこの件についていろいろ考えていた。影響が大きすぎるので軽はずみなことも書けず、まとまらなかったので昨日時点での記事の作…

Azure ADが停止すると何が起きるのか

Microsoftが提供するパブリッククラウド基盤であるAzure。その状態を確認できるステータスページを見ると、Azure Active Directory(通称Azure AD)が警告状態であることがわかります。 警告は、英語で書かれていますが日本語訳すると以下のような感じです。…

あの部署は本当にひどかったなっていう思い出(の一部)

不定期にデータセンターに電源ボタンを押しに行く 昔の話です。 会社のメールサーバーをオンプレ運用していまして、ウイルスチェック用のアプライアンス+Windowsでメールサーバー用ソフトウェアを動かす、という構成でした。 オフィスで仕事をしていると、…

仕様通りに作ってバグもないのに大問題になるケースをどう防ぐか

ドコモ口座問題、大変なことになっていますね。 www.itmedia.co.jp NTTドコモが提供する電子決済サービス「ドコモ口座」を利用して、銀行から不正に現金を引き出す被害が相次いでいる。七十七銀行(宮城県仙台市)は9月7日、同行の顧客に被害があったとして…

人間は愚者であることを頭に入れればシステム障害は減る件

ちょっとドライな話ですが・・。 私は運用保守の仕事をしているので、システム障害が大嫌いです。どうすれば無くなるのだろうと日々、運用改善に取り組んでいます。 システムというのは、構築をし、テストをし、本番リリースします。そして修正を繰り返して…

「誰でもできる 障害報告書の書き方」というnote記事を書きました

noteに有料記事を書きました。 note.com それはそうと、この記事を書いている間に、note自体の障害に巻き込まれるというレアイベントが・・。 【復旧のお知らせ】修正対応が完了し、現在はご利用いただけます。ご不便をおかけし申しわけありませんでした。 h…

想定外の障害に取り組んで気が付いたこと

ここ最近、想定外の障害が続いています。 この土日でやっと落ち着いた感じです。 本当に毎日毎日毎日、想定外が発生しました。 落ち着いているときは一か月単位、いや、季節単位、年単位で落ち着いているのに、なぜかこの数週間、驚きの想定外です。 先週は…

ヤバいと思ったらオフィスに行け

障害発生 なーんでこんな時に、と思うときに起こるのが障害です。 まさに今日、降りかかってきました。とんでもないヤツが。 で、内容はヒミツですが、まあ言葉にならないぐらい大変です。 クラウドだから、テレワークでも十分対応できるよね、と皆思います…

サービス共通基盤のかかえるリスク、リターン、コントロール

https://point.recruit.co.jp/ リクルートIDにトラブル発生 2020/3/2 16:30現在、リクルートIDに何らかのトラブルが発生しているようで、緊急メンテナンスを実施しているそうです。 ※18:00ごろに復旧したっぽいです。 ユーザー判別にリクルートIDを利用して…

なぜシステム監査でシステム障害や不正が防げないか

システム監査の勉強中です 情報処理技術者試験ですが、まだIPAが予定通り2020/4/19に行うと言っているので、ここはまだ予定通り実施する体で準備をするべきだと思います。延期や中止があっても、試験自体はいつか行われますから、決して損にはなりません。 …

顧客へのお知らせ文言にベンダーの名前を出すのって本当に良くない

そこでベンダー名出すかな 本当に住友SBIネット銀行って日本IBM嫌いなんだろうな・・と思う。 mainichi.jp 住信SBIネット銀行は23日、振り込みや残高照会などほぼ全ての取引が一時できなくなるシステムトラブルが起きたと明らかにした。日本IBMのデータセン…

「無印良品」システムトラブルに関する情報収集

システムトラブルの概要 無印良品の各サイトについて、昨年の年末年始から雲行きが怪しいことは存じ上げていましたが先週あたりからメディアにまで記事が出始めていました。 tech.nikkeibp.co.jp 同社広報によると、もともと2019年12月31日午前0時から通販サ…

システムの重み/仕事の責任、二者の関係性についての考察

金融系システムの重み 金融系システムは社会的に重要な役割を担っていて、その責任は重大・・ということはわかるんです。 togetter.com というのは私も4年ほど金融系システムに関わったことがあって、現場がどれくらい真摯にシステムの安定運用に携わってい…

もしシステム運用の部長と運用マネージャーがミルクボーイだったら

障害原因検討はミルクボーイか うム、確かにな・・。 とこのツイートをみて思いました。 ミルクボーイ話法は障害原因検討時によく使う。A:「サーバのメモリ使用量が時間経過とともに増大していきます」B:「それはメモリリークだなぁ」A:「でも改修したアプリ…

システム障害はなぜ起こるかを人間系から考える

システム障害は何からもたらされるか システム運用エンジニアに長く従事していると、システム障害は必然によって引き起こされる部分も数多くある、ということを感じます。 もちろん、偶然による部分も否定できませんが、偶然偶然言っていたらいつまでも幸せ…

京都市基幹系システム刷新失敗の考察

京都市の件 京都市の基幹システム刷新が、またもや暗礁に乗り上げているようです。 tech.nikkeibp.co.jp 京都市はNEC製メインフレーム上で約30年稼働する基幹系システムのバッチ処理をオープンシステムに刷新するプロジェクトにおいて、サブシステムの1つで…

ホスティングサービスでのトラブルを考えてみる

ホスティングサービスでのトラブル サーバーのホスティングサービスを提供することについて、事業者側の大変さは経験上分かっています。 分かったうえで、この文書のことを考えてみます。 qiita.com さくらで専用サーバーを10年ほど利用しています。単体の…

バックアップが戻らないことに関する考察

”バックアップが取得出来ていなかった” インフラエンジニアとしては身につまされる話。 tech.nikkeibp.co.jp 日本電子計算は2019年12月16日、自治体向けIaaS「Jip-Base」を利用中の自治体でシステム障害が発生している問題について記者会見を開き、山田英司…

ストレージのファームウェアアップデートを急ぐべき理由

続報 ストレージはユーザーのデータやアプリケーション/OS自体を保持している、システムの中での最重要部分です。 2019/12/11現在まだ解決していない、50自治体システム障害はまさにこのストレージを動かしているファームウェアが原因と聞いています。 この…