orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。

想定外の障害に取り組んで気が付いたこと

ここ最近、想定外の障害が続いています。 この土日でやっと落ち着いた感じです。 本当に毎日毎日毎日、想定外が発生しました。 落ち着いているときは一か月単位、いや、季節単位、年単位で落ち着いているのに、なぜかこの数週間、驚きの想定外です。 先週は…

ヤバいと思ったらオフィスに行け

障害発生 なーんでこんな時に、と思うときに起こるのが障害です。 まさに今日、降りかかってきました。とんでもないヤツが。 で、内容はヒミツですが、まあ言葉にならないぐらい大変です。 クラウドだから、テレワークでも十分対応できるよね、と皆思います…

サービス共通基盤のかかえるリスク、リターン、コントロール

https://point.recruit.co.jp/ リクルートIDにトラブル発生 2020/3/2 16:30現在、リクルートIDに何らかのトラブルが発生しているようで、緊急メンテナンスを実施しているそうです。 ※18:00ごろに復旧したっぽいです。 ユーザー判別にリクルートIDを利用して…

なぜシステム監査でシステム障害や不正が防げないか

システム監査の勉強中です 情報処理技術者試験ですが、まだIPAが予定通り2020/4/19に行うと言っているので、ここはまだ予定通り実施する体で準備をするべきだと思います。延期や中止があっても、試験自体はいつか行われますから、決して損にはなりません。 …

顧客へのお知らせ文言にベンダーの名前を出すのって本当に良くない

そこでベンダー名出すかな 本当に住友SBIネット銀行って日本IBM嫌いなんだろうな・・と思う。 mainichi.jp 住信SBIネット銀行は23日、振り込みや残高照会などほぼ全ての取引が一時できなくなるシステムトラブルが起きたと明らかにした。日本IBMのデータセン…

「無印良品」システムトラブルに関する情報収集

システムトラブルの概要 無印良品の各サイトについて、昨年の年末年始から雲行きが怪しいことは存じ上げていましたが先週あたりからメディアにまで記事が出始めていました。 tech.nikkeibp.co.jp 同社広報によると、もともと2019年12月31日午前0時から通販サ…

システムの重み/仕事の責任、二者の関係性についての考察

金融系システムの重み 金融系システムは社会的に重要な役割を担っていて、その責任は重大・・ということはわかるんです。 togetter.com というのは私も4年ほど金融系システムに関わったことがあって、現場がどれくらい真摯にシステムの安定運用に携わってい…

もしシステム運用の部長と運用マネージャーがミルクボーイだったら

障害原因検討はミルクボーイか うム、確かにな・・。 とこのツイートをみて思いました。 ミルクボーイ話法は障害原因検討時によく使う。A:「サーバのメモリ使用量が時間経過とともに増大していきます」B:「それはメモリリークだなぁ」A:「でも改修したアプリ…

システム障害はなぜ起こるかを人間系から考える

システム障害は何からもたらされるか システム運用エンジニアに長く従事していると、システム障害は必然によって引き起こされる部分も数多くある、ということを感じます。 もちろん、偶然による部分も否定できませんが、偶然偶然言っていたらいつまでも幸せ…

京都市基幹系システム刷新失敗の考察

京都市の件 京都市の基幹システム刷新が、またもや暗礁に乗り上げているようです。 tech.nikkeibp.co.jp 京都市はNEC製メインフレーム上で約30年稼働する基幹系システムのバッチ処理をオープンシステムに刷新するプロジェクトにおいて、サブシステムの1つで…

ホスティングサービスでのトラブルを考えてみる

ホスティングサービスでのトラブル サーバーのホスティングサービスを提供することについて、事業者側の大変さは経験上分かっています。 分かったうえで、この文書のことを考えてみます。 qiita.com さくらで専用サーバーを10年ほど利用しています。単体の…

バックアップが戻らないことに関する考察

”バックアップが取得出来ていなかった” インフラエンジニアとしては身につまされる話。 tech.nikkeibp.co.jp 日本電子計算は2019年12月16日、自治体向けIaaS「Jip-Base」を利用中の自治体でシステム障害が発生している問題について記者会見を開き、山田英司…

ストレージのファームウェアアップデートを急ぐべき理由

続報 ストレージはユーザーのデータやアプリケーション/OS自体を保持している、システムの中での最重要部分です。 2019/12/11現在まだ解決していない、50自治体システム障害はまさにこのストレージを動かしているファームウェアが原因と聞いています。 この…

ストレージの復旧に時間がかかる理由を憶測する

なぜ復旧しないのか こちら、有名なニュースですが・・。 tech.nikkeibp.co.jp 2019年12月4日に発生した50自治体のシステム障害は、発生から6日目になる2019年12月9日午前10時の時点でまだ全面復旧に至っていない。原因となった日本電子計算のIaaS「Jip-Base…

ストレージはこわいよ

ある夜起こったどこかの会社の話 夜も更けた午前3時半ごろの思い出。 オンプレミスでの仮想基盤。いくつものシステムが動いていたのですが突然、この時間に複数のシステムエラーを感知。 電話で連絡が来るようになっていたのですが、あっちもこっちもそっち…

時限爆弾系障害起因の危ういお話

32768時間後に爆発する時限装置 一読して戦慄した記事。 pc.watch.impress.co.jp Hewlett Packard Enterprise(HPE)が11月29日に公開したサポート文書によれば、同社のサーバーやストレージ製品に使われている特定のSAS SSDにおいて、稼働時間が32,768時間を…

Netflixですら落ちるときは落ちるという事実

Netflix障害中 Netflixが障害中です。 Downdetectorによれば、今日(2019/11/21)の22:55ごろから発生し継続しています。 https://downdetector.jp/shougai/netflix/ https://downdetector.jp/shougai/netflix/mappu/ 「Cannot play title. Please try again…

Office365の障害でパブリッククラウドに置いてきたものを思い出す

Office 365、二日連続で障害 Office 365の障害が二日連続で発生し、ニュースになっていますね。 www.itmedia.co.jp 米Microsoftは11月19日午後9時35分(日本時間)、同日昼頃から障害が起きていた「Office 365」のメール機能が復旧したと発表した。 internet…

東証「arrowhead」システム更新に見る冗長構成の勘所

東証「arrowhead」システム更新の話 オンプレミスで苦闘するのが当然だったころのインフラエンジニアの現場は傭兵が集う戦場のような張り詰めた雰囲気があったのを思い出しますが、クラウド全盛の時代にもなおそんな現場があるんだと感心した記事です。 tech…

「ラブプラスEVERY」緊急メンテナンスが長期化する理由を推測する

ラブプラス EVERYのメンテナンスが長期化 ラブプラス EVERYがサービスイン後に緊急メンテナンスとのニュースを聴き、「これは長期化するな」と思ったものですが。 そんなにすぐ治りそうなバグに見えない。「ラブプラス EVERY」、問題解決のため連休ぶち抜き…

障害対応/不具合対応を行う場合の心構え

はじめに さっきまで障害と言うか、不具合の調査をやっていました。 もうこの世界に随分長くいるので、多分原因はアレでコレでと当たりをつけてやったものの全然当てはまらず、調査は長期化し、まだまだ学び足りないな・・と反省しきりです。 たくさんの人が…

sudo脆弱性(CVE-2019-14287)はてへぺろ

sudoってヤバいの? 久々にセキュリティーネタでびっくりしましたよ。 japanese.engadget.com Linuxのsudoコマンドに、本来root権限をとれないユーザーがそれを奪取できるようになる脆弱性が発見されました。この脆弱性を突けば、sudoを利用する際の権限設定…

アクセス集中はオンプレミスにおける最大のリスクの一つ

「送り状発行システムB2クラウド」障害を振り返る 先週、ヤマト運輸がビジネス顧客向けに自社インフラ基盤で提供している「送り状発行システムB2クラウド」が3日間ほどアクセスしにくくなる障害が起こっていました。 www.itmedia.co.jp ヤマト運輸は9月27日…

障害対応のときに思い出す一言「世界初がここで起こるはずがない」

システム運用と障害対応 システム運用の仕事をすると避けて通れないのが障害対応です。あのコンピュータというものは絶対壊れない、ずっと同じことができる、という顔をしているのに突如、異常な動作をするのですから困ったものです。最近は要素技術もどんど…

IT業界人に語り継ぎたいシステムトラブル史

システムトラブル38年史 私も有料購読している日経xTECHにかなりためになる記事が掲載されています。 tech.nikkeibp.co.jp IT黎明(れいめい)期の1980年代からまだ記憶に新しい2010年代まで、全1176件の「動かないコンピュータ」を振り返る。年代ごとの主な…

データセンター付近が停電になるとどうなるか

台風による停電と、データセンターへの影響 先日の関東を襲った台風について、特に千葉県中心に大きな被害となっておりまだ社会インフラが復旧していない模様です。もう数日経過しており住民の方は大変な思いをされていると思います。 千葉県といえば、千葉…

「クラウドは信用できない」に対する基本的な考え方

十年前のクラウド 十年前はクラウドなんて色物と思われていましたし、データセンターと物理サーバービジネスは百年とは言いませんがひとまずしばらくは終わらないと言う雰囲気でした。 ところが風向きが変わったのが東日本大震災です。私も東京の中心にたま…

古いパソコンを駆逐しないとインターネットが詰まる

Windows Updateがインターネットを詰まらせる Windows Updateが引き金となってインターネットが詰まる現象が起きてるらしいですね。 tech.nikkeibp.co.jp NTTコミュニケーションズは2019年8月29日、インターネット接続サービス「OCN」など一部サービスにおい…

AWS障害 マルチAZ構成でも障害は起きていたんだ問題を考える

AWS、マルチAZでも障害影響ありを認める 先週のAWS障害から一週間が経とうとしています。 特定のアベイラビリティーゾーンの特定データセンターにおける冷却機構の問題だったため、マルチAZ構成を組んでいたら障害は回避できたのだというのが第一報での論調…

AWSの障害報告を意訳してみた

AWSの障害報告を意訳してみた AWSの2019/8/23に東京リージョンで発生した障害の報告書がAWSより提示されています。このままではエンドユーザーに出しづらいと思いますので、日本の障害報告書っぽい体裁にまとめてみました。 内容については保証いたしません…