orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。

ストレージはこわいよ

ある夜起こったどこかの会社の話 夜も更けた午前3時半ごろの思い出。 オンプレミスでの仮想基盤。いくつものシステムが動いていたのですが突然、この時間に複数のシステムエラーを感知。 電話で連絡が来るようになっていたのですが、あっちもこっちもそっち…

時限爆弾系障害起因の危ういお話

32768時間後に爆発する時限装置 一読して戦慄した記事。 pc.watch.impress.co.jp Hewlett Packard Enterprise(HPE)が11月29日に公開したサポート文書によれば、同社のサーバーやストレージ製品に使われている特定のSAS SSDにおいて、稼働時間が32,768時間を…

Netflixですら落ちるときは落ちるという事実

Netflix障害中 Netflixが障害中です。 Downdetectorによれば、今日(2019/11/21)の22:55ごろから発生し継続しています。 https://downdetector.jp/shougai/netflix/ https://downdetector.jp/shougai/netflix/mappu/ 「Cannot play title. Please try again…

Office365の障害でパブリッククラウドに置いてきたものを思い出す

Office 365、二日連続で障害 Office 365の障害が二日連続で発生し、ニュースになっていますね。 www.itmedia.co.jp 米Microsoftは11月19日午後9時35分(日本時間)、同日昼頃から障害が起きていた「Office 365」のメール機能が復旧したと発表した。 internet…

東証「arrowhead」システム更新に見る冗長構成の勘所

東証「arrowhead」システム更新の話 オンプレミスで苦闘するのが当然だったころのインフラエンジニアの現場は傭兵が集う戦場のような張り詰めた雰囲気があったのを思い出しますが、クラウド全盛の時代にもなおそんな現場があるんだと感心した記事です。 tech…

「ラブプラスEVERY」緊急メンテナンスが長期化する理由を推測する

ラブプラス EVERYのメンテナンスが長期化 ラブプラス EVERYがサービスイン後に緊急メンテナンスとのニュースを聴き、「これは長期化するな」と思ったものですが。 そんなにすぐ治りそうなバグに見えない。「ラブプラス EVERY」、問題解決のため連休ぶち抜き…

障害対応/不具合対応を行う場合の心構え

はじめに さっきまで障害と言うか、不具合の調査をやっていました。 もうこの世界に随分長くいるので、多分原因はアレでコレでと当たりをつけてやったものの全然当てはまらず、調査は長期化し、まだまだ学び足りないな・・と反省しきりです。 たくさんの人が…

sudo脆弱性(CVE-2019-14287)はてへぺろ

sudoってヤバいの? 久々にセキュリティーネタでびっくりしましたよ。 japanese.engadget.com Linuxのsudoコマンドに、本来root権限をとれないユーザーがそれを奪取できるようになる脆弱性が発見されました。この脆弱性を突けば、sudoを利用する際の権限設定…

アクセス集中はオンプレミスにおける最大のリスクの一つ

「送り状発行システムB2クラウド」障害を振り返る 先週、ヤマト運輸がビジネス顧客向けに自社インフラ基盤で提供している「送り状発行システムB2クラウド」が3日間ほどアクセスしにくくなる障害が起こっていました。 www.itmedia.co.jp ヤマト運輸は9月27日…

障害対応のときに思い出す一言「世界初がここで起こるはずがない」

システム運用と障害対応 システム運用の仕事をすると避けて通れないのが障害対応です。あのコンピュータというものは絶対壊れない、ずっと同じことができる、という顔をしているのに突如、異常な動作をするのですから困ったものです。最近は要素技術もどんど…

IT業界人に語り継ぎたいシステムトラブル史

システムトラブル38年史 私も有料購読している日経xTECHにかなりためになる記事が掲載されています。 tech.nikkeibp.co.jp IT黎明(れいめい)期の1980年代からまだ記憶に新しい2010年代まで、全1176件の「動かないコンピュータ」を振り返る。年代ごとの主な…

データセンター付近が停電になるとどうなるか

台風による停電と、データセンターへの影響 先日の関東を襲った台風について、特に千葉県中心に大きな被害となっておりまだ社会インフラが復旧していない模様です。もう数日経過しており住民の方は大変な思いをされていると思います。 千葉県といえば、千葉…

「クラウドは信用できない」に対する基本的な考え方

十年前のクラウド 十年前はクラウドなんて色物と思われていましたし、データセンターと物理サーバービジネスは百年とは言いませんがひとまずしばらくは終わらないと言う雰囲気でした。 ところが風向きが変わったのが東日本大震災です。私も東京の中心にたま…

古いパソコンを駆逐しないとインターネットが詰まる

Windows Updateがインターネットを詰まらせる Windows Updateが引き金となってインターネットが詰まる現象が起きてるらしいですね。 tech.nikkeibp.co.jp NTTコミュニケーションズは2019年8月29日、インターネット接続サービス「OCN」など一部サービスにおい…

AWS障害 マルチAZ構成でも障害は起きていたんだ問題を考える

AWS、マルチAZでも障害影響ありを認める 先週のAWS障害から一週間が経とうとしています。 特定のアベイラビリティーゾーンの特定データセンターにおける冷却機構の問題だったため、マルチAZ構成を組んでいたら障害は回避できたのだというのが第一報での論調…

AWSの障害報告を意訳してみた

AWSの障害報告を意訳してみた AWSの2019/8/23に東京リージョンで発生した障害の報告書がAWSより提示されています。このままではエンドユーザーに出しづらいと思いますので、日本の障害報告書っぽい体裁にまとめてみました。 内容については保証いたしません…

AWS東京リージョン障害に思うこと

AWS東京リージョン障害 本日(2019/8/23)AWSの東京リージョン(AP-NORTHEAST-1)のあるゾーンにてEC2とRDSで障害が起こっており、こちらはマスメディア等で情報が出てくると思いますので事実についてはそちらにお任せします。 また、直撃を受けまだ復旧対応…

大阪市基幹システム障害の事例を考察する

大阪市基幹システム障害の詳報 大阪市基幹システム障害の詳報が日経 xTECHにより報道されています。 tech.nikkeibp.co.jp 大阪市で住民票などの証明書発行業務を担う基幹システムが停止。復旧まで21時間を要し、8000件近い証明書発行業務に影響が及んだ。原…

7Pay不正利用関連の情報をまとめる

はじめに 毎日のようにセブンイレブンを使っていて、7payが始まるのは知っていたのですが様子見していました。そうしたところ、不正利用の話が各所で炎上しています。状況を把握すべくこれまでに入っている情報をまとめます。 メディア記事 2019/7/3 19:08 I…

2019/7/2 Cloudflare障害の根本原因はWAFのルール設定 中国のサイバー攻撃ではない

Cloudflareの度重なる障害 2019年7月2日 22:52(日本時間)から23:50まで、CDN大手のCloudflare社のサービスが停止し、広範な影響が発生しました。 jp.techcrunch.com アップデート:Cloudflareの共同創設者かつCEOのMatthew Prince氏は、現在起きている状況…

シーサードライン逆走の件は未来からの警告かもしれない

シーサイドラインの逆走 神奈川県横浜市のシーサイドラインという鉄道で電車が逆走してしまった件。普通の鉄道事故とは種類が異なるように思います。 www.kanaloco.jp 1日午後8時15分ごろ、横浜市磯子区の新交通システム「シーサイドライン」の新杉田駅…

ヤマダ電機不正アクセス発生 業界を挙げてWeb改ざんへの厳しい対応が必要

ヤマダ電機のECサイトから流出 大きいのが来ましたね・・。 www.yamada-denki.jp このたび、弊社が運営する「ヤマダウエブコム・ヤマダモール」におきまして、第三者による不正なアクセスを受け、クレジットカードの情報が最大37,832件流出した可能性がある…

新人への叱り方を議論する前に 組織に横たわるモチベーションの存在に注目しよう

叱り方はどうあるべきか 私も少し考えさせられました。上司に新人が叱られるという事象についてのお話です。 togetter.com 考察 この内容のミスであればもっと新人は反省するべき、という意見は横に置いておきます。これはこれでもう結論が出ている話です。 …

システムの障害対応時に心がけること

はじめに 世の中のシステムの数は間違いなく増え続けるばかりですので、障害対応の絶対数も増え続けることが宿命です。経験したたくさんの障害対応の中で、いくつか心がけることをおすすめしたいことがありますのでまとめます。 心がけるべきこと まず、復旧…

システム障害と反省文と役員会での朗読の話

システム障害と反省文 ちょっと面白そうなお話です。 togetter.com 旦那SE。業界にしてはまぁホワイト寄りな職場だと思っていたらトップが変わって一気に怪しく。障害が起きた場合、どんな些細なものでも、そして人智の及ばぬハード故障であっても、担当者本…

連休明けのシステム障害多発は偶然ではない

連休明けのシステム障害 システム障害が多発しています。 昨日は銀行系のシステム障害が多かったのですが、今日はJALにて発生しています。 tech.nikkeibp.co.jp 日本航空(JAL)の国内線チェックイン関連のシステムで2019年5月8日朝に障害が生じ、「タッチ&…

(更新・復旧方法あり)Firefoxの署名有効期限切れによるアドオン利用不可は復旧に時間がかかるのではないか→66.0.4リリースで解決

FIrefoxのアドオンが全滅。世界中でユーザーが悲鳴。 もう世界中で騒ぎになっているこの件。 forest.watch.impress.co.jp 「Firefox」にインストール済みのアドオンがすべて無効化され、利用不能になる問題が複数報告されている。アドオンを新規にダウンロー…

MicrosoftがWindows Updateの問題をリアルタイムでお知らせするWebサイトをリリース

このサイトが欲しかった マイクロソフトが新しいWebサイトをプレビュー公開しました。 Windowsに関わる全てのエンジニアはブックマークするべきだと思います。 forest.watch.impress.co.jp 米Microsoftは5月2日(現地時間)、Windowsの新しいリリースヘルス…

Azure障害に思う、インフラ設計の話

Microsoft Azureの大規模障害 2019/5/3 4:43 AM JSTごろ、Azure内のDNSの障害を起点として、全世界のコンピューティング、ストレージ、AAD、データベース、などなど広範にサービス停止が発生したそうです。 www.itwire.com Microsoft used its Azure Support…

2019/5/2 12:27 PM~ Googleアドセンスのレポーティング機能が停止中

現象 今日(2019/5/2)の午後になったあたりから、Googleアドセンスのレポーティング機能が更新されなくなっています。 日本でもざわついていたんですが、どうもこの障害、世界規模のようです。 9to5google.com This Google AdSense reporting outage starte…