orangeitems’s diary

クラウド専任の40代インフラエンジニアが書くブログ。新規事業マネージャー。20世紀末の就職氷河期スタート時にIT業界に文系未経験で入りこみそのまま生き残った人。

うるう秒で、昔、大変な目に遭った話

 

うるう秒、なくなるらしい。

 

japan.cnet.com

 原子時計を地球の自転に合わせるために半世紀にわたって用いられてきた「うるう秒」が段階的に廃止される。こうした調整の技術的リスクを懸念するテクノロジー大手にとっては、うれしい話だ。

 

うるう秒が「私」を直撃したのは2012年だ。

 

www.itmedia.co.jp

 地球の自転速度に合わせて標準時刻を調整するため、日本時間の2012年7月1日午前8時59分59秒と午前9時00分00秒の間に「8時59分60秒」を挿入する、「うるう秒」の調整が実施された。この影響で、MozillaやLinkedIn、foursquare、Yelp、Redditなどが影響を受けたと米Wiredが伝えている。

 

ちなみに、私の手持ちのサービス群にも直撃を受けた。

2012年7月1日だが、ちょうど日曜日だった。秋葉原へ車で遊びに来ていて、ヨドバシカメラでLED電球を見ていたのが9:30AMごろだった。

サービス障害の通知がどんどん届いて、何事だと。それがうるう秒の影響だった。

どこかに記録が残っていないかな‥と思ったら、ちゃんと残っていた。

 

www.seiko-sol.co.jp

この時の障害原因は、

特定バージョンのLinuxカーネルが動作しているサーバー上で、
JavaやMySQL、Apache Hadoop など複数スレッドで動作するミドルウエアを稼働させているという環境下でサービスを提供していた場合、「うるう秒」発生時にCPUを100%占有し、結果としてサーバーがクラッシュしたことでした。

この障害の特徴は、最新のカーネルバージョンであっても「うるう秒」の影響を受けたという点です。システム管理者は、「うるう秒」当日になって障害を目の当たりにし、対応に追われることになりました。

 

そう、CPU100%でも9:00AMになった後しばらく耐えていたが、9:30AMごろに動作が厳しくなったという状況だった。

その当時はjavaの再起動で事なきをえた。うるう秒を超えた後に起動すれば問題は起きない。

ただ、たくさんシステムがあったので、1個1個対応していくのが大変だった。

もうあれから10年か。ヨドバシカメラ秋葉原店で状況を察知し、これは自宅に帰らないと収拾つかないと、とんぼ返りした。したけどノートパソコンとモバイルルーターを持っていたので車の助手席で、会社につないで、プロセスを再起動したり顧客に障害連絡をしたり、電話をしていたりした。家についたころには、ほとんどの対応が終わっていたけど、これが日曜日か・・と思ったのものだった。

ああ、あのころからがんばってたんだな、という記憶がよみがえってくる。

 

上記の記事にもあるけれど、2012年はまだインターネットサービスに世の中が依存しなかったからいいけど、今起こったら、損害が計り知れないというのは確かにその通りで、2022年ならなおのことだ。

このような、全世界的に発生する盲点のような障害が発見されないように、と日々願うように生きている。こういう繰り返しがIT業界を育てて来た。もうないだろう、と祈る日々である。