orangeitems’s diary

クラウドではたらくエンジニアの日々の感想です。

Kubernetesは良くできている①

f:id:orangeitems:20181020000813j:plain

 

Kubernetesが仕事に降りかかる

Kubernetesがついに仕事に降りかかってきて集中的に勉強しているのですが、触れば触るほどすごい技術であることがようやくわかりました。パブリッククラウド勢がこぞって採用するのもよくわかります。これまでの物理サーバーや仮想サーバーを中心にした、伝統的な構成は今後の開発現場において少しずつ衰え、コンテナでの開発が中心になるのは間違いないと思いました。これはついていかないとマズいレベルで、完成度がものすごく高くて少しショックです。

 

普及へのカギ

普及のボトルネックは決定版のGUIがないことです。全部GUIになったらきっと爆発的に広まるでしょう。VMwareの圧倒的な使いやすさは、vSphere Clientがリードしました。今はWeb化で苦労していますが何しろGUIが標準であること。Kubernetesはまだコマンドベースです。多数のコマンドやyaml形式のファイルなど学習の敷居はまだ高いです。しかし、GUIができるのももう時間の問題だと思います。今まさに誰かが一生懸命作ってたりするのでしょう。

Windows95の前のMS-DOS(Windows 3.1はあったけど)の状況が今に近く、近未来に、完全GUIのKubernetesが市場を席巻しそうです。

 

何がすごいか

まだ勉強中の身なのでKubernetesのすべてを味わっていないこともあり今日のタイトルは①としました。

・永続ストレージと、プログラムを実行するコンテナが分離しているため、コンテナごとのデータの同期を考えなくてもいい。

・ロードバランサー、冗長化、スケールアウトの概念が実行環境に取り込まれているので、実装する必要がなく構築工数が削減できる。

・開発者PCローカルのDockerと、クラウドのKubernetesがネイティブにリンクしている。開発者が任意のタイミングでクラウド側にアップロードし実行状態まで持っていける。

・アップロードしたコンテナに問題があった場合、前の版にすぐ戻せる。

・1つのコンテナを複製して、複数のノードで動かすことができる。かつそれらはすべて同じプログラムであることが保証され差分の心配がない。コンテナの大元を変更すれば複製も同時に反映される。

・コンテナの中で使っている通信ポートの番号は、公開するときに別の番号で公開できる(ロードバランサーのVirtual Serverのような原理)。

・コンテナは、クラウドベンダーでロックインしない。例えばGCPで動かしたコンテナは、AmazonでもAzureでもIBMでも動く。オンプレのKubernetesでも動く。

とりあえず触っただけでもその破壊力は十分にわかったので、あとはどうやって、監視やバックアップの最適化をするかを確立していきたいな、と思います。

また、もっと具体的に、上記にない良さが見つかっていきそうですので、まとまったら②を書きたいと思います。

 

インフラの仕事は無くなるか

Kubernetesをこのまま触り続けて、オンプレ構築や普通のVM+OS構築みたいな仕事が減っていったとして。じゃあKubernetesがあるからインフラのことを知らなくていいかというと全く逆で、Kubernetes自体はインフラの事柄が満載です。おそらく、開発者にそのまま開放してしまうと、インフラ面からいろんなトラブルが待っていそうな気がしています。

・デプロイされたコンテナが多すぎて、ワーカーノードのリソースがひっ迫する。古いバージョンが溜まっていく。

・デプロイしたがうまく動かないという開発者への問題切り分け

・ワーカーノード不足になり全体障害発生

・永続ストレージの容量不足

・勝手コンテナが増殖しすぎてわけが分からなくなる

・kubectl get servicesと入力したら、数百行表示されて萎える(本当に全部動いているのか?)

VMware上の勝手VMの整理や、Amazon EC2のクラウド上のOSの増殖など、やはり運用管理の手を入れないと、無駄なリソースが発生したり、不意にトラブルに発展しかねません。これまでの運用上のガバナンスはコンテナ時代になっても必要だと思いました。

Kubernetesに特化した運用プラクティスが、そろそろ出てくるとは思うのですが、まずはインフラが詳しい人が環境をリードしないと、無法地帯になりかねないと思い、ひとまずは知識を深めていきたいと思います。

 

Kubernetes完全ガイド (impress top gear)

 

Windows 10 October 2018の移動プロファイルで大問題 | マイクロソフトはAzureに力を入れすぎてWindowsの手を抜いているのではないか

f:id:orangeitems:20181018220040j:plain

 

またあり得ない問題、移動プロファイルの設定が問題に

これは一言言いたい。

 

forest.watch.impress.co.jp

“移動ユーザー プロファイル”はユーザープロファイルデータ(デスクトップ環境の設定)をローカルではなくサーバーで一元管理する“ActiveDirectory”の機能。“移動ユーザー プロファイル”の保存先は“%USERNAME%”環境変数を利用してユーザーごとにパスを切り替える運用が一般的だが、「October 2018 Update」では“%USERNAME%”がユーザー名へ展開されず、“%USERNAME%”という文字列がそのまま利用されてしまう。

 

移動ユーザープロファイルなんて、Windows NT 4.0のころからある機能です。%USERNAME%という環境変数も、もう常識と言ってもいいぐらいです。なぜ、品質テストでこのバグを作りこんでしまったのでしょうか。そして、出荷前に検出できなかったのでしょうか。

回避策なんて、あってないようなものです。グループポリシーでパスを設定していた場合は回避できません。またユーザー情報のプロパティーで設定していた場合は、dsmodコマンドを使って一括返還してくれと・・。それって今後ユーザー追加の時に、%USERNAME%使わないでユーザー名をいちいち入力してくれと言っているのと同じです。

 

テスト不足?

つまり、出荷前に移動ユーザープロファイルのテストをやっていなかった、ということになります。

Windowsは歴史の長いプロダクトですから、たくさんの機能のかたまりです。互換性も非常に気を付けなければいけません。革新を産みながら過去資産も守るという矛盾を背負って大変だと思います。しかも機能追加を半年に一度やると宣言して現場はてんてこ舞いだと思います。しかし、それが結果として、「追加する機能だけを重点的にテストして、伝統的な機能はテストを軽くする」ということにつながっていないでしょうか。

 

リソース不足?

しかも、昔ほどマイクロソフトはWindowsの会社ではありません。

 

tech.nikkeibp.co.jp

マイクロソフトはWindowsの会社という印象をお持ちの方は多いと思う。しかし現在は、「Microsoft Azure」を軸とするクラウド事業がビジネスの中心になっている。Microsoft Azureをグローバルで提供するにあたり、全世界に54カ所のデータセンターリージョンを展開しており、AI関連人材の数も約8000人に上る(日本マイクロソフト代表取締役 平野社長)。

 

ビジネスの主戦場が、クラウドやAIに移っているのはよくわかるのですが、Windowsというのは最早社会インフラだと思います。ぜひ、この問題を真摯に反省して、Windowsクライアントにしろ、サーバーにしろ、製品サイクルを緩めてほしいと強く思います。最大限のテストを実施して、社会が混乱に陥らないようにしていただきたい。

 

次々と発覚する初歩的な問題

一昨日の、アップデート時のドキュメント消失の件も驚いたのですが、発生する箇所があまりにも基本的なOSの機能です。このような「初歩的」とも言える障害の発生が次々に起こる原因を考えると、大きな経営理念の根幹が問われているのではないかと思う次第です。

Windowsは人類の宝ですから、新機能よりも優先して、品質を守り続けてほしい。

 

 

ビジョナリー・カンパニー 時代を超える生存の原則

Intel Optane Memoryの装着でDドライブが激速になりました(実話)

f:id:orangeitems:20181018072627j:plain

 

Dドライブが激速になると聞いて購入 

ハードディスクのパフォーマンスを劇的に向上させると噂のIntel Optane Memoryですが実際に購入してみました。ドスパラで買おうと思っていたのですが32GBが売り切れていたので、Amazonから買いました。

 


MEMPEK1W032GAXT [Optane メモリー (32GB、M.2 80mm PCIe 3.0、20 nm、3D Xpoint)]

 

16GBと32GBのモデルがあるのですが、パフォーマンス重視で32GBのほうをつかみました。

ちなみに、すごく小さいです。届いたものをみてびっくり。

f:id:orangeitems:20181018073325j:plain

ペンと比べてもこんなに小さい。

 

取り付けに苦労

取り付けたのは、私のデスクトップパソコンガレリア XVです。

はじめてのM.2スロット利用だったこともあり場所の特定に苦労しました。結局見つけたのですが、グラフィックボードが邪魔して設置が大変。

f:id:orangeitems:20181018073758j:plain

 

ここまでは行くんですが、ねじ止めする隙間がないんですよね。

結局グラフィックボードは取り外して工事を行いました。

 

f:id:orangeitems:20181018082659j:plain

 

こんなふうにねじ止めします。ちなみに、Intel Optane Memory自体にはネジは付属しません。マザーボードの添付品としてマニュアルと一緒に付属していますので、なくさないようにしましょう(このネジのありかを探すのに30分かかりました)。

とりあえず装着は完了。

 

インストールにはコツがいる

すでにインストール済みのWindows 10において、DドライブにIntel Optane Memoryをキャッシュとして利用するためには、普通の方法では無理でした。ちなみに、このパソコンのマザーボードはASUS PRIME H370-Aです。

 

ascii.jp

 この方法でセットアップできない場合のみ、後者の手動でセットアップする方法を試してほしい。

 

上記の記事の「後者の方法」を行う必要があります。私が行った方法を書いておきます。「前者の方法」はIntelが配布している「SetupOptaneMemory.exe」がインストールすらできません。おそらくCドライブの構成のためだと思われます。

 

具体的な方法

上手く言った方法を残しておきます。

 

1)まず、レジストリーを改変する必要があります。

HKEY_LOCAL_MACHINE

SYSTEM

CurrentControlSet

Services

iaStorAVC

StartOverride

を開きます。この中に「0」という項目があるので、この項目の設定を「3」から「0」に変更してください。

※本当にここがポイントで、これをやらないとUEFI設定の(2)をやるとOSが起動しなくなります。UEFI設定を元に戻せば起動しますのでリスクはありません。

 

2)OSを再起動し、UEFI設定画面を開き、設定を行います。設定内容は下記の記事を参照してください。

ASCII.jp:Optane Memoryが実はDドライブのキャッシュでも使えるという事実 (1/4)|最新パーツ性能チェック

UEFIの設定は、CSM(Compatibility Supported Module)の設定を「オフ」または「UEFI First」に設定することに加え、SATAの動作モードを「RAID」または「Intel RST Premium With Intel Optane System Acceleration(RAID)」にセットし、Optane Memoryを装着したM.2スロットの「PCH Remapped PCIeコントローラー」の機能を「オン(Enable)」にすることである。

 

3)OSが起動します。その後、インテル® ラピッド・ストレージ・テクノロジー (インテル® RST) 用のダウンロード、およびインストールを行います。いくつかダウンロードできるのですが、SetupRST.exeというファイルが必要です。

インテル® ラピッド・ストレージ・テクノロジー (インテル® RST) 用のダウンロード

ダウンロード完了後、インストール・OS再起動を行ってください。

 

4)デスクトップにある「インテル® ラピッド・ストレージ・テクノロジー」を起動します。

下記のように、27GBのディスクが見れば一安心です。

f:id:orangeitems:20181018075403p:plain

 

5)上記画面の下に、「有効化」というリンクがありますのでこれをクリックすると、以下のようにキャッシュの紐づけができます。

 

もちろん、Dドライブを選択します。 

f:id:orangeitems:20181018075617p:plain

「はい」を押して進めます。

しばらくすると、OS再起動をうながされますので、ここで再起動をしてください。

 

6)大成功です!

f:id:orangeitems:20181018080158p:plain

 

本当に速くなったのか?

なりました!

 

ビフォー

もともとのDドライブのパフォーマンスはこう。

f:id:orangeitems:20181018080819p:plain

 

アフター

変更後はこうです!。

f:id:orangeitems:20181018080846p:plain

まるでけた違いですよね!。

 

Cドライブ(SSD500GBSATA)

これはちなみにですが、Cドライブで試したところ。

f:id:orangeitems:20181018082051p:plain

OSが利用中という条件はあるものの、むしろDドライブの方が性能がいいという・・。READ/WRITEともに凌駕しています。

 

まとめ

CドライブはSSD、Dドライブは大容量HDDというのは最近のトレンド構成だと思いますが、空いているM2スロットに足すだけでこれだけパフォーマンスが上がるというのは感動しました!

※あくまでもドスパラのパソコンでの実績ですのでご留意ください。

 

YouTubeが見られない!現象まとめ(復旧)

f:id:orangeitems:20181017110715j:plain

 

YouTubeが見られない!

2018/10/17 10:39現在、Youtubeが見られない状態となっています。

WindowsPCで、Chromeから開くとこんな画面で止まってしまいます。

f:id:orangeitems:20181017104115p:plain

 

何度かリロードすると、レアな500 Internal Server Errorが出現(グレーの部分は文字列が並んでいて何を表すかわからないのですがマスクしました)。

f:id:orangeitems:20181017104618p:plain

 

高度にトレーニングされたサルのチームがこの現象のために割り当てられた・・なんて出てますねえ・・。

ページによっていろいろな出方をしているようですが、見たことのない現象なので、記録しておきます。

 

いつから発生?

Yahoo!リアルタイム検索でYouTubeとつぶやかれたツイートの統計を見ると、本日2018/10/17 10:00AMあたりから急増していますのでこのあたりでしょう。

f:id:orangeitems:20181017104824p:plain

 

原因

全く不明ですが、現象は全世界で発生しているようです。進捗がありましたら随時更新していきます。

 

経緯

2018/10/17 10:00AMごろ

全世界でYouTube、YouTube TV、YouTube Musicアクセス障害が発生した。

 

2018/10/17 10:41AM

Youtube公式Twitterアカウント(@TeamYouTube)が現在、解決に向けて復旧作業を行っているとのツイートを掲載しています。

 

2018/10/17 11:38AM

今見たらアクセスできるようになっています。原因や影響等が報道されたらまたアップデートします。

 

2018/10/17 12:00PM

公式ツイートあり。治ったと。原因知りたいなあ。

 

安価なIntel Optane Memoryでハードディスクが激速になるという話

f:id:orangeitems:20181016101906j:plain

 

Intel Optane Memoryの装着で、ハードディスクが激速に?

相変わらずドスパラのパソコンでいろいろ遊んでいるのですが、興味をそそる話を聞きました。

5,000円未満の投資で、ハードディスクが劇速になるというIntel Optane Memoryの話です。オプテインメモリーというらしいです。

具体的な商品は以下になります(ドスパラのサイトにリンクしています)。

 

f:id:orangeitems:20181016095159p:plain

現在の価格を見ると外税で4,399円ということで、かなり興味をそそります。私のパソコンはCドライブがSSD、Dドライブが2TBのハードディスクということで、このDドライブが速くなるならうれしいな、と言ったところです。

M.2スロット、というあまり聞きなれないスロットですが、仕様のページを見ると、無事2つの空きスロットがあります。SSDドライブ自体はまだ高価ですが、この商品をハードディスクのキャッシュに用いることで、かなりの性能がアップするようです。

Intelから基本的な対応条件が出ています。

 

www.intel.co.jp

・第7世代 (またはそれ以降)インテル® Core™ プロセッサー。
・インテル®200シリーズ・チップセット (またはそれ以降)
・インテル® Optane™ メモリー対応 UEFI BIOS。
・インテル® BIOS SATA コントローラ・モードは、「インテル® RST...」に設定されています。
・インテル® Optane™ メモリーモジュール を接続している PCIe スロットで再マッピングが有効になっている。
・Windows® 10 x64。
・インテルインテル® ラピッド・ストレージ・テクノロジー 15.5 または新しいドライバ

 

最近のパソコンであれば大丈夫そうですね。

 

速くなるというレポート

発表から1年が経過しているのもあって、ベンチマーク記事がたくさん出ています。

 

pc.watch.impress.co.jp

 

chimolog.co

 

yuutosi.net

 

なんだか読み取りだけ見れば10倍は速くなるようですね。これは素晴らしい。検討せざるを得ない。

 

まとめ

正直、ハードディスクにアクセスするときにシステム全体のパフォーマンスが落ち、ボトルネックとなっていたので興味津々です。

M.2スロットにSSD自体を指すという手もありますが、それだと数万円の仕事になってしまうので、5,000円以下でこれだけ効果があるのは素晴らしいなと思います。

近々買うと思うので、またレポートします(※もう発注しました)。

基本的にドスパラでパソコン、およびその周辺機器は買うといいです。届く速さも、値段も、仕上げも、安定性や静音性も含めて気に入って使っています。

 

※本当に買ってやってみたら、本当に激速になりました。

www.orangeitems.com

 

 

サーバー監視サービスMackerelの2018/9/26障害報告書に対する感想

f:id:orangeitems:20181016002030j:plain


 

Mackerelの障害報告書

はてなが、サーバー監視サービスを運営しているのは知っていました。

 

mackerel.io

使い易いUIと効率的なAPIによる総合的な監視体験と、より自動化された
インフラ基盤の構築を可能にする、SaaS型サーバー監視サービスを提供します。

 

ビッグユーザーもたくさん抱えていて、GUIもきれいで興味はあったのですが、2018/9/26に障害が発生していてそのレポートが出ているので読んでみました。

 

mackerel.io

発生時間: 2018/09/26 10:51-15:20 (JST)
発生事象: Mackerelシステム全体の不調と死活監視の停止

 

感想

もし、本番で今後Mackerelを使おうと企画されている方は、上記レポートを読むべきです。5時間半、監視ができない状態になったにも関わらず、その原因が不明確。仮説も再現できず、暫定対策として、トリガーとなったRedisのフェイルオーバータイミングのチューニングを実施。Redisに不要なデータを保管しないようアプリケーションの改修を実施。不適切なAPIの検出精度向上とフィルタリング、サーバーリソースのスケールアップや、スケールアウトを上げています。外堀から攻めていく方法ですが、原因不明のまま調査打ち切りというのも不安な状況です。

私もたくさんのシステムを見てきましたが、複数のシステムの監視データを1つの監視システムで監視する仕組みは、軒並み失敗しているのを知っています。平常時は全く問題ありません。問題は、複数のシステムに異常が発生した際です。1つのシステムが異常の時でも、監視サーバーが処理しなければいけない、いわゆるトリガーが100倍にも1000倍にも発生します。収集するログの量も激増します。これが複数同時発生すると、とてもとてもさばけなくなります。高負荷になってしまうと、正常なシステムの監視すら行えなくなってしまいます。したがって、全く関係ないシステムのために、正常なシステムの監視活動すらできなくなってしまうことがあるのです。

そのような事例を多数目にした後、私が設計・構築するシステムは、必ず監視サーバーを専用で設けるようにしました。副作用としては、監視サーバーの画面がシステムごとなので、複数のシステムを運用しようとすると、複数の監視サーバー管理画面を相手にしなければいけないということです。しかし、複数のシステムが一気に監視できなくなるよりは全然マシです。したがって、Mackerelは私が設計する場合において、今後も採用の予定はありません。

現状のMackerelの設計は知らないのですが、今のトレンドの構築方法で言えば、コンテナを用いて1エンドユーザー1コンテナとし、冗長構成をKubernetesでコントロールするのが素敵なのでしょう。モノリシックなデザインであれば、システム単位を複数に分け、いくつかの顧客ごとに完全分割するという方法も良いでしょう。何しろ、1つのシステムで問題が起こると全顧客がしびれる設計は監視システムとしては、私の信じる原則からは外れます。

 

まとめ

北海道自身の停電の際も思いましたが、1つの大きな設備に大半のユーザーがぶらさがっていると、その設備に問題が起きると、大障害につながってしまいます。小刻みに独立した小さな設備を作りユーザーを小さく振り分けると、ある設備に問題が起きても他のユーザーに飛び火しません。このようなフェイルセーフの考え方が、意外と大事にされていないと思うことがしばしばです。大きく1つにまとめると見た目上のコストや、効率・生産性が上がるように見えます。大障害を数度経験すると、このような感覚は吹っ飛んで、どう批判されてもいいので設計時は局所性を重視します。設計時が全ての勝負です。共有は禁止。占有を優先。コスト見合いで調整、と言ったところです。大きな1つの共有システムを作って、冗長性を至る所に組み込み、これで安全と言い切るようなシステム設計は危険です。冗長性すら今回のMackerelの障害のように、障害トリガーになりえます。冗長性より局所性のほうが、大障害を防ぐためには有効です。

大障害は、限られた運用リソースを麻痺させ、複数の小さな障害の顧客影響を増幅させてしまいます。電話がつながらない・・、報告がない・・、対応が遅れる・・、等々です。

システムは個別に分ける。相互に干渉しないようにする。この原則を守ることこそ、運用時に自分の命を守るような気がしてなりません。監視システムしかり、です。

 

みんなが知っておくべき運用設計のノウハウ

 

カード情報は、クレジットカード情報非保持でも漏えいするということ

f:id:orangeitems:20181015124400j:plain

 

 

クレジットカード情報漏えいの新しい手口

下記のエントリーは、WEB管理者は一度読んでおいたほうがいいでしょう。


blog.tokumaru.org

聖教新聞社が運営する通販サイト「SOKAオンラインストア」から2,481件のクレジットカード情報が漏洩した。リリースによると、漏洩に使われた手口は従来とは異なるもので、改正割賦販売法の実務上のガイドラインである「クレジットカード情報非保持化」では対策できないものであった。

 

手口は単純明快。

1)決済代行事業者サイトのUIを真似てユーザーの入力を横取りする
2)失敗画面を出したあとに正規ルートへリダイレクトする
3)再度ユーザーが入力したら正常に進む

ユーザーもWEB管理者も気が付きにくいというものです。

フィッシングサイトだとURLが変わるので気が付きそうなものですが、ECサイト自身で偽画面を出すため、ユーザーはUIがうまくできていると本物だと勘違いしてしまいます。また、自分の打ち込みミスかな?と思って再入力すると問題なく次に遷移するので、まさか漏えいに直面しているとは気が付きません。

 

改ざん検知システムとは何か

この件において最も力を発揮するのは、改ざん検知システムだと思います。

脆弱性対策、WAFについては、悪意のある第三者を侵入させないための対策ですが、正規ルートでログインされた場合は無力です。AWSのアクセスキーをGITHUBで公開してしまい乗っ取られる事例など有名ですが、ヒューマン系のミスには無力です。

WEB管理者が想定しないアップデートがされたら、すぐに気が付くのが被害を拡大させないためには重要でしょう。アクセス権の適切な設定は重要ですが、これも試行錯誤で突破される可能性があります。まずは改ざんの検知こそ重要です。

とりあえずオープンソースのソフトウェアで、コストをかけずに手早く防ぎたいとしたときに、お勧めするのは「AIDE」です。ほかに有名なパッケージにTripwireがあるのですが、こちらはかなり歴史のあるソフトウェアで、導入や設定、運用が難しめの印象です。sendmailよりpostfixの方がラク、というのと同じ理屈でAIDEを進めます。

AIDEの導入事例を紹介します。

 

ファイル改ざん検知システム(AIDE)を構築してみる – CLARA ONLINE techblog

 

RHEL/CentOSではyumでインストールできて、かつ設定ファイルが感覚的で素晴らしいです。また、常駐式ではないので、killされる心配もありません。

一方で、せっかくAIDEがレポートを運用者に送っても、これを運用者が見なければいみがありません。問題があってもなくてもメールする運用だと埋もれてしまいますので、一旦ローカルにレポートを作成しつつ、変更が検出されたときだけメールするような仕組みも別途必要でしょう。このあたりはZABBIXなどの汎用監視サーバーと組み合わせると心地よさそうです。

 

まとめ

ファイアウォールやIDS/IPSやWAF、脆弱性検査など、いろいろ外壁を守る手段は充実してきているものの、実際にシステムの中に入られたら無力なケースが多いです。入られた後にも何らかの仕掛け(今回の改ざん検知システムなど)を用意しておき、痕跡を残す技術の重要性を突き付けられた今回の事件です。

「クレジットカード情報は弊社システムでは保持していないので、安全です」で逃げられた時代は終了したと思います。AIDEなどのオープンソースで簡易的に対策しつつ、有償ソフトウェアやサービスなどの導入もぜひご検討していただきたいと思います。

 

徳丸浩のWebセキュリティ教室(日経BP Next ICT選書)

 

AWSデータセンターの住所がWikiLeaksで漏えいか | クラウドのお約束が終わってしまった日

f:id:orangeitems:20181012191316j:plain

 

クラウドはデータセンター非公開というお約束

「クラウドなので、データセンターの住所は非公開です。」

これは長いこと業界内でお約束とされてきた枕詞でした。クラウドとはそもそも雲という意味でありどこにあるかはユーザーが意識する必要はない。とは言え、レイテンシー(待ち時間)の問題もあるので、地域ぐらいは明かしましょう。これがクラウドの常識でした。それまでは「どのデータセンターを使うか」というのがオンプレミスでの構築の1つのポイントでした。データセンターの仕様を詳しく調べたり、見学に行ったりとしたものです。クラウドの非公開の建前によって仕様部分(例えばTier3以上、など)は明かされるものの、実際の建物の監査はできないということになっています。ユーザーもある程度はこの「お約束」に乗っかっていて、「それなら仕方がないねえ、クラウドだものねえ。たくさん実績があるしセキュリティーも大丈夫そうだしねえ。」と言いつつ、定期的な監査を避けられて一挙両得でした。クラウド以前はそのデータセンターが正しく運用されているか、定期的に入館して担当者が目で確認することが必要だったものですし、実際オンプレミスの世界では未だに実地監査は存在しています。この話は本題ではないので省略しますが、入館チェックやサーバーラックの施錠、セキュリティー設備の確認など、一年に一度はシステム監査の一環でユーザーも一日は潰していたものでした。クラウドだとこれをやらなくていいので、ユーザー側も乗っかっていたのです。

ところが、今日、WikiLeaksが、AWSのデータセンターの住所(と思われる場所)を公開してしまったのです。

 

gigazine.net

WikiLeaksがこれまでベールに包まれていたAmazonが運用するデータセンター(クラウド向けサーバー)の正確な所在地を暴露しました。世界9カ国15都市に分散されたAmazonデータセンターは東京、大阪にも設置されているようです。

 

どう解釈できるか

この所在地が本当であることを前提として考えます。

AWSにおいて、アジアパシフィック (東京)リージョンで使えるアベイラビリティーゾーン(いわゆるデータセンター)は関東圏に4か所です。しかしこの地図を見ると7か所のデータセンターが示されています。これはサーバーを収容するデータセンターのほかに、インターネットの接続先であるPOPと呼ばれる場所が残り3か所にあることを意味しているのだと思います。

EquinixやKDDI、COLTが含まれていることから考えても「本当っぽい」情報であるとは思います。これらが正しいという証明ばかりはできませんが・・。

しかし、いくらクラウドとは言え、雲の上にデータセンターがあるわけではありません。実際はオンプレミスの設備なのです。「実際はオンプレミス」と言った途端に夢から醒めるような気持になりませんでしょうか。これが現実です。実際はデータセンターがあり、運用技術者やオペレーターが存在していて、24時間シフトで絶え間なくアラートを監視しながら、安全運転を目指して仕事をしているのです。そしてその中にいる人物は全員がクラウドベンダーの正社員なんてことは絶対になくて、サードベンダーにアウトソースされている場合がほとんどです。クラウドはまるで自律的に抽象化されて存在しているように感じがちですが、設備であり人です。したがって、今回のようにデータセンターの場所が漏えいしたところで、何の意外性もありません。そもそも「データセンターはクラウドなので非公開です」という言葉の薄っぺらさを長年感じてきました。これはAWSに限った話ではありません。いずれAzureだってGCPだって、同じ宿命にあると思います。人が運営する限り、リークする穴は必ずあるのです。いくら秘密保持契約で人を縛ったって・・。

もともと、データセンターの住所であったって、原則非公開であり、エンドユーザーにだけ知らせるという運営が常識になっています。エンドユーザーだって第三者に知らせようと思えば知らせられるし、もともと無理があるよなこの業界、と思っていました。

ベンダーやユーザーが一緒になって守ってきた「公然の秘密」が、幻影であったことが明らかになった今回のWikiLeaksのニュースだなと、業界内の人間として感じた次第です。

 

それでも非公開は貫くだろう

とは言えです。AWSはこの情報を認めることは決してないでしょう。非公開も変えないでしょう。「非公開なので立ち入りする必要はない、ただ仕様は調べること」という利用者標準も変わらないでしょう。

全てが変わらない中で、真実として知っておいてほしいのが、「提供者と利用者の談合」である事実です。非公開であり続けられるはずがないのです。誰かは知っているのですから。知っている人と知らない人が存在する時点で、絶対の安全はあり得ません。知っている人、が悪に傾く可能性をどうやって否定するのでしょうか。

今回の情報が正しいかどうかを調べる術はユーザー側にはありません。しかし、状況は変わってしまったと思います。もう、「お約束」は終わりに近づいています。公開するのと非公開なことの間に、それほど大きな差があるとは思えません。実際は、「知る人ぞ知る」ぐらいの状況になっているのだと思います。

どこかで、「クラウドであってもデータセンターの場所は公開」というコペルニクス的転回が来るような気がしてなりません。

 

 

クラウド&データセンター完全ガイド 2018年冬号

 

世界同時株安から、求人チャンスが来ると捉えてみたい

f:id:orangeitems:20181012004127j:plain

 

きつい株価の下げ

株価が大きく下がっています。これまでのパターンだと、大きく下げた次の日は半値くらい戻し、じわじわ上がって元に戻るという状況だったと思います。が、今回は違いそうです(今のところ)。怖いのは一日の暴落より、下げトレンドへの突入でしょう。リーマンショックが2008年ですからそこから10年間。アメリカの右肩上がりの繁栄が、社会秩序の根底だったように思います。

 

ダウ平均のチャートを見れば一目瞭然ですね。

f:id:orangeitems:20181012001235p:plain

 

もし、もし本当に下げトレンド転換だとすると、これは世界秩序が大きく変わる転機であり日本も巻き込まれるのは間違いありません。

リーマンショックのときどうなったか・・、様々なシステム投資案件が凍結され商談は中断に。派遣の仕事は激減し雇止めは急増。IT業界は大混乱になったことを覚えています。私も、その暗い空気を脱すべく転職活動を行ったのでした。そういえば。

 

仕事はあるのに、人がいない

少なくとも今は、IT業界は空前の好景気であると思っています。AIやIoTに取り組む案件が実際にマネタイズしていることはその証拠で、景気が悪ければ絶対にこんな案件にお金はおりません。各社利益が出すぎるので今のうちにシステム投資をしておいて節税に充てたいというのが本音だと思います。おかげで、仕事はあるのに仕事をやる人がいないという妙な状態が生まれています。リーマンショック直後と比べるとコンペになってもそこまで熾烈な戦いになりません。なぜならば各社仕事が充足しているので、無理して取りに来ないからです。逆に、仕事ができる人を仲間にするのが本当に大変になっています。

ここから、リーマンショック級のトラブルが起こるとすると、これは求人チャンスとも言えます。買い手市場になるとすると、優秀な人が転職市場に大量に流れてくるかもしれません。このときにどれだけ動けるかで、企業の未来が変わってくると思います。次に来る好景気の時に対応できるかどうかは、景気が悪いときにどれだけ優秀な人を仲間にできるか。本気で考え始めています。

 

IT業界でもインフラ系は不景気に強い

景気が良くても悪くても、システムは動いていますし誰かがお守りをしなければいけません。新規システムの導入は延期されたとしても、既存システムは残ります。電力・ガス・水道などの社会インフラと同じ理由で、ITのインフラ系は不景気時であっても一定の強さがあると思っています。逆に好景気には誰もやりたがらない・・。縁の下の力持ちというか、便利屋というか、アプリケーション開発と比べると地味な立場ではあります。このバランスの中で、少しインフラに人が流れてくるとしたら、この転換期ではないか・・と。特に企業のクラウド化(デジタルトランスフォーメーション等)は不景気時であっても、コスト削減も踏まえて必ず進むと思います。

今回の下げは米中貿易戦争がテーマであり、かつ抜き差しならぬ状態が長期化し、関税等の実力行使が米中双方で行われ、これが実体経済に影響を及ぼし長期金利上昇が止まらないというロジックが明確です。ロジックと言う以上は理論的に解消されなければ下げトレンドが継続するということです。政治の世界ですので急に何かが起こるため、予測はできないですが、マクロの世界では大きな変化を予測しつつ、自分の身の回りつまりミクロの世界では、この人手不足を解消するチャンスとなるかもしれないことを心の中において活動しておきたいと思います。

 

 

Java is Still Free、とは言うけれど

f:id:orangeitems:20181010170033j:plain

 

Javaチャンピオンが執筆

Java is Still Freeの日本語訳、「Javaは今も無償です」はご一読されましたでしょうか。

 

www.sakatakoichi.com

今後のJavaのサポートとアップデートに関して、世界のJavaチャンピオン数十名が執筆したJava is Still Freeというドキュメントを、日本のJavaコミュニティメンバーで翻訳しました。

 

Oracleが中心になって実施しているJavaロードマップの刷新についてJavaの有識者が共同で情報をまとめたものです。有識者がレビューしただけあって情報が網羅されていると思います。

 

Java is Still Free、とは言うけれど

Javaが今回の混乱を切り抜けて、今後も繁栄を続けてほしいという思いもこめてこの文書だと思います。

ただ、今回のOracleが実施したロードマップ変更の目的を、今一度考えなければいけないと思うのです。

商用にて責任ある品質を保つためには、無償、ということは本来あり得ないという点です。誰かがデバッグして修正することで品質は保たれます。この作業はコストが発生するし、対応したら報酬を得られるべきです。製品の保証を企業が行うならば、企業はその対価を得られなければ存続できません。

一方で、ソフトウェア企業は、開発者に対して保有するソフトウェアを無償提供するのが常です。ソフトウェア企業も商用利用が広がらないと実績ができないからです。したがって、「開発中はソフトウェアを無償で利用できます。ただし有償で利用する際はライセンス料あるいはサブスクリプション料をお支払いください」というのが、今のトレンドです。Oracleに限ったことではなく、Microsoftなども同様に開発者向けには廉価に開発用ソフトウェアを配布しています。

この状況のもと、商用システムで「Java is Still Free」という言葉を強引に適用してはいけないと思います。OracleはすでにOTN開発者ライセンスをOracle Java 11に新規に適用しています。Oracleの考え方は、他の商用製品と同様に、開発用途なら無料、商用にするなら有料、です。Oracleが品質を担保するJavaは、明確にトレードオフとして対価を要求するのです。一方、OpenJDKについては、各ベンダーがバイナリーを配布しますが、各ベンダーのビジネスの中で利用しそこで品質を担保する目的です。Oracleがやってきたように不特定多数に無償で品質を担保するわけではありません。

Javaは無償だが、品質を保つにはコストがかかる。それは利用者が支払うべきだ。

Java is Still Free, but it costs money to keep quality.
It should be paid by end users.

と言いたいです。

 

メンテナンスする技術者に対価を

ソフトウェアを作成し、オープンソースにて配布するといったことが大ブームとなった時期があります。かつ多数のプロダクトが今でも無償で使えるようになっており、今のインターネットを支えているのは言うまでもありません。

しかし、この無償モデルはいつまで続くのでしょうか。コードをメンテナンスしてくれる技術者がいつまでも安泰ならば良いのですが、きっとそうはいきません。特定の企業がサポートしてくれるかどうかもビジネス状況で大きく変わります。いまはアメリカが空前の好景気でそんな雰囲気はありませんが未来永劫続く保証はありません。ソフトウェアを利用する側がコストを技術者に間接的に支払い、品質を安定的に保つことができる仕組みを作るべきではないでしょうか。

OracleはOracleで、熟慮の上きっとJavaをこれからも品質を恒久的に保つために企業としてこのロードマップ変更を行ったのでしょう。

Java is Still Free、とは言うけれど、これは開発者に向けての言葉であって、商用システム開発などで見積を作る立場の人は、決してFreeだとは考えないで欲しいと思いました。

 

24時間振込の新システム稼働 | 運用エンジニアは大変だ

f:id:orangeitems:20181009210101j:plain

 

振込が24時間可能??

なんと、銀行の振込システムから今日2018/10/9から、24時間できるようになったらしいじゃないですか(条件付き)。

 

www.sankei.com

全国銀行協会(全銀協)は9日、他行への振り込みを24時間365日いつでも実行できる新たなシステムを稼働させた。三菱UFJ銀行や三井住友銀行など加盟行の約75%にあたる105行に信用金庫や信用組合を合わせた計504行が参加。午後3時以降や休日の振り込みが翌営業日にならないと実行されない仕組みが変わり、インターネット通販や企業間決済などの利便性が向上する。

 

どうやって実現した?

システム周りについて書かれた記事がありました。

 

news.yahoo.co.jp

そこで開発されたのが「モアタイムシステム」と呼ばれるものである。全銀システムを運営している一般社団法人全国銀行資金決済ネットワークが、全銀システムの「現行の稼動時間帯」(平日8時30分~15時30分、12月を除く月末営業日7時30分~16時30分)以外の時間帯をカバーするために本体システムとは別に構築した新たなサブシステムである。

 

も・・モアタイムシステム。

この構想からサービスインまでをまとめたスライドがありますのでご紹介しておきます。

https://www.boj.or.jp/announcements/release_2016/data/rel160413b9.pdf

 

「 昭和48年の全銀システム稼動以降、一度もサービス停止したことはない。」

これは重い言葉ですね。メインフレームって本当に堅牢で、オープンシステムにはない素晴らしさがあると思います。

 

f:id:orangeitems:20181009204750p:plain

上記PDFより引用しました。メインフレーム(ホスト)、IPVPN、ISDNあたりがポイントだと思います。キャリアが提供する閉域網でVPNを構築するとともに、ISDNでバックアップ回線としているという図。また、ISDNはもうすぐサービスを終了するので、次のことも考えているようですね。

 

japan.zdnet.com

 

本当に必要なのかな

正直、システム運用に長く携わった私としては、この24時間365日というミッションが相当過酷なような気がしてなりません。

消費者としてはとても便利なのですが、せめて一日2時間でも停止の期間を作ってあげればよかったのにと思います。また、このシステムの運用エンジニアも相当な数、夜勤が発生すると思います。仕事ですのでしようがない・・のですが、この人手不足が叫ばれる中、夜中に一定数の工数が吸い込まれることを考えると非常に辛いものがあります。

人の命を預かる病院や、電力・ガスなどのインフラ系では仕方ないとしても、振込システムなんて24時間動いている必要があるのでしょうか。もともとコンビニの24時間営業もとても疑問でした。世の中が夜をきちんと休むようにすれば人手不足も解消します。また、昼型の人が増えれば家族生活を考えると、少子化傾向にも歯止めがかかるかもしれません。何でもかんでも便利を追求するのは、私は反対です。

職業柄、私も夜間メンテナンスには何度もつきあっているのですが、精神的にも肉体的にも大変消費します。できるだけ、夜間は人がつきあわなくてもいいよう、システム企画段階で憂慮いただきたいものです。

 

 

進化する銀行システム 24時間365日動かすメインフレームの設計思想

東証のシステム障害は、「仮想サーバートラブル」ではなく「ネットワークトラブル」だった

f:id:orangeitems:20181009182920j:plain

 

東京証券取引所の障害

東京証券取引所の株式売買システムの一部で障害が発生し、一部の証券会社が影響を受けたシステム障害の件に言及したいと思います。

 

当初「仮想サーバー」というキーワードが出てきて大変混乱しました。午前の段階では表現は以下の通りでした。

 

jp.reuters.com

東京証券取引所は9日、株式取引の一部でシステム障害が発生していると明らかにした。現物の売買システム「アローヘッド」にある仮想サーバの一部で障害が発生した。一部の証券会社で株式取引ができない状況となっている。

 

夕方の報道では、内容が変わっています。

 

www.asahi.com

JPXによると、9日午前7時32分、東証のシステムへ電文が「極めて短い時間に大量に送られてきた」という。売買注文ではなく通信経路を確認する電文で、通常の1千倍の量だったという。それが原因でシステム障害が起き、証券会社が売買注文を出す4回線のうち1回線が使えなくなった。電文を送った証券会社名は公表していない。

 

これなら、とてもよくわかります。東証の売買システムはarrowheadですが、これにつなぎこむネットワークのことをarrownetと言います。このarrownetの仕組みを表す構成図の記事がありますので紹介しておきます。

 

arrownetの仕組み

下記の記事が良くまとめられています。

 

cloud.watch.impress.co.jp

東証ではこれまでも、株式売買システム「arrowhead」のネットワークシステム「arrownet」においてジュニパーのルーター「M320」「M120」を採用し、2010年に運用を開始していたが、技術の進化と顧客のニーズの高まりを受け、東証のためだけのネットワークインフラではなく、国内の金融取引全体を統合するネットワークとしてarrownet v2を構築することになったという。

(中略)

arrownet v2は2012年の稼働開始後、2015年9月にアクセスポイントを2つから3つに増設し、2016年2月には利用者への10Gbps回線サービス提供を実現した。

 

下記の図は最も重要でしょう。

f:id:orangeitems:20181009181322p:plain

 

記事にもありますが、Juniper Networksの事例にも記載されています。

https://www.juniper.net/assets/jp/jp/local/pdf/case-studies/jpx-jp.pdf

 

上記の図では3か所のアクセスポイントしか記載されていませんが、おそらく4か所目も追加されたのではないかと推測します。ここに複数の証券会社がつなぎこんでいて、普段利用するアクセスポイントが決められていたのでしょう。

このネットワークに対して、特定の証券会社のネットワーク設定もしくは不具合により、「経路ループ」が起こりCPU負荷やトラフィックが急増し、アクセスポイントごとダウンしたのではないかと思われます。

 

経路ループについては、下記の記事が詳しいです。

 

ルーティング・プロトコルの役割を理解する:IPルーティング入門(1) - @IT

しかし、設定ミスや機器障害により誤まった経路情報がアナウンスされると、これらの情報もネットワーク全般に伝達されるため、広範囲にわたり通信不能に陥ってしまうという短所もあります。さらに最悪なケースでは、経路ループを引き起こし、CPU負荷やトラフィックが急速に増加し、ネットワークそのものがダウンすることも考えられます。

 

私自身もこれは体験したことがあるのですが、必ずしも設定ミスだけではありません。ネットワーク機器の障害が引き起こすこともあります。

今回素晴らしいなと思ったのは、アクセスポイントの中だけで障害が収束し、他のアクセスポイントやその裏のMPLS網には影響を及ぼさなかったことです。

 

実際、朝日新聞の記事中に、

 

横山氏はこうした事態について「複数(の回線)につないでくれとしか仕様書に書いていなかった我々の不十分さがあった。振り分け時の障害でどのようにするかを確認していればもっと(対応)できた」と述べた。東証では売買自体はできたが、システム障害は9日の取引時間中は終日続いた。
 6~8日の三連休明けのトラブルだが、東証側ではシステムの変更は行っておらず、証券会社側が一部設定を変更したとみられるという。

 

とあるため、アクセスポイントの手動切替は、障害対応手順としてはシナリオにあったものの、証券会社側はそれを理解していなかったというふうに読めます。

 

東証の判断は正しかったか

アクセスポイント1つが麻痺している状況で、取引を開始してしまったことについて議論が起こっています。取引参加者からすれば、証券会社によって参加できたりできなかったりするのは不公平ですよね。

システムエンジニアとすればアクセスポイントを複数用意しているんだから、(設計通り)切り替えて使ってほしいというのは正論ですが、結果として、不公平な状況が生まれてしまいました。

どういう振り返りとなるかは不明ですが、今後の報道に目を配っていきたいと思います。

 

続報(2018/10/9 21:55)

接続していた証券会社が、メリルリンチであると日経が報道しました。

 

www.nikkei.com

東京証券取引所で9日発生した株式売買のシステム障害で、不具合の原因となった大量の不正電文をメリルリンチ日本証券が送信していたことが関係者への取材で分かった。

 

現時点で、設定ミス(ヒューマンエラー)と断じるのは早計だと思っています。ネットワーク機器の障害の可能性もあり続報待ちです。また、1社のブロードキャストストーム等でアクセスポイントごとつぶれるアーキテクチャーも問題はあると思います。

ファイアウォール等でせき止められれば・・。これは高速取引を実行するうえではボトルネックの原因となるのでしょうけれども。

 

 

日本経済の心臓 証券市場誕生!

 

ファミポートが障害、コンビニに荷物はあるのに受け取れず

f:id:orangeitems:20181008174143j:plain

 

 

ファミポートが昨日からダウンし荷物が受け取れない

最近はシステム障害が起きても、公式WEBページにはっきりと掲載しないケースが増えているように思いますが、今回の件もツイッターにて知りました。

ファミポートの「店頭受け取りサービス」にて通販で購入した荷物をファミリーマートで受け取ろうとしたときに問題が起こり昨日から受け取れない状況が続いているそうです。

  

 

  

  

 

 

特定のECショップだけではないところを見ると、ファミポート側の問題ではないかな?と思います。

 

どんな症状?

公式ページにその説明があります。

f:id:orangeitems:20181008174247p:plain

出典:Famiポート公式ページ

 

2018/10/8 17:30現在、メールで「コンビニから荷物が届いた」とお知らせが来て、実際に店頭に行き、(1)ふれる、(2)入力する、(3)番号の入力、(4)認証番号の入力まで行うと、「緊急メンテナンス中」とのメッセージが出て先に進めないようです。

  

 

回避した人も・・

ツイートを見ると、配送会社が一旦回収し、ファミポートを経由しないで回避したことに成功した人も見受けられました。

 

 

告知がない状況

システムによって世の中が回っている状況で、消費者向けに何も告知しないまま、混乱が広がるというのはあまり良くないと思います。

ホームページを見ても何も報告がないため、各社サポートセンターも混乱しているようです。

 

 

どのように収拾をつけるのか、ウォッチします。

 

追記(2018/10/8 19:30)

ファミポートで受け取れるようになったとの報告が相次いでいます。

 

 

 

 

確定はできないのですが、復旧なのかもしれません。

 

 

Windows 10 Octover Update適用でファイル消失 | 具体的な症状とは

f:id:orangeitems:20181007092549j:plain

 

Windows 10 Octover Updateが提供中断

先週リリースしたばかりのWindows 10 Octover Updateを適用したら、ファイルが消失する現象が発生するケースがあり、2018/10/7現在公開を停止するという状況にあるそうです。

 

pc.watch.impress.co.jp

 米Microsoftは、先日提供開始したWindows 10 October 2018 Updateを適用することで、ファイルが消失するとの報告があったことを受け、すべてのユーザーに対して、同アップデートの提供を一時中断した。

 

Microsoftのアップデート

現時点でMicrosoftからは、具体的な症状が発表されていません。

 

f:id:orangeitems:20181007090413p:plain

https://support.microsoft.com/en-us/help/4464619/windows-10-update-history

更新後に一部のファイルが不足しているという特定のユーザーの報告を調査しています。これを受けてすべてのユーザーに対してWindows 10 10月10日の更新プログラム(バージョン1809)の公開を一時停止しました。

 

redditでユーザーが訴えた具体的な症状

アメリカの掲示板サービスredditで、具体的な症状を訴えているユーザーのスレッドが複数作成されています。こちらに注目しました。

 

Cドライブのドキュメントについて、一部が無くなる

www.reddit.com

 

症状が具体的に記載されていましたので要約します。

・手動インストールを実施した
・アップグレード後、音楽を聴くときに異変に気が付き、フォルダ("c:\Users\Public\Documents"と"C\Users\<user>\Documents")を調べたら一部のファイルが消失しているかもしれないことに気が付いた。
・移行ログを調べたら、移行すべきファイルやフォルダの一部が欠落していることがわかった。
・もともとCドライブは24GBしか空き容量が無かったのに、アップグレード後90GBも空き容量がある。Windows.oldを調べてもその理由はわからない。

 

一部のプログラムが無くなる

www.reddit.com

 

・アップグレード後、デスクトップを見たらすぐにいくつかのファイルやプログラムが失われていることに気が付いた。
・SpotifyやDiscordは無くなりました(ダウンロードしなおした)。
・私がダウンロードした写真やスキン、いくつかの学校の文書がなくなってしまった。

 

推察

まだ、特定のユーザーの報告の情報しかない情報で、確定したことは何も言えないのですが、どうやらユーザードキュメントの移行が失敗するケースがありそうです。Windows.oldにバックアップがきちんと存在するのかどうかは現時点では不明です。

全員に当てはまる状況でも無さそうで、特定の条件がありそうです。

また、日本で同様の報告が見当たらないのですが、情報があれば追記します。

 

追記(2018/10/9)

消えてしまったファイルについては、マイクロソフトが復旧を約束するとの報道あり。バックアップが取られているんですかね・・。マイクロソフトの言及を待ちたいと思います。逆に言えば、アップデートをすると場合によっては本当に消えるんですね、本当に。

 

japanese.engadget.com

 

追記(2018/10/11)

原因まで確定しています。

 

pc.watch.impress.co.jp

 

 

Windows10は初期設定で使うな 日経BPパソコンベストムック