Анализ падения Амазона

Амазоновцы опубликовали технический разбор причин недавнего падения AWS. То, что виноват был DNS, уже было известно, но лично мне было любопытно понять — что же именно они смогли сломать в системе, которая, по идее, должна быть одной из самых простых и надёжных в инфраструктуре интернета?

Оказалось, в их реализации DNS скрывался ранее незамеченный баг, приведший к классической race condition — ситуации, когда несколько процессов или нитей процесса одновременно пытаются получить доступ к общему ресурсу и в итоге мешают друг другу. Такое состязание заканчивается тем, что ресурс «залипает», а вся система рушится, как карточный домик.

Признаться, изначально у меня было подозрение на на человеческий фактор — думалось, что какой-нибудь неопытный сисадмин дёрнул не за ту ручку, посоветовавшись с ИИ, но не спросив старших товарищей. Такое бывает, и мне тоже доводилось такое устраивать. Но, как выяснилось, всё оказалось куда глЫбже.

Больше всего впечатлил масштаб треша, угара, и бедлама с содомией, вызванных сбоем. Легла такая туча сервисов, что только успевай памперсы менять. Наши системы, к счастью, напрямую не пострадали — но один из наших вендоров ощутил последствия сполна.

Хочется верить, что в Amazon извлекут из этого инцидента правильные уроки — ведь даже гигантам время от времени полезно вспомнить, что совершенство инфраструктуры не отменяет законов вероятности и человеческой природы.