Злой одмин (vladdt) wrote,
Злой одмин
vladdt

История одной катастрофы…

Oh_Hi_I_upgraded_your_RAM А вообще поперся-то я так рано чего ради? Пришел в 5 утра, Logitech Kinetik развернулся в полевое окно в мир. Ноутбук, с причиндалами,  связью, и т.п. Заварил себе кофе. Начал делать “обезьяньи работы”.  И занялся правильным сисадминским делом – пооткрывал всякие фейсбуки и ЖЖ, и начал постить про вчерашних юзеров. Часа два была благодать – одной рукой писю (или писяю?) в блог, другой мышкой на рабочем компе запускаю каждодневные костыли. Я уже наивно подумал было, что все обойдется. И вот, на самом интересном месте, моя левая рука почувствовала что костыль со второго центра не стартует. Тогда я и понял - началось!

Эксплуатация в очередной раз вежливо предупредила, что затеваются очередные маневры. С пушками и танками. И с настоящими потерями. В смысле - “пройдет тестирование аварийного генератора”. Это такая страшная дизельная штука, которую во второй центр купили чиста для понтов. Потому что с момента постройки магазина – он никогда не работал. Идея высокая – все кто знает для чего сия вундерфвафля, поймут. По плану, когда основная или резервная линии вырубаются, за пару минут включется эта кофеварка и держит на себе весь центр. А мы пока ругаемся с электросетями. Но как всегда - гладко было на бумаге, да забыли про овраги. Что они там нахимичили, или почему не могут включить – не имею ни малейшего понятия. Но зная нашу манеру работать, меня это почему-то ничуть ни удивляет.

Главное, что после каждого такого тестирования – второй центр напоминает мамаево побоище. Там и так электричество страшное, а после таких развлечений разгребать последствия приходится целый день. Блоки питания, которые не через UPS-й – сгорают. Которые через упсы – не сгорают, зато зачастую сгорают сами упсы. Все подстольные свичи не класса прокурв – виснут. Ну и конечно не помешал бы маленький термоядерный реактор в серверной. Поскольку тестирование было назначено на 5 утра – решили, по прошлому опыту, что кому-то надо идти в разведку. Пошел я, потому что мне пофиг когда вставать. Зато раньше слиняю.

Разумеется к тому времени как я понял что прога из второго центра не стартует – связи уже не было. Позвонив электрикам, я узнал что “мы же вас предупреждали”, и “вот-вот и как только так сразу”. У нас там конечно упсов в общей сложности киловатт на 5, но пол-часа тянуть два шкафа и телефонную станцию они не могут. Самое забавное, что они молчали как партизаны. Ну впрочем это вот свинство и ожидалось, и я, зевая, пустил пинг до тамошнего гейтвея, а заодно открыл карту сети. Все равно разгребать последствия можно только после появления электричества. Минут через десять все начало оживать, и карта засветилась зеленым. Как только ожила сеть – стали доступны все илы серверов, и можно было уже расслабиться и вздохнуть с облегчением. Главное что все важные еженощные джобы и реплики отработали, а неважные все равно зашедулены на регулярность.

Но как оказалось, я рано радовался. Праймари домайн контроллер стартанул, файловый сервак, он же резервный DC - тоже. Кластер стартанул и не увидел себя. Обе ноды в онлайне – а кластер нет. Рестарт сервиса не помог. А это значит нету базы, сервера аппликаций, и т.п. Все равно никто работать не может. А поскольку это уже семь утра – кассы начинают вкладывать деньги, отделы начинают печатать новые цены, в общем всем жутко надо работать. Реалтайм у нас страшенный, и простой в рабочее время минут на 10 – это серьезная катастрофа. К счастью тут еще время не рабочее, и я вырубив одну ноду, пустил вторую на рестарт. Ило – чудесная штука, не знаю как живут люди без HP-шной техники. На КВМ-свичах что ли выкручиваются?

Параллельно я разумеется отвечал на дурные вопросы “а почему у меня ничего не работает?”. Утешал верующих, что им воздасться за терпение. Минут через 15. А пока следует истово молиться. Неприоритетным юзерам отвечал злобно рыча. Приоритетным, навроде старших кассиров, внятно обьясняя ситуацию. Но они и так люди умные – работать с ними одно удовольствие. Пока пролианты тяжело ворочались, хвастаясь биосами своих многочисленых контроллеров, до меня начала доходить страшная мысль. Что если с кластером все ок. Что если не стартанули стораджи? Пропинговал их и похолодел. Такое уже было – чертова мсашка упорно желала запускаться только с кнопки, и отказывалась пускать кого-либо по ремоуту. Пришлось срочно просить едущего на работу шефа – завернуть туда, и дать пинка железяке вживую. Мысль о стоящем пока без работы центре – сильно обеспокоила.

Потом случилось чудо – как-то сами-собой ожили оба стоража, и кластер весело стартанул. Сразу у всех появились бухгалтерские программы, завелсиь пос-терминалы, все почувствовали себя важными и нужными. Вообще все произошло оперативно. Время простоя из за глюка – не превысило 10-ти минут, это еще с учетом, как долго стартуют сервера. Немало лулзов добавили упсы, прислав сразу около шести писем после восстановления связи. “Хозяин! Что-то с питанием!” “Хозяин! Слыш – 25% от аккума осталось!” “Спасите, наши души! Мы бредим от удушья!” “О, питание включилось! Мы живы!” Получается что у упса, державшего цетральный свич тоже уже дохлый аккумулятор. Когда вырубило электричество, он успел только сказать: “Уп…” И сдох. А все остальные слали предупреждения в пустоту. Вообще поражает, насколько быстро дохнут аккумуляторы у упсов. С учетом что на них гарантия не распространяется…

Сильно прикол начальник эксплуатации. Когда я вовсю поднимал сервера, утешал юзеров, и оживлял магазин, он позвонил, и лениво спросил: “Слушай, я забыл пароль на свой…” (Эээ, хрен его знает как эта прога по русски, в общем там, где он должен поставить галочку на задании, что тестирование прошло успешно.) Я ответил ему как можно более вежливо: “Вы знаете, после вашего тестирования, у нас дох..ища всяких проблем. Так что не могли бы вы перезвонить через пол часика?”

На поле боя остались три пос-терминала, которые упорно не отзывались по сетке, и конечно радостно зависшие китайские подстольные свичики. Все остальное на удивление выдержало шторм. (Похоже что все что могло сгореть от скачков питания – уже сгорело.) Тут уже начали собираться коллеги. Трезвонящее болванье, за пару лет работы так и не усвоившее, что бугалтерскую программу, потервшую связь с sql-сервером надо рестартовать чтоб “квиты считало” – тоже кажется успокоилось. Мы уже радостно похлопывали друг друга по спине, и пожимали руки, как центр управления полетами, удачно забросивший робота на Марс.

Потом мы с Саулюсом пошли закупаться утренним кофе и пирожками. Настроение было что ни на есть самодовольное. Набрав пакетиков и подойдя к кассе, я сначала увидел очередь и растрянно-коровье лицо кассирши. Она смотрела на клавиатуру, с таким видом словно та собиралась ударить ее током. И старшую кассиршу, устало произносившую “нажми контрол альт делит”. Бросив быстрый взгляд на находящийся рядом инфоцентр – я увидел знакомую картину потерявших связь прог. После чего Саулюс ткнул меня в спину – и молча указал на остановившийся эскалатор. Матерясь мы вывалили пакетики с кофе на кассу, и скачками понеслись обратно в серверную. ОНО вернулось. Только теперь уже к нам.

Рестартануло уже наш центральный свич, поскольку у упса его держущего тоже сдох аккум, а прошение выделить денюшки на его ремонт подписывают уже пол-года. Поскольку свич – не какая-нибудь китайская фигня, он рестартует с пол-минуты, неторопливо опрашивая все порты. Тут же шквал звонков с воплями “уа! уа!”. Зашедший начальник охраны, злорадно поинтересовался - “ну что диверсанты?”. Я молча ткнул в спину пробегавшему по коридору начальнику эксплуатации, и пробурчал: “Вон главный диверсант, ловите!” Где-то через минут десять все снова улеглось, мы поржали, и сказав “Вторая попытка!” – пошли за кофе. На этот раз – дошли.

Наш Самый Главный Начальник сразу начал игру в КВН. Он принялся писать юмористические вопросы эксплуатации, а та должна была придумать на них не менее веселые ответы. Например вопросы были такие: “А за каким хреном нам нужен этот дорогой аварийный генератор, если в случае аварии он сам стартовать не намерен?” Или: “Сколько времени нужно, чтоб при пропадании электричества, дежурный электрик добежал бы бы до генератора и запустил его ручками?” Или:  “На какой энергии вы предлагаете держать сервера, пока вы там занимаетесь физзарядкой?” (Вообще-то длинна торгового зала во втором центре что-то около полукилометра, и я давно предлагал купить нам сегвей! Одна очень вредная девушка, уверяет что я не занимаюсь зарядкой. Посмотрела бы она как я вчера пилил по этому залу туда и обратно с 17” монитором на плече. :))

Но веселье не кончилось и на этом. Одна из касс, упорно не появлялась в сети, несмотря на то что мы пытались использовать толковую старшую кассиршу того центра, как ремоут-бота. Пришлось Саулюсу вздохнуть, и ехать. (Вообще это западло. Если одмин не может справиться по ремоуту – то это как бы и не одмин вовсе. Но радиоуправляемого робота нам не выписали, как мы ни просили.) Оказалось, что комп на кассе не пережил жестокого выдирания из розетки, и ответил на это злобной надписью: “missing system filezzzz... олололо”. Но у меня на такие случаи развернут WDS сервер. С любовно собраной рипейр консолью в том числе. Но увы, Саулюс через консоль починить Винды не смог. Они грузились, но висли. Ну, на это у нас существует кнопочка F12 и “реинсталл все аффтоматом нафик”. Беда только в том, что я экспериментировал с деплойментом 7-ки, и бутовый имидж был уже от нее. Она загрузилась, развернула диск в память, и возмущенно сказала: “Сетевуха SiS? Это старое дерьмо? Да вы за кого меня принимаете?” Мать, мать, мать. Конечно же, старый boot.wim я сохранил. И конечно же только вчера стер за ненадобностью. Дальше началась клоунада с поисками уже никому не нужных дисков с Вистой. Причем я далеко не был уверен, что я когда-то не интегрировал в бутовый имидж дрова ручками. А WAIK я тоже стер, при переинсталляции своего компа. И вот Саулюс сидит в тяжелейших полевых условиях, вдалеке от кресла и кофе, и закипая ждет, пока я сумею что-то сделать. Увы, можно было бы развернуть имидж ручками, через imagex из консоли, но Саулюс это делать не умеет, а я, не видя экрана обьяснить не смогу. Да и параллельно приходится отвечать на дурные вопросы тупых юзеров, и решать проблемы, описаные в предидущем посте. В принципе, посовещавшись, плюнули на это дело, подняли кассу до состояния “можно снять Z”, и оставили на завтра. Так что завтра предстоит вспоминать как там закидывать дрова стетевух в имидж.

Вот почему на нашей работе, у меня отношение к юзерам - “Я б их к стенке ставил, через одного. И направлял на них груженый самосвал.” Потому что например настоящие сисадминские хвосты, которые давно просились быть отрезаными – перекроссировать шкаф, провести нормальную связь в склад, закончить фэйл-сэйфинг и прочие оптимизации, я сумел сделать только во время кризиса. И то частично. Потому что от юзеров осталась треть. И их наконц-таки заставили работать, а не изображать бурную деятельность, как раньше.

Tags: android, apple, internet, microsoft, Компы, ЛОЛ, дураки, идиоты, интернет, сервер, серверы, юзер, юзеры, юмор
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments