Пара слов инсайда и извинения перед абонентами…
Сегодня произошло то, что я должен был предвидеть, но не «не успел»…
не буду вдаваться глубоко в детали ибо пока и сам много не знаю, но скажу главное — последнее время частота проблем на внешних каналах (подавляющее большинство простоев связанно именно с авариями на магистральных каналах) во многом расслабила нашу инженерную службу эксплуатации и в результате мы не только упразднили тестовый стенд, который нас раньше спасал от крупных «рукотворных» аварий, но и начали тестировать новые модули на боевом железе в будни, что, конечно, недопустимо… небольшое отступление — так как мы докупаем модули в работающие железки, то всегда есть опасность, что «что-то пойдёт не так» ибо у горячо любимой нами фирмы Cisco есть большие проблемы совместимости супервизоров, модулей, софта и шасси… такая вот плата за гибкость и возможность развития…несколько дней назад у мы получили проблемы при запуске нового 10G модуля (он работал, но не все пакеты через него проходили), конечно, он был сразу же убран из эксплуатации, но недавно пришел очередной модуль и его решили протестировать снова… в результате его оставили в бою после утреннего регламента — результат падение 3 железок и без внятной диагностики около 5-ти вечера (в ЧНН)… кроме того, пока не ясно сколько падало виртуальных серверов в облаке, но самый «видный» (mark.ru) падал опять же без внятной диагностики…
По результатам аварии мною запрещены все плановые работы на ядре сети до согласования нового алгоритма проведения работ, надеюсь, что мы сможем выработать механизм запуска новых сервисов и модернизации сети с минимальными издержками до конца этой недели… Так что, очень велика вероятность, что мы в ближайшее время радикально сократим простои по нашей вине и сгруппируем их в регламенты по ночам выходных дней…
Первопричиной сегодняшней аварии был плановый запуск нескольких 10G линков в ядре сети, который мы надеялись провести с минимальными простоями в будни… не вышло… 🙁
Хотелось бы извиниться перед всеми нашими абонентами за столь некорректную работу наших инженернрных технических служб и мой личный недосмотр, то есть разрешение проводить подобные работы без отдельных согласований…
Уверен, что мы сможем в ближайшее время исключить подобные простои!!!
PS: Завтра планирую фото-сессию нашего дата-центра ибо послезавтра доклад и презентация на эту тему… 😉 выложу в сеть и обещаю ничего не трогать… 😉
3 комментария
ae11
[ae.pp.ru] Пара слов инсайда и извинения перед абонентами… http://ae.pp.ru/wordpress/?p=2740
Zhopengauer
Право слово, достало уже, Александр Валерьевич.
Я за ноябрь месяц не помню ни одной недели, что бы у меня был нормальный интернет. Вот и сегодня на холмогорова 43 постоянно вылетает. Сейчас пишу с МТС коннект.
Причем так забавно. Подключение к пппое есть, а интернета нет 8)
Когда мы уже заживем счастливо?
ae
очень хочется подробностей типа номера договора на почту ибо никаких предпосылок для такого поведения сервиса я не вижу и важно изучать детали…