Конец прошлой недели запомнился крупнейшим сбоем в работе ПК под управлением Windows, на которых было установлено предназначенное для защиты от кибератак ПО компании CrowdStrike. По итогам проведённого расследования CrowdStrike заявила, что сбой произошёл из-за ошибки в тестовом ПО, которое не позволило должным образом проверить обновление, распространённое на миллионы ПК в пятницу.
Вместе с этим CrowdStrike пообещала в будущем более тщательно тестировать обновления для своего программного обеспечения, а также внедрить процедуру поэтапного развёртывания пакетов, чтобы избежать повторения инцидента, случившегося несколько дней назад. Напомним, приложение Falcon от CrowdStrike используется компаниями по всему миру для защиты от кибератак и установлено на миллионах ПК. В пятницу компания начала распространять обновление для Falcon, которое должно было собрать «данные телеметрии о возможных новых методах борьбы с киберугрозами». Такие обновления выходят с определённой регулярностью, но в данном случае одно из них стало причиной масштабного сбоя на ПК с Windows.
Обычно CrowdStrike выпускает обновления двух типов. Пакеты Sensor Content обновляют контент для Falcon на пользовательском устройстве и работают на уровне ядра Windows. Пакеты Rapid Response Content обновляют сигнатуры сенсора Falcon, который используется для выявления вредоносного ПО. В данном случае крошечный файл Rapid Response Content размером 40 Кбайт стал причиной сбоя на 8,5 млн компьютеров.
Обновления сенсора Falcon обычно не развёртываются из облака и включают модели искусственного интеллекта и машинного обучения, позволяющие CrowdStrike улучшить свои возможности в плане обнаружения вредоносного ПО в долгосрочной перспективе. Некоторые из этих возможностей включают в себя так называемые «Типы шаблонов», которые представляют собой программный код для нового обнаружения и настраивается в зависимости от того, как доставляется пакет на устройства пользователей.
В распоряжении CrowdStrike есть облачная платформа, которая используется для управления продуктами компании и проверки содержимого пакетов обновлений до их массового распространения. На прошлой неделе компания выпустила сразу два обновления Rapid Response Content. Теперь же было установлено, что ошибка в инструменте проверки контента привела к тому, что оба пакета прошли проверку, хотя одно из них являлось проблемным и в конечном счёте привело к массовому сбою.
Несмотря на то, что CrowdStrike проводит автоматизированное и ручное тестирование обновлений перед массовым распространением, похоже, что в данном случает проверка была проведена недостаточно тщательно. Предыдущее развёртывание «Типов шаблонов» обеспечило внутри компании «доверие к проверкам, выполняемым с помощью средств проверки контента», поэтому CrowdStrike посчитала, что новое развёртывание подобного обновления не вызовет осложнений. Это привело к тому, что сенсор Falcon получил проблемный контент вместе с обновлением Rapid Response Content, загрузил его код в свой интерпретатор контента, после чего произошла ошибка, связанная с попыткой получения доступа к областям памяти, находящимся за пределами допустимого адресного пространства. Эта ошибка не могла быть обработана Falcon, что и привело к сбою в Windows.
Для предотвращения подобных инцидентов в будущем CrowdStrike намерена улучшить процесс тестирования контента обновлений Rapid Response Content, в том числе за счёт проверки на локальных системах разработчика, поэтапного развёртывания пакетов и интеграции возможности отката к предыдущему состоянию системы. В дополнение к этому разработчики развёрнут в своих системах дополнительные инструменты для стресс-тестирования обновлений и выявления ошибок. Будет проводиться проверка стабильности пакетов обновлений и интерфейса контента Rapid Response Content. Ещё CrowdStrike обновит облачный инструмент проверки обновлений, а также улучшит механизм обработки ошибок в интерпретаторе контента, который является частью сенсора Falcon.
Источник: 3dnews.ru