2021/11/26 16:44:49

Оптимальный ИТ-мониторинг сегодня и в будущем: опыт ВТБ Лизинг

Растущие объемы цифровизации бизнеса предъявляют новые требования к устойчивости ИТ-систем, надежности и качеству их функционирования. Это утверждение в полной мере относится к компании ВТБ Лизинг: она активно внедряет электронные услуги, и это развитие требует специальных усилий для увеличения производительности и доступности корпоративных информационных систем. Решая эту задачу, специалисты компании эффективно комбинируют лучшие практики использования свободного ПО с собственной разработкой решений ИТ-мониторинга.

Содержание

Растущая зависимость бизнес-процессов от ИТ требует усиления контроля за функционированием программно-аппаратных комплексов и информационных систем

В лизинговой компании понимают, что растущая зависимость бизнес-процессов от информационных технологий требует усиления контроля за функционированием программно-аппаратных комплексов и информационных систем на всех «этажах» ИТ-среды - от инфраструктуры до приложений. Поэтому ИТ-департамент компании создает систему сквозного мониторинга, которая охватывает все уровни ИТ-систем: компьютерное «железо», системное ПО, прикладные программные системы, работающие на уровне бизнес-процессов. При этом контроль корпоративного цифрового пространства осуществляется исходя из требований максимальной гибкости мониторинговых механизмов – это отвечает потребностям постоянного наращивания цифровых активов, удобства для персонала и экономичности, с точки зрения затрат.

TAdviser расспросил ИТ-специалистов ВТБ Лизинг, чтобы узнать, какие методы применяет компания для создания эффективного многоуровневого ИТ-мониторинга.

Переход на новую архитектуру мониторинга ИТ-инфраструктуры

В прошлом году в ВТБ Лизинг общее количество узлов инфраструктуры, подлежащих мониторингу, – компьютерное и сетевое оборудование, виртуальные машины и даже многофункциональные устройства (МФУ) в офисах – превысило тысячу. Это стало своеобразной точкой перелома в развитии системы мониторинга, и дальнейшее добавление аппаратных ресурсов в связи с расширением перечня объектов мониторинга стало слишком затратным, рассказал Михаил Воронов, главный специалист отдела ИТ-инфраструктуры ВТБ Лизинг.

«
В этой ситуации было целесообразно перейти на более производительную архитектуру мониторинга, которая дает нам возможность эффективнее использовать уже имеющиеся мощности, а не приобретать дополнительные,- пояснил он.
»

Новая архитектура мониторинга подразумевает, что помимо основного сервера, в каждом ЦОДе работают proxy-серверы, на которых дублируются базы данных мониторинга.

«
Даже если что-то случится с каналами передачи данных между ЦОДами, мы не потеряем данные по важным для нас метрикам, – подчеркивает Михаил Воронов.
»

Кроме того, инфраструктурная часть мониторинга структурно отделена от мониторинга приложений.

Еще один важный элемент перехода к новой архитектуре мониторинга - миграция с СУБД Microsoft MySQL на отечественную СУБД Postgres. ИТ-специалисты ВТБ Лизинг отмечают в числе несомненных достоинств Postgres, помимо развитой функциональности, отличную документацию, большое количество качественных учебных курсов, а также хорошее глобальное сообщество разработчиков, что помогает быстро получать ответы на самые разные вопросы.

Сегодня мониторинг охватывает все уровни инфраструктуры: «железо», гипервизоры, операционную систему, углубленный мониторинг базы данных и часть важных приложений, в первую очередь, CRM.

Для лучшего анализа проблем инфраструктура в системе мониторинга разделена на группы. Так, для различных сервисов выделена своя группа, а ИТ-среды разделены на тестовую, предпродуктовую и продуктовую. Отдельно выделены группы под СУБД: MS SQL, Oracle, Postgres.

«
Это разделение дает возможность гибко разграничить права сотрудников, у которых есть доступ к системе мониторинга, - отмечает Михаил Воронов.
»

Отдельный раздел системы мониторинга занимается наблюдением за доменной инфраструктурой пользователей и почтовыми ящиками компании. Например, система мониторинга инфраструктуры следит, чтобы общекорпоративные почтовые ящики типа info@ или support@ не переполнялись, и при обнаружении такого риска происходит автоматическое оповещение ответственных сотрудников. Подобное автоматическое оповещение получают сотрудники ИТ-департамента в случае блокировки учетной записи пользователя и буквально в реальном времени начинают заниматься решением проблемы.

«
После того, как в рамках новой архитектуры были добавлены новые уровни мониторинга, мы стали гораздо быстрее находить проблемы и «узкие места» в инфраструктуре, быстрее исправлять замеченные недостатки. Значительно повысилась скорость реагирования на те или иные проблемы – это очень важно для бизнеса, - подчеркивает Михаил Воронов.
»

Кроме того, сведения о проблемных точках в инфраструктуре поступают разработчикам ИТ-сервисов, и они используют эту информацию для того, чтобы еще на этапе разработки создать наиболее эффективное ПО.

Важнейший элемент системы мониторинга – метрики

Важнейший элемент системы мониторинга – метрики, то есть те сведения, которые система получает от узлов мониторинга. Чем больше метрик удается реализовать, тем более детальное и разностороннее представление о функционировании объекта мониторинга можно получить, а значит, более гибко и оперативно реагировать на изменения в доступности информационных систем.

По словам Михаила Воронова, всего в системе мониторинга ИТ-инфраструктуры ВТБ Лизинг реализовано более 150 тыс. различных метрик. Среди них есть достаточно простые, например, время работы сервера с момента включения или доступность узла сети. Есть и достаточно сложные метрики, требующие для своей реализации подготовки специальных скриптов. Как рассказывает Михаил Воронов, нередко инициаторами разработки таких метрик являются сотрудники, ответственные за те или иные участки ИТ-систем. Например, администратор базы данных может попросить создать специальную метрику, которая позволит ему оценить механизм получения данных от приложения до базы данных. А разработчику веб-сервера будут полезны сведения о статистике ошибок тех или иных типов.

Функционал мониторинга доступности прикладных программных систем в рамках новой архитектуры выделен в отдельную подсистему мониторинга. Это позволило ИТ-департаменту ВТБ Лизинг реализовать централизованную работу мониторингового ПО с различными прикладными системами. При этом включение новой информационной системы в «периметр» мониторинга происходит очень легко.

Особо важное направление – мониторинг доступности приложений

Этому направлению ИТ-департамент ВТБ Лизинг уделяет особое внимание, ведь проблема с доступностью прикладной системы является, по сути, проблемой для бизнеса.

Традиционный мониторинг качества ИТ-сервисов обычно предполагает регистрацию обращений пользователей по поводу замеченных проблем первой линией техподдержки. При этом эффективность последующих действий зависит от времени реакции разработчиков. В компании ВТБ Лизинг решили не доводить ситуацию до такой стадии, когда проблемы становятся заметны бизнес-пользователям.

«
Мониторинг приложений нужен для того, чтобы мы могли замечать инциденты еще до того, как их заметит пользователь, - рассказывает Тимофей Баканов, ведущий специалист по направлению автоматизации тестирования ВТБ Лизинг. - В этом смысле мониторинг подобен датчику дыма: он показывает, что пожар уже разгорается, но еще можно решить проблему до того, как огонь заметят пользователи.

»

Система мониторинга приложений реализована в компании в формате синтетического мониторинга. Это подразумевает проверку доступности с помощью набора интерфейсных UI-роботов, повторяющих действия человека, но непрерывно, 24 часа в сутки. Фактически это автотесты, которые выполняют действия пользователя системы и тестируют определенные аспекты программного обеспечения. Для их разработки используется стандартный и понятный большинству автоматизаторов программный стек Java + Selenium. Однако при написании автотестов для мониторинга доступности требуется очень тщательная проработка их структуры, ведь тесты должны «ходить» со 100% стабильностью и не допускать ложных срабатываний, подчеркивают в ИТ-департаменте ВТБ Лизинг.

Идеальное сочетание: open source + собственная разработка

Для графического отображения результатов автотестов приложений используется свободное ПО (СПО) Grafana - open source продукт, который позволяет проводить анализ полученных данных. А для мониторинга ИТ-инфраструктуры выбрано свободное ПО Zabbix – этот продукт полностью удовлетворяет высоким корпоративным требованиям по нескольким ключевым параметрам. Во-первых, это развитая функциональность продукта: помимо собственно мониторинга, данное решение поддерживает инвентаризацию ИТ-систем, отчетность, а также обеспечивает возможность расчета параметра уровня обслуживания (SLA). Во-вторых, компании требовалась высокая гибкость настроек мониторинга и системы уведомлений. При этом само решение бесплатное, на коммерческих условиях предоставляются только услуги техподдержки. Однако благодаря мощному глобальному сообществу пользователей Zabbix большую часть возникающих технических вопросов удается разрешить без обращения в официальную поддержку вендора.

Сегодня под управлением продукта мониторинга Zabbix работает внушительная инфраструктура ВТБ Лизинг на базе трех ЦОДов, охватывающая филиалы компании не только в различных городах России (их сегодня более 60), но и за рубежом: в Белоруссии, Ирландии и на Кипре.

Для критически важного для повседневной работы бизнеса направления мониторинга приложений сотрудники ИТ-департамента ВТБ Лизинг пишут соответствующее ПО сами

А вот для критически важного для повседневной работы бизнеса направления мониторинга приложений сотрудники ИТ-департамента пишут соответствующее ПО сами. Ведь только таким образом можно достичь тщательности проработки автотестов, которая обеспечивает их бесперебойную круглосуточную работу при любых изменениях в корпоративной ИТ-среде.

Например, критически важная часть синтетического мониторинга доступности приложений – единый интерфейс прикладного программирования (API) для приема данных от тестов. Это ПО собственной разработки, написанное на языке Python.

Этот интерфейс выполняет роль единой точки входа в базу данных мониторинга: в тот момент, когда тот или иной автотест собирается передать свои данные в базу данных мониторинга, он проверяет корректность новых данных. Ведь если в базу запишутся некорректные данные, содержимое всей базы может быть испорчено, а это очень опасно.

Еще один важнейший программный модуль, написанный для мониторинга приложений,- сервис расчета процента доступности приложения (доля от 100% - абсолютной доступности). Он не только производит сам расчет, но и передает данные для наглядного отображения процентов доступности в ПО Grafana, в которой такой функциональности изначально не предусмотрено. Если процент доступности приближается к некоторому пороговому значению, которое определено как риск снижения доступности приложения для бизнес-пользователей, специальный Telegram-бот автоматически отсылает оповещение о событии всем сотрудникам, подписанным на мониторинг данного сервиса.

«
Теперь мы действуем проактивно: в большинстве случаев бизнес-пользователь из нашей компании не наткнется на неработающий сервис, так как мы уже знаем, что у сервиса возникли проблемы, и успеваем его починить, - подчеркивает Тимофей Баканов и резюмирует: Лучшее обращение в техподдержку – это несозданное обращение.
»

По словам Тимофея Баканова, при создании модуля расчета доступности приложения ИТ-департамент сразу заложил требование высокой гибкости: «Его легко модифицировать, например, добавлять некоторые правила, меняющие логику расчета». Скажем, однажды обнаружилось, что автотесты показывают нулевую доступность. А причина была в том, что в это время производилось официальное обновление соответствующего ПО и, конечно, прикладная система была недоступна для пользователей. Буквально за несколько часов в логику расчета была добавлена возможность учитывать технологические «окна», во время которых приложение недоступно на 100%, но это не является риском, на который необходимо реагировать.

Сегодня для проверки доступности приложений используются порядка 65 автотестов, и это количество постоянно растет. Причем, каждый из них работает на двух машинах: если один из серверов с тестами выйдет из строя, то второй продолжит мониторинг. Поскольку тестирование происходит круглосуточно, причем в рабочей среде, такой уровень ответственности предъявляет нетривиальные требования к качеству разработки автотестов. В этих условиях наиболее оптимальный подход к их разработке и совершенствованию – собственная команда разработчиков.

Больше тестов, хороших и разных

В ИТ-департаменте ВТБ Лизинг направление мониторинга доступности приложений находится в фазе активного развития. Например, недавно добавлена функция, отображающая количество ложных срабатываний тестов в сутки. Предполагается усложнение функционала мониторинга для дальнейшего повышения эффективности информационных систем компании.

В свою очередь, увеличение количества и усложнение автотестов сказывается на производительности системы мониторинга. Поэтому сегодня сотрудники ИТ-департамента работают над задачей ускорения мониторинга.

«
Возможно, это будет асинхронный код для каждого сервиса, либо сервис расчета для каждого приложения будет производиться в отдельном docker-контейнере, – делится соображениями Тимофей Баканов.
»

Увеличение количества и усложнение автотестов сказывается на производительности системы мониторинга

И, конечно, к автотестированию будут подключаться новые информационные сервисы и системы. Сегодня основной ИТ-сервис, чью доступность постоянно измеряют программные инструменты, - CRM. Но уже идет работа над углубленным мониторингом учетной системы .

«
В перспективе мы хотим мониторить весь наш ИТ-ландшафт и все информационные системы,- отмечает Тимофей Баканов.
»

Это, в свою очередь, открывает новые перспективы использования данных системы мониторинга. Например, можно вводить метрики для оценки качества работы сотрудников над тем или иным сервисом и формировать на их основе систему поощрений.

«
Тогда ИТ-специалисты будут реально заинтересованы в том, чтобы повысить доступность, например, приложения CRM с нынешних 96,6% до, скажем, 99,5%, - поясняет Тимофей Баканов.
»

Это будет означать, что прикладные системы ВТБ Лизинг практически не допускают простоев даже минимального масштаба, незаметного обычным бизнес-пользователям. Так мечты об идеальной работоспособности информационных систем становятся реальностью.