Миграция сервисов в Яндекс Облако и поддержка инфраструктуры

17.08.2023

Важным моментом в успехе любого бизнес-мероприятия является бесперебойная работа системы. Однако, многие компании сталкиваются с проблемой зависания и недоступности системы во время активного использования участниками.

О проекте

К нам обратилась компания MeYou, предоставляющая услуги коммуникационного сервиса во время online-конференций и офлайн-мероприятий. Они столкнулись с перебоем в работе сервисов и с высокими затратами на ресурсы.

Задачи

  • Решение задач по стабильной работе сервиса для большого количества пользователей (более 15 тыс.).
  • Миграция и поддержка сервисов в облако.

Разработка и поддержка этой кастомизированной системы требовала большого количества ручной работы со стороны DevOps-специалистов. Однако до момента, когда заказчик начал сотрудничество с нашей компанией, он сталкивался с частыми падениями системы во время важных мероприятий.

Решение

Для решения этих проблем наша команда DevOps провела интервью и зафиксировала все пожелания Заказчика.

Специалисты подключились к системе за два часа до начала мероприятия, с целью проверить настройки и по возможности вносить коррективы во время мероприятия, чтобы избежать ее зависаний и сбоев.

Команда DevOps организовала поддержку инфраструктуры на Яндекс Облако, чтобы система функционировала стабильно и надежно.

  • Подключила инструменты мониторинга на основе Prometheus, Grafana, ELK. Это позволило настроить оповещения о потенциальных проблемах инфраструктуры и автоисправление.
  • Настроила автоматические бэкапы для восстановления в случае катастрофы и возможности быстрого обновления dev-среды.
  • Предложила архитектурные изменения для повышения надёжности и упрощения инфраструктуры (Object storage для хранения статических файлов, вынос части функционала в serverless).

Сами облачные ресурсы, которыми пользуется система, были постоянно активными, несмотря на то, что сама система нужна только во время мероприятий. Решение этой проблемы заключалось в настройке системы таким образом, чтобы в простое она потребляла минимум ресурсов, а во время мероприятий обеспечивала доступность необходимых вычислительных мощностей облака. Это помогло сэкономить ресурсы и эффективно использовать их, минимизируя излишнюю нагрузку.

Заключение

Наши специалисты создали прочный фундамент для стабильной работы системы во время мероприятий. Заказчик смог сосредоточиться на своем основном бизнесе, забыв о проблемах и сбоях, которые возникали ранее. Теперь он может полностью довериться нам в решении технических задач и быть уверенным, что наша команда справится с ними, а он может сосредоточиться на ключевых аспектах своего бизнеса.