Перейти к содержимому

Руководство пользователя GMonitML

Руководство пользователя по эксплуатации GMonitML

Заголовок раздела «Руководство пользователя по эксплуатации GMonitML»

Данное руководство описывает, как использовать модули GMonitML для оперативного мониторинга, анализа проблем и принятия решений по эксплуатации IT-систем. Руководство ориентировано на операторов, DevOps-инженеров и системных администраторов.

После входа в GMonitML вы попадаете на домашнюю страницу, где отображается:

  • Список сервисов: Все monitored приложения и сервисы
  • Ключевые метрики: Общий статус здоровья системы
  • Быстрый доступ: Ссылки на основные дашборды

Используйте выпадающие меню в правом верхнем углу для перехода между модулями:

  • APM: Application Performance Monitoring
  • Infrastructure: Инфраструктурный мониторинг
  • Distributed tracing: Распределенная трассировка
  • RUM: Real User Monitoring

Мониторинг производительности приложений (APM)

Заголовок раздела «Мониторинг производительности приложений (APM)»

Назначение: Мониторинг HTTP-запросов и API-вызовов

Ключевые метрики для анализа:

  • Время ответа: Среднее время обработки запросов
  • Пропускная способность (Throughput): Количество запросов в секунду
  • Apdex: Индекс удовлетворенности производительностью
  • Процент ошибок: Доля неудачных запросов

Как использовать для операций:

  1. Откройте дашборд “Web transactions”
  2. Проверьте графики времени ответа по перцентилям (P50, P95, P99)
  3. Выявите транзакции с наибольшим временем выполнения
  4. Проанализируйте тренды производительности

Назначение: Отслеживание и анализ ошибок в приложениях

Возможности:

  • Графики частоты ошибок по типам транзакций
  • Хитмап распределения ошибок
  • Детальная информация по каждой ошибке (стектрейс, атрибуты)

Операционные сценарии:

При росте количества ошибок:
1. Перейдите на дашборд "Errors"
2. Отфильтруйте ошибки по времени и типу
3. Изучите стектрейсы наиболее частых ошибок
4. Определите затронутые сервисы и компоненты

Назначение: Мониторинг работы с базами данных

Метрики для анализа:

  • Время выполнения запросов к БД
  • Количество соединений
  • Использование пула соединений
  • Медленные запросы

Рекомендации по эксплуатации:

  • Настройте алерты при превышении порога медленных запросов (>1 сек)
  • Мониторьте рост количества соединений
  • Анализируйте паттерны запросов N+1

Назначение: Предиктивное выявление отклонений от нормы

Принцип работы:

  • Построение базовых линий поведения
  • Статистический анализ (правило трех сигм)
  • Три зоны: зеленая (норма), желтая (внимание), красная (критично)

Использование в операциях:

При срабатывании алерта аномалии:
1. Проверьте дашборд "Anomaly detection"
2. Определите тип аномалии (время ответа, пропускная способность, ошибки)
3. Сравните с историческими данными
4. Примите меры по стабилизации или эскалации

Дашборд Hosts: Сводные метрики по серверам

Ключевые показатели:

  • CPU usage: Загрузка процессора (< 80% норма)
  • Memory usage: Использование памяти (< 85% норма)
  • Storage usage: Использование диска (> 20% свободно)
  • Network traffic: Сетевой трафик
  • Load average: Средняя загрузка системы
  • Processes: Количество и статус процессов

Операционный контроль:

Окно терминала
Критические пороги для алертов:
- CPU > 90% в течение 5 минут
- Память > 95% в течение 2 минут
- Диск < 5% свободного места
- Load average > количества ядер

Дашборд Containers: Метрики по контейнерам

Показатели для каждого контейнера:

  • CPU usage (ядра и процент)
  • Memory usage (абсолютное и процент)
  • Storage usage
  • Network traffic (входящий/исходящий)
  • Restarts (количество перезапусков)

Рекомендации по мониторингу:

  • Настройте алерты на перезапуски контейнеров
  • Мониторьте рост потребления ресурсов
  • Отслеживайте сетевой трафик между контейнерами

Метрики для анализа:

  • Активные соединения
  • Время выполнения запросов
  • Использование индексов
  • Размер базы данных

Ключевые показатели:

  • Использование памяти
  • Количество подключений
  • Hit rate кэша
  • Время отклика

Метрики производительности:

  • Количество запросов в секунду
  • Время обработки запросов
  • HTTP статусы ответов
  • Использование worker процессов

Трассировка: Полный путь запроса через все сервисы Span: Сегмент обработки в одном сервисе Trace ID: Уникальный идентификатор трассировки

Навигация:

  1. Перейдите на домашнюю страницу сервисов
  2. Выберите меню “Traces” → “Distributed tracing”

Фильтрация и поиск:

  • По времени выполнения
  • По наличию ошибок
  • По сервисам и операциям
  • По длительности

Сценарий: Медленная транзакция

1. Откройте дашборд Distributed Tracing
2. Отфильтруйте по времени (> 5 секунд)
3. Выберите проблемную трассировку
4. Проанализируйте каждый span:
- Определите bottleneck (самый медленный span)
- Проверьте внешние вызовы
- Выявите проблемные сервисы

Сценарий: Ошибки в распределенной системе

1. Отфильтруйте трассировки с ошибками
2. Изучите span'ы с ошибками
3. Определите точку возникновения ошибки
4. Проследите распространение ошибки по цепочке

Ключевые метрики:

  • LCP (Largest Contentful Paint): Время загрузки основного контента (< 2.5 сек)
  • FID (First Input Delay): Задержка первого взаимодействия (< 100 мс)
  • CLS (Cumulative Layout Shift): Стабильность макета (< 0.1)
  • FCP (First Contentful Paint): Время первого контента (< 1.8 сек)

Домашняя страница: Общие метрики по веб-приложению Page Views: Анализ отдельных страниц Ajax: Мониторинг AJAX-запросов Errors: JavaScript ошибки Sessions: Записи пользовательских сессий

Сценарий 1: Расследование жалобы на медленную работу

Заголовок раздела «Сценарий 1: Расследование жалобы на медленную работу»
1. APM → Web Transactions: Проверить время ответа
2. Distributed Tracing: Найти проблемные трассировки
3. Infrastructure: Проверить загрузку серверов
4. RUM: Оценить пользовательский опыт
5. Errors: Проверить наличие ошибок

Сценарий 2: Анализ роста потребления ресурсов

Заголовок раздела «Сценарий 2: Анализ роста потребления ресурсов»
1. Infrastructure → Hosts: Проверить загрузку CPU/памяти
2. APM → Scalability: Анализ нагрузки на приложение
3. Containers: Проверить состояние контейнеров
4. Anomaly Detection: Выявить аномалии в поведении

Сценарий 3: Реагирование на алерт о высокой ошибочности

Заголовок раздела «Сценарий 3: Реагирование на алерт о высокой ошибочности»
1. APM → Errors: Детальный анализ ошибок
2. Distributed Tracing: Найти проблемные транзакции
3. Dependency Check: Проверить внешние зависимости
4. Platform Monitoring: Анализ среды исполнения

Производительность:

  • Время ответа > порог
  • Пропускная способность < минимум
  • Apdex < 0.8

Ошибки:

  • Процент ошибок > 5%
  • Рост количества ошибок

Инфраструктура:

  • CPU > 90%
  • Память > 95%
  • Диск < 10% свободно

Аномалии:

  • Выход за пределы базовой линии
  • Необычные паттерны поведения

Поддерживаемые каналы:

  • Email
  • SMS
  • Telegram
  • Webhook
  • Slack/Microsoft Teams

Ежедневные проверки:

  • Обзор ключевых метрик на домашней странице
  • Проверка алертов и инцидентов
  • Анализ трендов производительности

Еженедельный анализ:

  • Детальный разбор аномалий
  • Проверка эффективности алертов
  • Анализ пользовательского опыта

Предиктивный мониторинг:

  • Настройка алертов на ранние признаки проблем
  • Регулярный анализ трендов
  • Планирование capacity на основе метрик

Автоматизация:

  • Настройка автоматических реакций на алерты
  • Интеграция с системами управления инцидентами
  • Автоматическое масштабирование при необходимости

Ведение записей:

  • Документирование инцидентов и их разрешения
  • Фиксация порогов и базовых линий
  • Обновление runbook’ов на основе опыта

Автоматическое тестирование:

  • Проверка производительности в CI
  • Автоматические тесты с мониторингом
  • Валидация метрик перед деплоем

Мониторинг деплоев:

  • Отслеживание метрик во время релиза
  • Автоматический rollback при проблемах
  • Анализ влияния изменений

Процесс реагирования:

  1. Получение алерта
  2. Оценка влияния
  3. Диагностика с помощью GMonitML
  4. Принятие мер по устранению
  5. Документирование и анализ

Эффективное использование GMonitML позволяет оперативно выявлять проблемы, анализировать их причины и принимать обоснованные решения по эксплуатации IT-систем.