Руководство пользователя GMonitML

Руководство пользователя по эксплуатации GMonitML

Обзор возможностей мониторинга

Данное руководство описывает, как использовать модули GMonitML для оперативного мониторинга, анализа проблем и принятия решений по эксплуатации IT-систем. Руководство ориентировано на операторов, DevOps-инженеров и системных администраторов.

Навигация по интерфейсу

Домашняя страница

После входа в GMonitML вы попадаете на домашнюю страницу, где отображается:

Список сервисов: Все monitored приложения и сервисы
Ключевые метрики: Общий статус здоровья системы
Быстрый доступ: Ссылки на основные дашборды

Навигация между модулями

Используйте выпадающие меню в правом верхнем углу для перехода между модулями:

APM: Application Performance Monitoring
Infrastructure: Инфраструктурный мониторинг
Distributed tracing: Распределенная трассировка
RUM: Real User Monitoring

Мониторинг производительности приложений (APM)

Основные дашборды APM

Веб-транзакции

Назначение: Мониторинг HTTP-запросов и API-вызовов

Ключевые метрики для анализа:

Время ответа: Среднее время обработки запросов
Пропускная способность (Throughput): Количество запросов в секунду
Apdex: Индекс удовлетворенности производительностью
Процент ошибок: Доля неудачных запросов

Как использовать для операций:

Откройте дашборд “Web transactions”
Проверьте графики времени ответа по перцентилям (P50, P95, P99)
Выявите транзакции с наибольшим временем выполнения
Проанализируйте тренды производительности

Ошибки приложений

Назначение: Отслеживание и анализ ошибок в приложениях

Возможности:

Графики частоты ошибок по типам транзакций
Хитмап распределения ошибок
Детальная информация по каждой ошибке (стектрейс, атрибуты)

Операционные сценарии:

При росте количества ошибок:
1. Перейдите на дашборд "Errors"
2. Отфильтруйте ошибки по времени и типу
3. Изучите стектрейсы наиболее частых ошибок
4. Определите затронутые сервисы и компоненты

Хранилища и базы данных

Назначение: Мониторинг работы с базами данных

Метрики для анализа:

Время выполнения запросов к БД
Количество соединений
Использование пула соединений
Медленные запросы

Рекомендации по эксплуатации:

Настройте алерты при превышении порога медленных запросов (>1 сек)
Мониторьте рост количества соединений
Анализируйте паттерны запросов N+1

Обнаружение аномалий

Назначение: Предиктивное выявление отклонений от нормы

Принцип работы:

Построение базовых линий поведения
Статистический анализ (правило трех сигм)
Три зоны: зеленая (норма), желтая (внимание), красная (критично)

Использование в операциях:

При срабатывании алерта аномалии:
1. Проверьте дашборд "Anomaly detection"
2. Определите тип аномалии (время ответа, пропускная способность, ошибки)
3. Сравните с историческими данными
4. Примите меры по стабилизации или эскалации

Инфраструктурный мониторинг

Мониторинг хостов

Дашборд Hosts: Сводные метрики по серверам

Ключевые показатели:

CPU usage: Загрузка процессора (< 80% норма)
Memory usage: Использование памяти (< 85% норма)
Storage usage: Использование диска (> 20% свободно)
Network traffic: Сетевой трафик
Load average: Средняя загрузка системы
Processes: Количество и статус процессов

Операционный контроль:

Критические пороги для алертов:
- CPU > 90% в течение 5 минут
- Память > 95% в течение 2 минут
- Диск < 5% свободного места
- Load average > количества ядер

Мониторинг контейнеров Docker

Дашборд Containers: Метрики по контейнерам

Показатели для каждого контейнера:

CPU usage (ядра и процент)
Memory usage (абсолютное и процент)
Storage usage
Network traffic (входящий/исходящий)
Restarts (количество перезапусков)

Рекомендации по мониторингу:

Настройте алерты на перезапуски контейнеров
Мониторьте рост потребления ресурсов
Отслеживайте сетевой трафик между контейнерами

Специализированный мониторинг

PostgreSQL

Метрики для анализа:

Активные соединения
Время выполнения запросов
Использование индексов
Размер базы данных

Redis

Ключевые показатели:

Использование памяти
Количество подключений
Hit rate кэша
Время отклика

NGINX

Метрики производительности:

Количество запросов в секунду
Время обработки запросов
HTTP статусы ответов
Использование worker процессов

Распределенная трассировка

Основные понятия

Трассировка: Полный путь запроса через все сервисы Span: Сегмент обработки в одном сервисе Trace ID: Уникальный идентификатор трассировки

Работа с дашбордом Distributed Tracing

Навигация:

Перейдите на домашнюю страницу сервисов
Выберите меню “Traces” → “Distributed tracing”

Фильтрация и поиск:

По времени выполнения
По наличию ошибок
По сервисам и операциям
По длительности

Анализ проблем

Сценарий: Медленная транзакция

1. Откройте дашборд Distributed Tracing
2. Отфильтруйте по времени (> 5 секунд)
3. Выберите проблемную трассировку
4. Проанализируйте каждый span:
   - Определите bottleneck (самый медленный span)
   - Проверьте внешние вызовы
   - Выявите проблемные сервисы

Сценарий: Ошибки в распределенной системе

1. Отфильтруйте трассировки с ошибками
2. Изучите span'ы с ошибками
3. Определите точку возникновения ошибки
4. Проследите распространение ошибки по цепочке

Мониторинг пользовательского опыта (RUM)

Web Vitals

Ключевые метрики:

LCP (Largest Contentful Paint): Время загрузки основного контента (< 2.5 сек)
FID (First Input Delay): Задержка первого взаимодействия (< 100 мс)
CLS (Cumulative Layout Shift): Стабильность макета (< 0.1)
FCP (First Contentful Paint): Время первого контента (< 1.8 сек)

Структура дашборда RUM

Домашняя страница: Общие метрики по веб-приложению Page Views: Анализ отдельных страниц Ajax: Мониторинг AJAX-запросов Errors: JavaScript ошибки Sessions: Записи пользовательских сессий

Практические сценарии эксплуатации

Сценарий 1: Расследование жалобы на медленную работу

1. APM → Web Transactions: Проверить время ответа
2. Distributed Tracing: Найти проблемные трассировки
3. Infrastructure: Проверить загрузку серверов
4. RUM: Оценить пользовательский опыт
5. Errors: Проверить наличие ошибок

Сценарий 2: Анализ роста потребления ресурсов

1. Infrastructure → Hosts: Проверить загрузку CPU/памяти
2. APM → Scalability: Анализ нагрузки на приложение
3. Containers: Проверить состояние контейнеров
4. Anomaly Detection: Выявить аномалии в поведении

Сценарий 3: Реагирование на алерт о высокой ошибочности

1. APM → Errors: Детальный анализ ошибок
2. Distributed Tracing: Найти проблемные транзакции
3. Dependency Check: Проверить внешние зависимости
4. Platform Monitoring: Анализ среды исполнения

Настройка алертов и уведомлений

Типы алертов

Производительность:

Время ответа > порог
Пропускная способность < минимум
Apdex < 0.8

Ошибки:

Процент ошибок > 5%
Рост количества ошибок

Инфраструктура:

CPU > 90%
Память > 95%
Диск < 10% свободно

Аномалии:

Выход за пределы базовой линии
Необычные паттерны поведения

Настройка каналов уведомлений

Поддерживаемые каналы:

Email
SMS
Telegram
Webhook
Slack/Microsoft Teams

Лучшие практики эксплуатации

Регулярный мониторинг

Ежедневные проверки:

Обзор ключевых метрик на домашней странице
Проверка алертов и инцидентов
Анализ трендов производительности

Еженедельный анализ:

Детальный разбор аномалий
Проверка эффективности алертов
Анализ пользовательского опыта

Проактивный подход

Предиктивный мониторинг:

Настройка алертов на ранние признаки проблем
Регулярный анализ трендов
Планирование capacity на основе метрик

Автоматизация:

Настройка автоматических реакций на алерты
Интеграция с системами управления инцидентами
Автоматическое масштабирование при необходимости

Документирование

Ведение записей:

Документирование инцидентов и их разрешения
Фиксация порогов и базовых линий
Обновление runbook’ов на основе опыта

Интеграция с процессами DevOps

CI/CD пайплайн

Автоматическое тестирование:

Проверка производительности в CI
Автоматические тесты с мониторингом
Валидация метрик перед деплоем

Управление релизами

Мониторинг деплоев:

Отслеживание метрик во время релиза
Автоматический rollback при проблемах
Анализ влияния изменений

Управление инцидентами

Процесс реагирования:

Получение алерта
Оценка влияния
Диагностика с помощью GMonitML
Принятие мер по устранению
Документирование и анализ

Полезные ссылки

Эффективное использование GMonitML позволяет оперативно выявлять проблемы, анализировать их причины и принимать обоснованные решения по эксплуатации IT-систем.