Руководство пользователя GMonitML
Руководство пользователя по эксплуатации GMonitML
Заголовок раздела «Руководство пользователя по эксплуатации GMonitML»Обзор возможностей мониторинга
Заголовок раздела «Обзор возможностей мониторинга»Данное руководство описывает, как использовать модули GMonitML для оперативного мониторинга, анализа проблем и принятия решений по эксплуатации IT-систем. Руководство ориентировано на операторов, DevOps-инженеров и системных администраторов.
Навигация по интерфейсу
Заголовок раздела «Навигация по интерфейсу»Домашняя страница
Заголовок раздела «Домашняя страница»После входа в GMonitML вы попадаете на домашнюю страницу, где отображается:
- Список сервисов: Все monitored приложения и сервисы
- Ключевые метрики: Общий статус здоровья системы
- Быстрый доступ: Ссылки на основные дашборды
Навигация между модулями
Заголовок раздела «Навигация между модулями»Используйте выпадающие меню в правом верхнем углу для перехода между модулями:
- APM: Application Performance Monitoring
- Infrastructure: Инфраструктурный мониторинг
- Distributed tracing: Распределенная трассировка
- RUM: Real User Monitoring
Мониторинг производительности приложений (APM)
Заголовок раздела «Мониторинг производительности приложений (APM)»Основные дашборды APM
Заголовок раздела «Основные дашборды APM»Веб-транзакции
Заголовок раздела «Веб-транзакции»Назначение: Мониторинг HTTP-запросов и API-вызовов
Ключевые метрики для анализа:
- Время ответа: Среднее время обработки запросов
- Пропускная способность (Throughput): Количество запросов в секунду
- Apdex: Индекс удовлетворенности производительностью
- Процент ошибок: Доля неудачных запросов
Как использовать для операций:
- Откройте дашборд “Web transactions”
- Проверьте графики времени ответа по перцентилям (P50, P95, P99)
- Выявите транзакции с наибольшим временем выполнения
- Проанализируйте тренды производительности
Ошибки приложений
Заголовок раздела «Ошибки приложений»Назначение: Отслеживание и анализ ошибок в приложениях
Возможности:
- Графики частоты ошибок по типам транзакций
- Хитмап распределения ошибок
- Детальная информация по каждой ошибке (стектрейс, атрибуты)
Операционные сценарии:
При росте количества ошибок:1. Перейдите на дашборд "Errors"2. Отфильтруйте ошибки по времени и типу3. Изучите стектрейсы наиболее частых ошибок4. Определите затронутые сервисы и компонентыХранилища и базы данных
Заголовок раздела «Хранилища и базы данных»Назначение: Мониторинг работы с базами данных
Метрики для анализа:
- Время выполнения запросов к БД
- Количество соединений
- Использование пула соединений
- Медленные запросы
Рекомендации по эксплуатации:
- Настройте алерты при превышении порога медленных запросов (>1 сек)
- Мониторьте рост количества соединений
- Анализируйте паттерны запросов N+1
Обнаружение аномалий
Заголовок раздела «Обнаружение аномалий»Назначение: Предиктивное выявление отклонений от нормы
Принцип работы:
- Построение базовых линий поведения
- Статистический анализ (правило трех сигм)
- Три зоны: зеленая (норма), желтая (внимание), красная (критично)
Использование в операциях:
При срабатывании алерта аномалии:1. Проверьте дашборд "Anomaly detection"2. Определите тип аномалии (время ответа, пропускная способность, ошибки)3. Сравните с историческими данными4. Примите меры по стабилизации или эскалацииИнфраструктурный мониторинг
Заголовок раздела «Инфраструктурный мониторинг»Мониторинг хостов
Заголовок раздела «Мониторинг хостов»Дашборд Hosts: Сводные метрики по серверам
Ключевые показатели:
- CPU usage: Загрузка процессора (< 80% норма)
- Memory usage: Использование памяти (< 85% норма)
- Storage usage: Использование диска (> 20% свободно)
- Network traffic: Сетевой трафик
- Load average: Средняя загрузка системы
- Processes: Количество и статус процессов
Операционный контроль:
Критические пороги для алертов:- CPU > 90% в течение 5 минут- Память > 95% в течение 2 минут- Диск < 5% свободного места- Load average > количества ядерМониторинг контейнеров Docker
Заголовок раздела «Мониторинг контейнеров Docker»Дашборд Containers: Метрики по контейнерам
Показатели для каждого контейнера:
- CPU usage (ядра и процент)
- Memory usage (абсолютное и процент)
- Storage usage
- Network traffic (входящий/исходящий)
- Restarts (количество перезапусков)
Рекомендации по мониторингу:
- Настройте алерты на перезапуски контейнеров
- Мониторьте рост потребления ресурсов
- Отслеживайте сетевой трафик между контейнерами
Специализированный мониторинг
Заголовок раздела «Специализированный мониторинг»PostgreSQL
Заголовок раздела «PostgreSQL»Метрики для анализа:
- Активные соединения
- Время выполнения запросов
- Использование индексов
- Размер базы данных
Ключевые показатели:
- Использование памяти
- Количество подключений
- Hit rate кэша
- Время отклика
Метрики производительности:
- Количество запросов в секунду
- Время обработки запросов
- HTTP статусы ответов
- Использование worker процессов
Распределенная трассировка
Заголовок раздела «Распределенная трассировка»Основные понятия
Заголовок раздела «Основные понятия»Трассировка: Полный путь запроса через все сервисы Span: Сегмент обработки в одном сервисе Trace ID: Уникальный идентификатор трассировки
Работа с дашбордом Distributed Tracing
Заголовок раздела «Работа с дашбордом Distributed Tracing»Навигация:
- Перейдите на домашнюю страницу сервисов
- Выберите меню “Traces” → “Distributed tracing”
Фильтрация и поиск:
- По времени выполнения
- По наличию ошибок
- По сервисам и операциям
- По длительности
Анализ проблем
Заголовок раздела «Анализ проблем»Сценарий: Медленная транзакция
1. Откройте дашборд Distributed Tracing2. Отфильтруйте по времени (> 5 секунд)3. Выберите проблемную трассировку4. Проанализируйте каждый span: - Определите bottleneck (самый медленный span) - Проверьте внешние вызовы - Выявите проблемные сервисыСценарий: Ошибки в распределенной системе
1. Отфильтруйте трассировки с ошибками2. Изучите span'ы с ошибками3. Определите точку возникновения ошибки4. Проследите распространение ошибки по цепочкеМониторинг пользовательского опыта (RUM)
Заголовок раздела «Мониторинг пользовательского опыта (RUM)»Web Vitals
Заголовок раздела «Web Vitals»Ключевые метрики:
- LCP (Largest Contentful Paint): Время загрузки основного контента (< 2.5 сек)
- FID (First Input Delay): Задержка первого взаимодействия (< 100 мс)
- CLS (Cumulative Layout Shift): Стабильность макета (< 0.1)
- FCP (First Contentful Paint): Время первого контента (< 1.8 сек)
Структура дашборда RUM
Заголовок раздела «Структура дашборда RUM»Домашняя страница: Общие метрики по веб-приложению Page Views: Анализ отдельных страниц Ajax: Мониторинг AJAX-запросов Errors: JavaScript ошибки Sessions: Записи пользовательских сессий
Практические сценарии эксплуатации
Заголовок раздела «Практические сценарии эксплуатации»Сценарий 1: Расследование жалобы на медленную работу
Заголовок раздела «Сценарий 1: Расследование жалобы на медленную работу»1. APM → Web Transactions: Проверить время ответа2. Distributed Tracing: Найти проблемные трассировки3. Infrastructure: Проверить загрузку серверов4. RUM: Оценить пользовательский опыт5. Errors: Проверить наличие ошибокСценарий 2: Анализ роста потребления ресурсов
Заголовок раздела «Сценарий 2: Анализ роста потребления ресурсов»1. Infrastructure → Hosts: Проверить загрузку CPU/памяти2. APM → Scalability: Анализ нагрузки на приложение3. Containers: Проверить состояние контейнеров4. Anomaly Detection: Выявить аномалии в поведенииСценарий 3: Реагирование на алерт о высокой ошибочности
Заголовок раздела «Сценарий 3: Реагирование на алерт о высокой ошибочности»1. APM → Errors: Детальный анализ ошибок2. Distributed Tracing: Найти проблемные транзакции3. Dependency Check: Проверить внешние зависимости4. Platform Monitoring: Анализ среды исполненияНастройка алертов и уведомлений
Заголовок раздела «Настройка алертов и уведомлений»Типы алертов
Заголовок раздела «Типы алертов»Производительность:
- Время ответа > порог
- Пропускная способность < минимум
- Apdex < 0.8
Ошибки:
- Процент ошибок > 5%
- Рост количества ошибок
Инфраструктура:
- CPU > 90%
- Память > 95%
- Диск < 10% свободно
Аномалии:
- Выход за пределы базовой линии
- Необычные паттерны поведения
Настройка каналов уведомлений
Заголовок раздела «Настройка каналов уведомлений»Поддерживаемые каналы:
- SMS
- Telegram
- Webhook
- Slack/Microsoft Teams
Лучшие практики эксплуатации
Заголовок раздела «Лучшие практики эксплуатации»Регулярный мониторинг
Заголовок раздела «Регулярный мониторинг»Ежедневные проверки:
- Обзор ключевых метрик на домашней странице
- Проверка алертов и инцидентов
- Анализ трендов производительности
Еженедельный анализ:
- Детальный разбор аномалий
- Проверка эффективности алертов
- Анализ пользовательского опыта
Проактивный подход
Заголовок раздела «Проактивный подход»Предиктивный мониторинг:
- Настройка алертов на ранние признаки проблем
- Регулярный анализ трендов
- Планирование capacity на основе метрик
Автоматизация:
- Настройка автоматических реакций на алерты
- Интеграция с системами управления инцидентами
- Автоматическое масштабирование при необходимости
Документирование
Заголовок раздела «Документирование»Ведение записей:
- Документирование инцидентов и их разрешения
- Фиксация порогов и базовых линий
- Обновление runbook’ов на основе опыта
Интеграция с процессами DevOps
Заголовок раздела «Интеграция с процессами DevOps»CI/CD пайплайн
Заголовок раздела «CI/CD пайплайн»Автоматическое тестирование:
- Проверка производительности в CI
- Автоматические тесты с мониторингом
- Валидация метрик перед деплоем
Управление релизами
Заголовок раздела «Управление релизами»Мониторинг деплоев:
- Отслеживание метрик во время релиза
- Автоматический rollback при проблемах
- Анализ влияния изменений
Управление инцидентами
Заголовок раздела «Управление инцидентами»Процесс реагирования:
- Получение алерта
- Оценка влияния
- Диагностика с помощью GMonitML
- Принятие мер по устранению
- Документирование и анализ
Полезные ссылки
Заголовок раздела «Полезные ссылки»Эффективное использование GMonitML позволяет оперативно выявлять проблемы, анализировать их причины и принимать обоснованные решения по эксплуатации IT-систем.