Система реагирования на инциденты от Grafana Labs, теперь с открытым исходным кодом.
✔️ Система позволяет собирать информацию об аномалиях и событиях из различных систем мониторинга, после чего автоматически группировать данные, направлять уведомления ответственным группам и отслеживать состояние решения проблем.
Поддерживается интеграция с системами мониторинга Grafana, Prometheus, AlertManager и Zabbix.
✔️ Из полученной от систем мониторинга информации отфильтровываются второстепенные и малозначительные события, агрегируются дубликаты и исключаются проблемы, которые могут быть решены без участия человека.
✔️ Очищенные от лишнего информационного шума значительные события поступают в подсистему отправки оповещений, которая выделяет сотрудников, ответственных за решения выявленных категорий проблем, и отправляет уведомления с учётом графика их работы и степени занятости (оцениваются данные из календаря-планировщика).
✔️ В зависимости от степени важности инцидента уведомления могут отправляться через телефонные звонки, SMS, электронную почту, создание событий в календаре-планировщике, мессенджеры Slack и Telegram. При этом в Slack могут автоматически создаваться каналы для обсуждения вопросов, связанных с решением инцидента, к которым автоматически подключаются как отдельные сотрудники, так и целые команды.
Управление работой осуществляется через web-интерфейс.
https://github.com/grafana/oncall
Сайт:
https://grafana.com/oss/oncall/
إرسال تعليق