От алерта к подтвержденному действию

Пробел после мониторинга

Prometheus Alertmanager, Zabbix, Grafana, Datadog и CI хорошо находят проблему. Слабое место часто начинается после push-уведомления: нужно открыть ноутбук, найти SSH-ключ, вспомнить команду и не ошибиться окружением.

Nerve не заменяет мониторинг. Alertmanager или Zabbix остаются источником правды, а Nerve становится отдельным encrypted ops pipe: сначала короткий сигнал, потом осознанное подтверждение действия с телефона.

Правильная модель: сначала сигнал, потом действие

SignalSender DSN находится в мониторинге или CI. Он только отправляет encrypted signal и не умеет читать историю, расшифровывать сообщения или выполнять команды.

DecisionЧеловек видит контекст: alertname, host, severity, runbook link, текущий deploy SHA.

ActionNerve agent на контролируемой машине принимает подписанное ограниченное действие. Это другой credential, не тот же секрет, что в webhook.

Хорошие действия скучные

Самые безопасные первые действия небольшие, проверяемые и уже описанные в runbook:

показать status сервиса и последние строки журнала;
перезапустить один systemd unit;
очистить только заранее известный cache path;
запустить read-only health check;
вызвать wrapper для rollback на предыдущий релиз.

Кнопка на телефоне не должна быть “открыть shell”. Она должна означать конкретную операцию с понятной областью действия и ожидаемым результатом.

Изолированный agent

Запускайте agent отдельным Unix-пользователем. Права на действия лучше давать через маленькие wrapper scripts, sudoers и file permissions, а не через широкий root-доступ.

[Service]
User=nerve-agent
Group=nerve-agent
NoNewPrivileges=true
PrivateTmp=true
ProtectHome=true
ProtectSystem=strict
ReadWritePaths=/var/lib/nerve-agent /run/nerve-actions
ExecStart=/usr/local/bin/nerve-agent -server api.nerve.ink:443 -token TOKEN

Не начинайте с auto-fix

Автоматическое исправление выглядит красиво в презентации, но в реальном incident response оно может скрыть симптом или усилить аварию. Начните с human-approved actions. Когда конкретный runbook месяцами показывает безопасную историю, уже можно решать, стоит ли переносить узкую автоматизацию в сам мониторинг.

Алерт уже пришел. Что дальше?

Пробел после мониторинга

Правильная модель: сначала сигнал, потом действие

Хорошие действия скучные

Изолированный agent

Не начинайте с auto-fix

Похожие страницы