Пробел после мониторинга
Prometheus Alertmanager, Zabbix, Grafana, Datadog и CI хорошо находят проблему. Слабое место часто начинается после push-уведомления: нужно открыть ноутбук, найти SSH-ключ, вспомнить команду и не ошибиться окружением.
Nerve не заменяет мониторинг. Alertmanager или Zabbix остаются источником правды, а Nerve становится отдельным encrypted ops pipe: сначала короткий сигнал, потом осознанное подтверждение действия с телефона.
Правильная модель
Хорошие действия скучные
Самые безопасные первые действия небольшие, проверяемые и уже описанные в runbook:
- показать status сервиса и последние строки журнала;
- перезапустить один systemd unit;
- очистить только заранее известный cache path;
- запустить read-only health check;
- вызвать wrapper для rollback на предыдущий релиз.
Кнопка на телефоне не должна быть “открыть shell”. Она должна означать конкретную операцию с понятной областью действия и ожидаемым результатом.
Изолированный agent
Запускайте agent отдельным Unix-пользователем. Права на действия лучше давать через маленькие wrapper scripts, sudoers и file permissions, а не через широкий root-доступ.
[Service]
User=nerve-agent
Group=nerve-agent
NoNewPrivileges=true
PrivateTmp=true
ProtectHome=true
ProtectSystem=strict
ReadWritePaths=/var/lib/nerve-agent /run/nerve-actions
ExecStart=/usr/local/bin/nerve-agent -server api.nerve.ink:443 -token TOKEN
Не начинайте с auto-fix
Автоматическое исправление выглядит красиво в презентации, но в реальном incident response оно может скрыть симптом или усилить аварию. Начните с human-approved actions. Когда конкретный runbook месяцами показывает безопасную историю, уже можно решать, стоит ли переносить узкую автоматизацию в сам мониторинг.