Что можно сделать, чтобы повысить SLA этого сервиса?
Отсортировали
INCIDENT-11519 Problems with Geo-Config in New Order 21.05.2024
- Определить SLA / нефункциональные требования (NFR)
- Сейчас нет процесса написания NFR
- сколько сабскрайберов?
- сколько евентов?
- если новый сервис
- нагрузка по БД
- если не можешь оценить сначала
- последовательно раскатываемся и оцениваем постфактум
- тестирование на определение параметров
- превратить NFR в метрики и смотреть
- определяешь с помощью нагрузочного тестирования параметры
- и по результатам нагрузки получаешь
- Тестирование NFR
- сейчас по запросу
- по-хорошему в момент приёмочного тестирования
- NFR требования меняются
- проходить перед каждым релизом
- Отсутствие метрик и алертов
- Архитектурная проработка
INCIDENT-11501 Falling orders in NO Latam 03.05.2024
- NFR
- сколько должно быть горячих данных?
- Капасити-тесты
- Метрики и алерты были в порядке
- не хватило ранбуков, что делать
- На уровне инфраструктуры были не готовы к скейлингу
- держать актуальные версии
- партиционирование больших таблиц
https://indriver.atlassian.net/browse/INCIDENT-11506 с Vault
- использование vault по назначению