Что можно сделать, чтобы повысить SLA этого сервиса?


Отсортировали

INCIDENT-11519 Problems with Geo-Config in New Order 21.05.2024

  1. Определить SLA / нефункциональные требования (NFR)
    1. Сейчас нет процесса написания NFR
    2. сколько сабскрайберов?
    3. сколько евентов?
    4. если новый сервис
      1. нагрузка по БД
    5. если не можешь оценить сначала
      1. последовательно раскатываемся и оцениваем постфактум
      2. тестирование на определение параметров
    6. превратить NFR в метрики и смотреть
    7. определяешь с помощью нагрузочного тестирования параметры
      1. и по результатам нагрузки получаешь
  2. Тестирование NFR
    1. сейчас по запросу
    2. по-хорошему в момент приёмочного тестирования
    3. NFR требования меняются
    4. проходить перед каждым релизом
  3. Отсутствие метрик и алертов
  4. Архитектурная проработка

INCIDENT-11501 Falling orders in NO Latam 03.05.2024

  1. NFR
    1. сколько должно быть горячих данных?
    2. Капасити-тесты
  2. Метрики и алерты были в порядке
    1. не хватило ранбуков, что делать
  3. На уровне инфраструктуры были не готовы к скейлингу
    1. держать актуальные версии
  4. партиционирование больших таблиц

https://indriver.atlassian.net/browse/INCIDENT-11506 с Vault

  1. использование vault по назначению