Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 2 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago
👉Ждали встречу в Питере? И мы ее сделали! 16 октября в 19ч в баре Failover на 4 Советской д.7 встречаемся, чтобы поменториться друг об друга!
👉🏻Регистрация на TimePad
Вас ждет:
19:00-19:30 — Разминка с запросами: "А это точно ко мне?" Анна Афонина, Founder ProIT Fest
19:30-20:30 Путь менти - Жанна Сеитова Growth Lead | Head of B2B |Product Manager Т-Банк
20:30 — 21:30 Круглый стол- знакомство: Чем мы можем быть полезны друг другу?
!!!АПДЕЙТ!!!
В связи с проблемами доступа к ютубу, трансляция будет на ВК по этой ссылке: https://vk.com/video/@glamcoder?z=video586260279_456239017%2Fpl_586260279_-2
Всем привет 👋 Как вы наверное заметили, в этом канале нечасто что-то происходит. Однако если уж происходит, то что-то крутое. Так случится и в этот раз :) Хочу рассказать, что уже через две недели в Москве пройдет наша очередная, третья по счету, оффлайн…
Если что, донаты принимаем тут: https://getmentor.dev/donate ;)
Итак, наш первый инцидент. Что же произошло вчера?
Timeline (все время в UTC)
- 14:00: Инцидент начался (17:00 по Москве).
- 14:15: Зарепорчен в личку мне
- 14:30: Репорт принят в работу
- 14:51: Сайт снова работает, бот и автоматизации лежат
- 15:00: Бот и автоматизации починены
- 15:05: Инцидент завершен
Импакт
Весь гетментор (сайт, бот, автоматизации) лежал полностью в течение 1 часа (ровно). Мы потеряли не более 5 новых заявок в этот час. Цифра взята с помощью экстраполяции с недельного количества заявок и уменьшена до 1 часа. Но тут очень трудно померить реальные данные, потому что заявки приходят неравномерно, плюс наблюдался "отскок" после инцидента, когда заявок создалось больше обычного. В итоге, за этот день мы получили примерно столько же новых заявок (даже больше) чем неделю и две назад. Также за время инцидента пришло две новые регистрации стать ментором (этот функционал продолжал работать). Автоматика по ним не сработала, но после завершения инцидента они были восстановлены в ручном режиме. Исходя из всего выше написанного можно сказать, что импакт был минимальный и не затронул самое важное – менторов и менти.
Причины
Сервис Airtable, который является базой данных для гетментора, перешел на новый способ авторизации, что требовало замены API токенов старого образца на новые. Предположительно в 14:00 UTC это изменение вышло в продакшн, что привело к тому, что бекенд гетментора стал получать 401 Unauthorized со стороны Airtable.
Что пошло не так?
Вот тут начинается самое интересное. Первое уведомление об изменении способа авторизации приходило от Airtable год назад (16 февраля 2023), после чего были еще уведомления, последнее из которых пришло 22 января 2024 года. Где-то летом я создал новый ключ в Airtable, и был уверен, что обновил его на бекенде. Однако, как оно всегда и бывает, это оказалось неправдой. Поэтому 12 февраля бекенд гетментора, используя устаревший ключ авторизации, не смог получить новые данные от Airtable и упал с ошибкой 503.
Были ли алерты эффективными?
Алерт был, но беда в том, что этот алерт был похож на другой, который встречается часто и не грозит ничем серьезным. Поэтому в этот раз увидев схожий алерт, мозг его проигнорировал как неважный. Большое спасибо тем, кто пинганул меня в личку, это помогло заметить проблему сильно раньше, чем оно могло быть (Time to response: 30 мин). Можно называть это alert fatigue, но это будет немного неточным. Но суть примерно такая же.
Что надо сделать?
- Пофиксить алерты, чтобы точно отделять ситуации между "все совсем плохо" от "все ок"
- Не откладывать важные инфраструктурные изменения на потом, и перепроверять, что изменения внедрены с каждым напоминанием
- В долгосрочной перспективе: переехать с Airtable на традиционную БД (это важно по разным причинам, но в том числе чтобы не зависеть от сторонних сервисов)
Спасибо всем, кто пинганул меня в личке о том, что сайт недоступен. И спасибо за терпение и доверие к сервису. Гетментор, как и все остальные, может и будет падать время от времени. Но самое главное – вставать и идти дальше. Так и будем делать!
#incident #postmortem #гетментор @getmentor_dev
P.S. принимаем фидбке на постмортем (и в целом) в комментах. Может есть что-то еще, что можно сделать, чтобы минимизировать потери от подобного рода инцидентов?
Кажется все починилось. Спасибо всем, кто пнул нас :)
сайт поднялся, остальное пока отдыхает (поправим чуть позже)
Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 2 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago