Data Blog

Description
Explainable AI, data analysis и да, я — кошатник 🐈
Advertising
We recommend to visit

Для тех, кто любит IT и мемы;

Админ, сотрудничество: @skill8989
Прайс - t.me/wise_media

Канал на бирже: telega.in/c/programmer_memes

Ркн: № 4933146692

Предложка мемов – @sendmeapic_bot

Last updated 1 day, 2 hours ago

• مرحبًا بك في بوت تمويل العرب
———
~ افضل بوت تمويل حقيقي في العالم
~ رابط البوت ↫ t.me/xnsex21bot .
———
• المطور الرسمي : @zzz_z 👨🏻‍💻.

Last updated 8 months, 1 week ago

War on live.
Warhammer fans against russian orcs.

Maim! Kill! Burn!
Announced by Khorne

Last updated 2 months, 4 weeks ago

1 month, 3 weeks ago

🍁🍁🍁

P.S. Я ужасно стрессую, когда пинаю что-то до Хабра, потому что личка на Хабр — иной раз отдельное искусство. Поэтому буду очень рада вашей поддержке в виде реакций/комментариев :)

P.P.S У меня есть к вам мини-просьба. Относительно скоро (через полтора месяца) у меня день рождения =)
И я бы очень хотела дойти до 1000 читателей (я люблю красивые цифры и галочки в списках желаний!)

Буду безумно рада и благодарна, если вы поделитесь блогом просто среди знакомых и тех, кому он может быть интересен!

Спасибо вам огромное, что читаете, наблюдаете и задаете вопросы!
Вы — лучшие!

Всегда ваш,
Дата-автор! 🫶🏻

2 months, 4 weeks ago
2 months, 4 weeks ago

Друзья, привет!

Вас становится всё больше и больше — радуюсь безумно!
Всем добро пожаловать! 🤗

Чувствую себя вернувшейся из творческого отпуска и готова продолжать наполнять канал.

Чтобы он был максимально полезным для вас — прошу тыкнуть в опросе ниже! 👇🏻

Из апдейтов — в субботу читаю семинар в онлайн-магистратуре ВШЭ.
Нервно готовлюсь! Или уже не совсем нервно)

Заряженный на много работы,
Ваш Дата-автор!

4 months, 2 weeks ago

Друзья, еще очень хочу сказать вам огромное спасибо за поддержку на Ютуб! ?

Для меня это какой-то новый опыт, и я очень настроена продолжать :)
Уже потихоньку планирую следующее видео!

Желаю вам чудного вечера,
Как всегда ваш,

Дата-автор!

4 months, 2 weeks ago

Привет, друзья! ?

Обещала сделать обзор про Generative AI + XAI.

Генеративные модели делают переход от «распознавания верного решения задачи» к «генерации решения».

Требует ли такой манёвр радикальных изменений в техниках объяснения модели? ?

Нырок по статьям на эту тему показывает, что и да, и нет.

В этом посте выделила несколько тривиальных, но интересных штук по XAI для генеративных моделей:

1. Совместимость с классикой: с одной стороны, классические методы, такие как SHAP, LIME, Counterfactual explanations применимы как к моделям, решающим задачи в классической постановке, так и к генеративным моделям. С другой — сама идея генерации открывает новые возможности (а некоторые наоборот — частично закрывает), что, конечно, влияет и на объяснения.

2. Проблема доступа: широкое использование генеративок существует не только из-за эффективности моделей, но ещё и из-за их доступности — например, chatGPT привлекает более 100 миллионов посетителей каждый месяц.
Однако пользователи, заинтересованные в понимании процесса генерации, не могут получить доступ к внутренним компонентам моделей, что исключает подходы XAI, основанные на данных и на анализе внутренних слоев.

3. Самообъяснения и их неоднозначность: генеративные языковые модели можно попросить генерировать так называемую Chain-of-though, однако такой подход завязан на ряде недостатков. Например, цепочка рассуждений, которые модель может отдавать очень чувствительна к данным обучения — например, если слова вроде «потому что» удалить из данных обучения, то они никогда не будут сгенерированы.

? А больше и ничего интересного мне не нашлось. Конечно, еще оптимизируют архитектуры для отдельных модальностей данных (натыкалась на статьи про Generative XAI for music и for art), но челленджей тут много.

5 months ago

Probing: что еще можно делать с моделями, чтобы их объяснить ?

Привет, друзья! Недавно столкнулась с новой для себя идеей в exaplinable AI: model probing.

Происхождение термина: Термин probing classifier можно встретить в контексте генеративных моделей и, нередко, лингвистических.

Решаемая проблема: Допустим, у нас обучена большая широкая модель. Как понять, на каком уровне модели хранится информация о, например, частях речи?

Идея «зондирования» не является новой, она в чём-то похожа на идею суррогатных моделей, повернутую на 180 градусов. Модель g называется зондирующей, если она обучена (с учителем) решению какой-либо задачи на скрытых представлениях модели. Обращаясь к поставленной проблеме, мы бы могли обучить g прогнозировать части речи на основе выходов модели.

Чуть подробнее: Представим, что у нас есть модель Net, обученная решать задачу перевода. Предположим дополнительно, что модель состоит из двух частей — кодирующей (encoder) и декордирующей (decoder). Построим зондирующие модели g1, g2 на частях кодера и декодера. Чтобы понять, где в модели информация о частях речи, сравним точности g1 и g2 на тестовых данных.

Полученный результат обработаем и получим какой-то вывод!

Преимущества метода:

  1. Легкость применения
  2. Возможность сравнивать модели различных архитектур, при условии, что они обучены на одном и тоже датасете

Недостатки:

  1. Чувствительность к обработке данных и гиперпараметрам зондирующей и исходной моделей
  2. Отсутствие обобщения — пробинг для одной задачи и для одной модели не гарантирует, что модель и модели этого семейства хорошо понимают эту информацию в общем контексте или в других задачах

Мнение:
В целом, идея интересная. Многие нюансы, такие как насколько можно доверять "зондам", исследуют, разрабатывая механизмы тестирования.

Как всегда небольшое пожелание — интересных вам идей, друзья!
Ваш Дата автор!
?

7 months ago
7 months, 3 weeks ago

Осторожно: Feature importances.

Привет, друзья! ?

Чем больше я изучаю методы интерпретации и работаю с ними, тем более тонкие моменты удается подчерпывать. И сегодня об одном из них: feature_importances_.

Да, да, я про атрибут у ансамблиевых (Catboost, XGBoost, Random Forest) и древесного (Decision tree) алгоритмов.

Как считается:
- Классически на основе Information gain, максимизируемого при разбиении

Что хорошо:
- Не нужно дополнительного вычислительного времени — такая важность признаков вычисляется на лету, вместе с тем как происходит процесс обучения.

Что плохо:
- Эта важность признаков смещена в сторону непрерывных признаков. Не всегда, но часто чем большую признак имеет мощность, тем более информативным он оказывается.
- Вычисляется на основе обучающего, а не тестового набора данных

Но это всё — короткая теория. Села побаловаться и посмотреть на это на практике, и вот, что вышло (см. картинку в комментариях).

Эксперимент:
Прогнозировали титаник. Случайный категориальный признак содержал 5 категорий, случайный непрерывный — рандомные числа.
С точки зрения природы задачи, данные два признака должны быть не важны. Однако ансамбли говорят обратное и если бы данный признак был переименован, то можно было бы нестись с выводами к Леонардо Ди Каприо.

Среди Random Forest, Catboost и XGBoost, лучше всех «вшивый тест» прошел XGBoost.

Как с этим бороться:
Как правило, используя несколько методов в сопоставлении.

Вывод:
Будьте внимательны и осторожны, при извлечении гипотез на основе важности признаков. Сомневайтесь, уточняйте и не забудьте отдохнуть на ближайших выходных!

Рада всех вас видеть здесь!
Ваш Дата-автор!

??❤️?

7 months, 4 weeks ago

Привет, друзья! ?

Если дата-автор долго не публикует материал, значит ~~его съела-работа~~ готовится что-то новенькое!

Последние дни активно читаю материалы, много изучаю и интенсивно работаю. За прошедшее время мне удалось стать частью команды AI Education (чем я очень горжусь и наряду с практикой еще больше ем теорию, чтобы соответствовать команде). Но вообще не о себе (если только чуть-чуть) сюда пишу, а о Casual Inference!

Постановка проблемы: Стараясь оценить связь признака с целевой переменной, исследователи часто прибегают к анализу коэффициента корреляции. Кроме того, коэффициент корреляции — это первое, с чем знакомят на курсах Data science, так что знание о нем есть даже у начинающих. Однако:

Correlation is not causation.

или "корреляция не равна причинно-следственной связи". Но как быть, если причинно-следственную связь оценить всё же хочется?

Оказывается, можно использовать линейную регрессию!

Как, зачем, почему и вкусный пример по ссылке!

Материал я готовила для курса в том числе, но он будет оставаться открытым. Потому процесс обучения новому и просто интересному – это магия, и пусть её в вашей жизни будет больше!

Желаю вам теплых и уютных майских праздников! У меня вот в городе выросла мать-и-мачеха ? Ваш Дата-автор! ☺️**

9 months, 1 week ago
We recommend to visit

Для тех, кто любит IT и мемы;

Админ, сотрудничество: @skill8989
Прайс - t.me/wise_media

Канал на бирже: telega.in/c/programmer_memes

Ркн: № 4933146692

Предложка мемов – @sendmeapic_bot

Last updated 1 day, 2 hours ago

• مرحبًا بك في بوت تمويل العرب
———
~ افضل بوت تمويل حقيقي في العالم
~ رابط البوت ↫ t.me/xnsex21bot .
———
• المطور الرسمي : @zzz_z 👨🏻‍💻.

Last updated 8 months, 1 week ago

War on live.
Warhammer fans against russian orcs.

Maim! Kill! Burn!
Announced by Khorne

Last updated 2 months, 4 weeks ago