Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago
В 1906 Нобелевскую премию по физике получил Дж. Томсон за эксперименты, доказавшие, что электроны являются частицами. В 1937 Нобелевскую премию получил его сын за доказательство того, что электроны являются волнами. Возможность быть то волной, то частицей объясняется принципом неопределённости Гейзенберга: ΔxΔp≥ħ/2. Это фундаментальный кирпичик квантовой физики, но математический смысл неравенства просто в том, что любые две величины, связанные преобразованием Фурье не могут быть одновременно измерены с бесконечной точностью. Некоторые исследователи полагают что аналог принципа неопределённости существует и в ML. Тут считают что это, проявляется в балансе обобщения и интерпретируемости: чем лучше модель обобщает зависимости в данных, тем менее она интерпретируема. Но в статье 2022 года интересно показывается соответствие между терминами ML и квантовой физики на примере атаки на сети. Так нормированный по X лосс обученной модели становится волновой функцией (в квантовой физике волновая функция описывает все что происходит с системой), сам X - становится координатой, а градиент лосса по X - импульсом (по аналогии с квантовым оператором импульса). В атаке на сети мы просто обновляем X вдоль градиента лосса по X, но оказывается что между дисперсиями этих величин (X и dLoss(f(X),Y)/dX) возникает ограничение идентичное принципу неопределённости. Допускаю что если вместо X взять веса модели и градиент по ним, то принцип неопределённости также выполнится. Интересно, найдет ли кто-нибудь аналог кота Шредингера, запутанных частиц или квантового туннелирования в ML.
Паритет точности это слабое условие на калибровку модели по группам. В случае предсказания совершения повторного преступления, разница ложноположительных ошибок между A и B (FPR_A - FPR_B) определяет разницу в наказании для тех, кто не совершил рецидив, а (FNR_A - FNR_B)!=0 указывает на разницу в наказании для рецидивистов. Далее показывается, что если наблюдаемая p - вероятность повторного преступления в группах A и B различна (например в группе А рецидивы случаются в 50% случаев, а в группе B, только в 30%), то никакой классификатор не может удовлетворить одновременно трем названным условиям справедливости. Доказательство сводится к формуле связывающей Precision, FPR и FNR:
FRP = p/(1-p) * (1-Precision) / Precision * (1 - FNR)
Для системы из двух таких уравнений и p_A != p_B есть три варианта решения:
1. FRP_A != FRP_B, FNR_A = FNR_B, Precision_A = Precision_B,
2. FRP_A = FRP_B, FNR_A != FNR_B, Precision_A = Precision_B,
3. FRP_A = FRP_B, FNR_A = FNR_B, Precision_A != Precision_B.
В случае равноценного выбора, Александра предлагает жертвовать точностью ради сохранения баланса FRP и FNR (3 вариант).
Еще один пост о невозможности, на этот раз невозможности справедливости в ML. Справедливость - этическая, не статистическая концепция, но если используем ML для оценки рисков (вероятность рецидива преступника, оценка кандидата при приеме на работу, кредитоспособность и т.д.), важно убедиться, что модель не предвзята к какой-либо группе людей. Александра Чулдехова из Карнеги давно исследует справедливость в машинном обучении (ее цитирует Джон Клейнберг, о котором писал выше). В своей работе Александра указывает на требования к справедливой модели, в отношении групп A и B (пол/раса/география проживания и тд):
1. Паритет точности. Метрика Precision должна совпадать для обеих групп при равном пороге отсечки.
P(Y = 1 | score > threshold, A) = P(Y = 1 | score > threshold, B )
2. Баланс FPR - ложноположительных ошибок (FPR == 1 минус recall отрицательного класса).
P(score > threshold | Y = 0, A) = P(score > threshold | Y = 0, B )
3. Баланс FNR - ложноотрицательных ошибок (FNR == 1 минус recall положительного класса).
P(score <= threshold | Y = 1, A) = P(score <= threshold | Y = 1, B )
Плюсы KAN:
- Авторы обещают, что для обучения на одних и тех же данных KAN требует значительно меньше нейронов по сравнению с MLP.
- Не нужно переобучать с нуля для повышения точности при наличии новых данных. Достаточно добавить больше точек в сетку сплайнов и дообучить модель с новыми данными.
- Заявляется, что модели KAN лучше интерпретируемы. Но мне кажется это работает только для простых датасетов. Если бизнес спросит, почему модель в проде дала такой результат, а вы в ответ покажете большую формулу из вложенных кусочных полиномов, вас вряд ли поймут.
Минусы:
- KAN на порядок дольше обучается.
- По моим наблюдениям, модель довольно неустойчива. С фиксированными гиперпараметрами один seed может дать приемлемое качество, а другой взорвать кривую обучения (напоминает RNN).
- Главное пока нет примеров sota решений KAN для каких-либо серьезных задач.
Привет! Два месяца назад в MIT представили новую архитектуру нейронных сетей — Kolmogorov-Arnold Networks (KAN), которая является альтернативой классическому multilayer perceptron (MLP). Основой KAN является теорема Колмогорова-Арнольда, утверждающая, что любую многомерную функцию можно представить как вложенную комбинацию одномерных функций. Главное отличие от MLP состоит в том, что функции активации в KAN размещены на ребрах сети, а не в ее вершинах. В вершинах остается только суммирование входящих функций. Функции на ребрах задаются взвешенной суммой одномерных сплайнов (кусочных полиномов), именно коэффициенты перед сплайнами выучивает модель.
В продолжении темы про новую ранговую корреляцию. Ее способность улавливать зависимости, которые часто недоступны для корреляций Пирсона, Спирмана, Кендалла и легкость расчета (пара сортировок), делает ее удобным инструментом первичного EDA. Для примера я взял несколько датасетов почти без предобработки, отправляя в NewCorr(X,Y) все фичи как есть (категориальные, числовые, datetime) расстояние между колонками считал как D = 1 - max{NewCorr(X,Y),NewCorr*(Y,X)} и поверх матрицы расстояний иерархическую complete кластеризацию, собирая кластеры для D < 0.5.
А тут DRF дает оценку стандартного отклонения для предсказаний по всем точкам (где была заполнена температура и где нет). Видно, что в вырезанной области дисперсия заметно возрастает. Модель подсказывает нам что, менее уверена в своих ответах на данных, которых не видела при обучении. Это полезное качество - при некотором пороге дисперсии не доверять предсказаниям модели.
Датасет -> https://www.kaggle.com/datasets/guillemservera/global-daily-climate-data
Обученный (на фичах - год и номер дня в году) Distributional Random Forest заполнил пропущенную область визуально близкими к фону значениями.
Для toy-примера я взял сглаженные данные подневной температуры в Longyearbyen (Лонгйир - город на Шпицбергене, где на глубине 130 метров расположено всемирное семенохранилище), и выкинул часть данных в виде лемнискаты Бернулли.
Привет, всякий раз, когда приходится иметь дело с рисками (прогноз погоды, медицинская диагностика, финансы, беспилотные авто и тд) возникает задача прогнозирования не просто точечного значения, а целого диапазона, в идеале всего условного распределения F(Y|X). Среди доступных для этого инструментов: Байесовские методы, квантильная регрессия, конформные предсказания и ансамблевые методы. К последним относится модификация случайного леса - Distributional Random Forest. Отличие от классического леса только в конце - для выбранного X оценивается близость со всеми точками из train набора по тому, как часто X попадает с ними в одни и те же листья в деревьях. Полученные меры близости используются в качестве весов для соответствующих значений Y из обучающей выборки, что в итоге дает непараметрическую оценку условного распределения F(Y|X).
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago