Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 3 Monate her
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 2 Monate, 2 Wochen her
О футбольных дата сайентистах
Прилетел вопрос в личку, мол, как искать/читать статьи про спорт. В общем, нет у меня ответа. Раньше был MIT Sloan, на котором публиковались действительно приличные статьи, но с ковидом все стало плохо.
В начале года выделил время на список Ван Хаарена, 90% статей - шлак. Особенно забавно читать подобные статьи в приложениях вроде Zotero, где можно оставлять заметки. Ну и достаточно быстро этот список начал покрываться тегами:
NotBad/Good/Excellent - меньшинство.
Useless - не понятно зачем, ресёрч ради ресёрча. Обычно используется очень простой метод, вроде "давайте применим кластеризацию на данных и посмотрим, что получилось".
Bullshit - откровенный бред, который обычно выражается в виде ошибки выжившего и прочих дата-ликов. Пример: давайте прогнозировать трансферную стоимость на 3 года вперед. В данных остаются только те примеры, в которых футболист играл три года подряд в топ-лигах. Обучается модель, делается вывод. И ни слова про отсеянных игроков, а в этом и суть: если игрок задержался в АПЛ на три года, то это уже о чем-то говорит. Не говоря уже о совсем пиздецовых случаях вроде "мы плохие данные руками выбрасывали".
CopyPaste - особенно возмутил случай, когда метод, использованный в регби, был тупо скопирован и применен к футболу. Но написана была не одна статья, а три. Каждая представляла собой следующую структуру: пол статьи - описание метода (во всех трех одинаковая), другая половина - применение на практике/интерпретация. Ну а чего? Статьи три, самоцитирований тоже X3, грантов, наверное, тоже три.
Однако была еще серая зона, которую было сложно сразу осознать. Это удивительное сочетание современных ML методов вроде трансформеров и примитивной футбольной логики. Например, "владение - это когда как минимум два соседних события принадлежат одной команде". "Награда определяется расстоянием до ворот в момент потери". "Давайте посчитаем вероятность забить в ближайшие K событий."
Но потом меня осенило. Эти так называемые футбольные дата сайентисты просто программировать не умеют! Про те же трансформеры много чего опубликовано, и с кодом, и с объяснением. А вот что делать с сырыми футбольными данными, инструкций не написали, копипастить нечего.
О прогнозах победителя чемпионата Европы
Сам хотел написать похожий пост, да как-то забил. По мне, публикация подобных прогнозов без описания метода/выложенного кода не имеет смысла. Сами предсказания уже доступны: можно просто зайти на сайт букмекеров. А почему кто-то должен верить, что вероятности от Опты и других компаний точнее, чем у буков - непонятно. Буки хотя бы материальную ответственность за точность несут.
Более того, откуда я знаю, что эти вероятности вообще кто-то считал? Можно же просто взять прогнозы тех же буков, добавить случайный шум (чтобы не точь-в-точь списывать) и написать пост про сверХточную нейронную сеть обученную на суперкомпьютере.
Не удивлюсь, если Никита подобный баг и отловил.
В этом отношении подход Wyscout к верховым единоборствам более объктивен. Они просто указывают того, кто первым коснулся мяча.
Понятно, что с подобной трактовкой можно не согласиться. Однако такая разметка позволяет прописать свою логику определения победителя.
Она может быть такой:
1) Сфоливший игрок проиграл
2) Если фола не было, то победу отдаем тому, кто первый коснулся
3) Если никто не коснулся, то ничья.
А можно в третьем случае посмотреть на команду, которой достался мяч, исключая ничейный исход.
А еще можно вообще не обращать внимание на первое касание. Чей команде владение досталось, тот и победил.
Наткнулся на интересный пункт в докуменации Wyscout. Оказывается, xG считается, в том числе, на основе "Tagger's assessment of the danger of the shot".
Что означает эта фраза, остается загадкой. Но если данная оценка коррелирует, например, с силой удара, то это фиаско.
Современные проблемы требуют современных решений
В прошлой статье я строил модель, предсказывающую, сыграет ли футболист хотя бы 100 минут в следующем сезоне или нет. Тогда это делалось без использования информации о длине контракта.
Причем важно знать не только дату окончания контракта, но и когда он был подписан (или хотя бы информацию вида "перед началом такого-то сезона у игрока был котракт до такого-то года"). Поскольку при обучении модели в будущее заглядывать нельзя.
И тут пришла мысль, что можно было бы где-то раздобыть базу из Football Manager с привязкой к конкретной версии игры. То, что нужно: на момент выхода такой-то версии у таких-то игроков были такие-то контракты. Базу Football Manager в удобном формате найти не удалось, зато наткнулся на единую базу из FIFA с 15 по 23.
https://www.kaggle.com/datasets/stefanoleone992/fifa-23-complete-player-dataset
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 3 Monate her
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 2 Monate, 2 Wochen her