Decision Making in the Wild

Description
@scitator random thoughts
Advertising
We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 2 days, 7 hours ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 2 months, 2 weeks ago

Реклама: @kingygmads / Платформа: ton.org.in
Чат: t.me/+QzoGJS7ktps1NOzh
Приватный канал: t.me/investkingyru/417
Помощь: @tonorgin_bot
EN: @investkingyru_en

Last updated 4 months, 3 weeks ago

7 months, 3 weeks ago

Research4Kids 2.0

В далекие времена прошлого года, мы в топ коллабе Tinkoff Research & Образования провели Research4Kids - наш научно-исследовательский марафон по куче ВУЗов, на котором студенты Tlab, а также научные руководители из Tinkoff Research, рассказывали про то, чем вообще занимаются и на какие конференции в итоге залетают.

В прошлом году, мы были скромные, поэтому ездили только по университетам Москвы, Питера, и Казани. В этом году мы идем дальше и сегодня начинаем турне Research4Kids в формате Минск-Спб-Казань-Мск-Екб-Новосиб-Астана! Подробнее тут. Ну и всех ждем, конечно же.

PS. А про прошлый опыт TLab можно почитать тут и тут.

8 months, 1 week ago
**So Good They Can't Ignore You**

So Good They Can't Ignore You

Я не читаю каждый финансовый отчет Тинькофф за год, но когда читаю - ожидаю увидеть там Tinkoff Research (тык).

PS. гайз, работаем ?️️️️

9 months, 1 week ago

красивое

9 months, 1 week ago

Welcome to the Night City! Do you want to reset your ~~cookies~~ advertiser weights?

OpenAI опять показали, что они "ships like no other", и зарелизили Sora (тык). Если коротко, можно теперь контролируемо генерировать примерно минуту видео около-реального качества. И это будет настоящее видео, а не ожившая картинка. И значительно реалистиченее чем у аналогов. Хотя артефакты все еще имеются, их количество vs качество видео в целом - выглядит как minor problem.

А при чем тут киберпанк?

В далеком 2021м, мы с Артуром Кузиным (привет грандмастерам) и другими CV Heads (да, чатик так буквально называется) как-то собрались обсудить что-как в CV и что там дальше будет. Одно из предсказаний, в которое я больше всего ждал было “персонализированная генеративная реклама через 5 лет". Т.е. как только мы получаем возможность генерировать картинки/видео, то просто добавляем туда щепоку RecSys, связываем с кнопкой "продать" и радуемся, что нашли product-market-fit. С учетом того, что генераторы картинок так уже используются - жду генеративную видео рекламу в этом году.

А что за advertiser weights?

После выхода ChatGPT и кучи LLM, появился новый понятный тренд - локальные LLM. Особенно активно в этом направлении копают Apple (mlx, research), которые под свой Apple silicon начали наконец то ML экосистему делать нормальную (для intel/amd смысла им вкладываться было мало). А если объединить это с federated learning (Federated LoRA), то получаем возможность поставки локальных foundational models с sft/rlhf дотюниванием прямо на устройстве.

Так что, ждем локальные multimodal foundation models, которые будут и рекламные посты тебе в ленту подмешивать, и картинки/видео генерить под тебя лично. И все секьюрно, локально, на устройстве. ?️️️️️️

PS. занятный факт - вчера еще Gemini Pro 1.5 вышла, но кому это сейчас интересно? ?️️️️️️

10 months, 1 week ago

вопрос от подписчика:

а кого еще почитать по RL в production? говорил на ДатаЕлке

так как лично я очень верю в RL-RecSys (даже в конце 2020 делал обзор (тык), то всегда рекомендую следить за Minmin Chen (тык). "Top-k off-policy correction for a REINFORCE recommender system" (тык) - обязательна к прочтению.

кроме этого, советую посмотреть что делает Netflix (тык, тык, тык). "Everything is recommendation" for Netflix.

и чтобы разбавить этот RecSys-движ, есть еще Warren B. Powell. Автор Reinforcement Learning and Stochastic Optimization, с несколько альтернативными взглядами на RL нежели Sutton, Bertsekas, и Barto. И с большим фокусом на supply chain optimization.

10 months, 2 weeks ago

На этих выходных заходил на ODS обсудить что-как продвигается в RL в 2023м.

Если коротко,
- много RLHF, алаймента и LLM в RL - это вообще тренд всего 2023, тут без внезапностей. зачем там именно RL хорошо пояснял John Schulman (тык)
- еще одна "игра" была решена с помощью RL. теперь это first-person view drone racing, что так-то сильный заход RL в реальным мир
- + Lyft без захода реальный мир +30mln/y с 2021 делает оптимизируя матчинг. думайте
- имхо, RL нашел свою успешную переформулировку в виде In-Context RL, а RL'щики распробовали Jax и начали новые Jax-based Envs чуть ли не каждую неделю выпускать
- новые SOTA на Atari 100k и D4RL, кстати, тоже на JAX; приятно, что SOTA на D4RL - 2 раза от Tinkoff Research за 2023й

Подробнее
- видео (тык)
- слайды (тык)

PS. ну и раз мы про RL говорим, не забываем поддержать CORL (тык), Katakomba (тык), XLand-MiniGrid (тык)

11 months, 1 week ago

В последнее время меня часто спрашивают (нет): "Серега, как вам в Tinkoff Research удается обгонять закон Мура по ускорению ИИ?". Мол,
(1) Ученые из Tinkoff Research открыли алгоритм для увеличения скорости обучения искусственного интеллекта в 20 раз (тык)
(2) Ученые из Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта (тык)

Что ж, следите за руками...

Во-первых, надо понимать, что для упрощения восприятия широкой аудиторией, во всех подобных новостях, все многообразие ML, CV, NLP, RecSys, Speech, TimeSeries, RL становится просто "ИИ". Мол, когда мы разбираемся в новой теме, нам не нужна вся специфика, которую мы все равно не поймем - нужны основные концепты, интуиция, база.

Во-вторых, если рассматривать прогресс по ускорению методов в Offline RL (чувствуете специфика началась?), то... нам действительно удается все так ускорять.

В далеком 2021 вышли новые SOTA в Offline RL - SAC-N и EDAC (тык). SOTA результаты там, безусловно, были, но ценой обучения ансамбля в 500 сеток вместо 1 как это было обычно.

Как можно понять, обучать 500 сеток - довольно медленно, поэтому за 2022 мы придумали как это все дело ускорить и как обучать значительно меньше сеток. Так получился SAC-RND (тык, тут Саша красавчик), который в 20 раз быстрее SAC-N (Appendix F в статье).

Параллельно с SAC-N, мы еще копали трюки-хаки, которые были предложены в Offline RL за последние пару лет. Сначала все было грустно, а потом идея раскрылась и получился ReBRAC (тык, тут Денис красавчик). И ReBRAC уже полностью ensemble-free, там одна сетка, как у старого-доброго Offline RL. И по понятным причинам, работает он еще в 4 раза быстрее (Appendix E), но с тем же SOTA результатом. Из крутого - еще и в offline-to-online SOTA поставили.

Кратко, эту историю можно запомнить как "Ensemble-based ORL: туда и обратно".

Однако, кроме ускорения и SOTA результатов, есть, как мне кажется, один очень важный тейк из всей этой истории: ReBRAC (2023) - это допиленный TD3+BC (2021), который, в свою очередь, допиленный TD3 (2018); получается, что несмотря на какое-то космическое количество работ по Offline RL, реальный прогресс... ну, он как бы есть ?. И вот об этом интересно подумать, если какими-то ML ресечами занимаетесь.

1 year, 2 months ago

Разбирая newsletters после NeurIPS review (оно наконец закончилось и для авторов, и для ревьюеров), наткнулся на новость о том, что "OpenAI confirms that AI writing detectors don’t work" (тык). Собственно, немного мыслей на тему "зачем же эти детекторы всем так нужны?".

Много чем опаснен Generative AI, но особенно - misinformation, генерацией фейков, и прочего провокационного. Кто виноват, если какой-то deepfake навредит вашей репутации, или с его помощью провернут что-то еще - большой вопрос. Однако, следите за руками...
(1) Положим, у нас есть Gen-AI сервис... который работает по ежемесячной подписке по кредитке (KYC на стороне банка), и у которого есть строгие terms of use. Как пример можно взять принципы работы Steam.
(2) Положим, какой-то пользователь решил сгенерировать что-то эдакое и выложить в public.
(3) Если маркировки нет, то найти этого пользователя будет проблематично - скорее все начнут возмущаться большими компаниями, требовать закрыть/запретить/зарегулировать.
(4) Но если мы умеем маркировать... у этих самых компаний есть полное право и все возможности найти того самого пользователя и призвать его к ответу за игнорирование terms of use. И главное - скинуть с себя весь негатив, ведь все теперь по закону и по правилам.

В общем, очень просто и элегантно решается вопрос ответственности. Как итог таких размышлений, что если обучаете - лучше задуматься о маркировке, чтобы прикрываться от кейсов неправомерного использования; если генерируете - лучше задуматься за какие кредиты платите и кем/как они используются, чтобы к вам не пришли.

Такие мысли, другие идеи/предложения - welcome, интересно обсудить.

Ars Technica

OpenAI confirms that AI writing detectors don’t work

No detectors "reliably distinguish between AI-generated and human-generated content."

Разбирая newsletters после NeurIPS review (оно наконец закончилось и для авторов, и для ревьюеров), наткнулся на новость о том, что …
1 year, 2 months ago

All Views Are My Own пост.

Как говорил мой любимый Jürgen Schmidhuber: science is about self-correction [1]. Что ж, это, вероятно, также касается и весьма спорных заявлений, которые могут продвигаться в СМИ про успехи в этой самое science. Хочу внести свой correction: любые утверждения на тему “Российские ученые обошли DeepMind” - не более чем недальновидная провокация/кликбейт. Я с уважением отношусь к коллегам и своим друзьям-знакомым из DeepMInd, и действительно поражаюсь теми достижениями, которые DeepMind показывает - AlphaGo, AlphaStar, и особенно AlphaFold, который находится на стыке компьютерных и естественных наук. Любые провокационные заявления - считаю некорректными.

В общем, очень надеюсь, что наука и дальше продолжит движение на благо всего человечества. Всех обнял.

[1] https://people.idsia.ch/~juergen/deep-learning-history.html

PS. Для тех, кто хочет узнавать корректные новости про достижения Tinkoff Research - призываю подписаться на Желтый AI (https://t.me/tinkoffai). Тут новости без кликбейта. А еще там иногда есть мемы :)

We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 2 days, 7 hours ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 2 months, 2 weeks ago

Реклама: @kingygmads / Платформа: ton.org.in
Чат: t.me/+QzoGJS7ktps1NOzh
Приватный канал: t.me/investkingyru/417
Помощь: @tonorgin_bot
EN: @investkingyru_en

Last updated 4 months, 3 weeks ago