New Yorko Times

Description
Юрий Кашницкий (Yorko, тут @yurycorn) – про машинное обучение, науку, галеры, матан, фэйлы и прочие интересности. Рекламы нет.
https://www.linkedin.com/in/kashnitskiy
Advertising
We recommend to visit

Рассказываю про крипту и инвестиции на понятном языке.

Сотрудничество — @TGowner999

Больше информации о нашей сети: https://t.me/TGownerTOP

Last updated 1 month ago

Утро начинается не с кофе.

Сотрудничество: @evoanna (по всем вопросам, только мне писать)

Канал в реестре: https://clck.ru/3FCQfU

Last updated 5 days, 22 hours ago

Самые любимые рецепты для Вас!

Контакт: @khaitbayev

Доверенные менеджеры тут:
https://t.me/+reWsclRikXIxOTcy

Ссылка для приглашения: https://t.me/+wsrt9bX3G1U3Zjg6

Last updated 1 week, 6 days ago

4 months, 3 weeks ago
5 months ago

Опа, литкод пригодился!
#projects

Раза два с половиной мне пригождалась математика в боевых проектах (пример с теорией графов), а тут вот первый случай с литкодом. Попался кейс, где таргет в классификации задать довольно сложно и для него эксперты предметной области сочинили дерево решений из довольно сложных вопросов (это не то дерево, что мы обучаем по тьюториалу склерна). В стиле «Достаточно ли тут контекста, чтоб ответить на вопрос? Да - следующий вопрос. Нет - прыгай к вопросу 4». «Нужны ли перс данные, чтоб ответить?» И т.д. Ну, записываю всю логику блуждания по дереву в промпт, и далее молюсь-матерюсь, чтоб LLM совершила чудо и послушалась. Заработало, кстати, сносно.

А вот для дебага нужно было подсветить, как именно LLM бродила по дереву. И вот тут возникла рутина в стиле литкода. Из LLM я вытащил цепочку ответов на вопросы в вершинах, но сам граф задан в edge-формате, пришлось реализовать DFS. Благо, без рекурсий, итеративный алгоритм пришел на ум. Перед этим, конечно и так, и сяк помучал гемини и джипити - не справились (либо я косорук). Вытащить из LLM нужный путь в дереве тоже не вышло – лагает. И это не то чтобы я уже от гуглеров заразился овер-инжинирингом, я по-честному не придумал, как бы сделать все проще, в два щелчка. Так что всё, можно сказать, 400 часов литкода не прошли зря.

Для самых стойких – в коменте сама задача в +/- литкод-формулировке.

5 months, 2 weeks ago

Еще немного фэйлов
#fail #fake_text_detection #kaggle

Собесов больше нет, а фэйлить хочется. Особенно рассказывать о них публично. Снижать publication bias тксказать. Так что вот еще.

Вторая попытка организовать соревнование по детекции LLM-генерированного контента тоже провалилась. Народ снова повыбивал 99+, причем в решениях я видел даже pre-BERT модели типа AWD LSTM. Будет семинар при ACL, на котором победители расскажут про решения, но уже понятно, что там особого научного прорыва не будет, скорее эксплойт наших косяков. На бумаге все норм, сделали сореву и воркшоп при топовой конфе, но по сути так себе.

Есть еще пара фэйлов, если чуть копнуть в историю. В стиле «мужик сказал - мужик сделал вид, что нихрена не говорил». Как-то мы с Андреем Лукьяненко участвовали в необычном соревновании на кэггле, где надо было эссе писать. Так вот мы ничего не выиграли, где-то на 50 место приземлились. Напрягло чутка, что среди победителей был обзор методов оптимизации, каких на Medium найдешь сотню.

А еще я как-то хотел больше ютуб-видео снимать, и этого, очевидно, не произошло ? так что больше обещать не буду, хотя есть идеи вернуться с новым контентом к своим 20к подписчикам. Ща только зарегаюсь в Роскомнадзоре.

6 months ago

Собесы с гуглом и подготовка
#career #interviews

В Гугл я зашел с реферала, наконец не заигнорили. По иронии, реферила меня героиня поста «она в Мистрале, а ты нет». То есть я ей помог уйти из гугла, а она мне помогла прийти в гугл.

Гугл постепенно сошелся к формату 4-х собеседований (это раньше могло быть и по 15-20). У меня были следующие раунды:

- leetcode + system design
- Role-related knowledge
- leadership & googleyness
- General Cognitive Ability
- “casual” беседа с менеджером

В первом раунде литкод показался простым, а дизайн – сложным. Дизайн я гроккал основательно, по плану описанному в посте (к слову о том, что с собесами успех - это на 50% усилия и на 50% удача, все же ни к одной компании я не готовился так долго). У бигтеха можно попросить пару недель на подготовку, обычно к этому нормально относятся. И моки оказались очень полезны (спасибо Алексу и Сергею), особенно учитывая, что до этого я ни разу не проходил дизайн-интервью.

Role-related knowledge - это про LLM и консалтинг, было немало вопросов о том, как описать LLM для клиентов, топ-менеджеров, инженеров. Технические вопросы показались не сложными (курса “Generative AI with LLMs” и своего опыта с LLM хватило), а вот для вопросов про бизнес-смекалку и консалтинг не помешала бы практика с бизнес-кейсами, как в big4 проверяют.

Leadership & googleyness – это, считай, бихейв. Несмотря на то, что я сам менторю, я прошел 4 мока, узнавал, что именно хотят услышать при собесах на стафф позиции в гугле. Это было дико полезно, огромное спасибо Тане, Семену и Анне. По итогу я довольно основательно перелопатил свой story bank. Благо, на собесе не было вопросов с подвохом типа “tell me how you used data to modify your strategy”, было более-менее понятно по вопросу, о каких лидерских качествах речь и какие свои истории рассказывать.

General Cognitive Ability – это open-ended вопросы в стиле “друг открыл магазин шоколада, посоветуй ему бизнес-план”. Тут есть четкий фреймворк, легко ботается. Мне очень помог вот этот ютуб канал (там же и про переговоры целый плэйлист). Дополнительно я брал консультацию с небольшим моком, где мне посоветовали говорить медленнее.

Ну и “casual” беседа с менеджером – никакая не casual, надо рассматривать как бихейв. О жизни можно потом трепаться, как наймут, на собесе смотрят на сигналы, готовился как к бихейву, заготовил самые крепкие истории.

В целом оцениваю вклад бихейва примерно в 80%. Ага, сам не ожидал, что с гуглом такое может быть. Но тут все же позиция в Sales трек, а не SWE, очень много с клиентами и топ-менеджерами надо будет общаться, поэтому и такой уклон.

пс. текст согласован с эйчаром, в подробности про конкретные вопросы, переговоры, решения комиссии лезть не буду.

6 months, 1 week ago

Собесы на Applied ML Scientist: крутые ресурсы
#ml #interview #career

По списку самых частых собесов отсюда.

1) Поведенческие

Про поведенческие собесы и я уже рассказывал в самом начале, и Таню репостил. Тут главное – расписать story bank (не пожалеть на это времени) и пройти моки.

- IGotAnOffer – блог со статьями от подбора вопросов на MLE в Мету до “Why Amazon?” и как рассказывать про свои фэйлы и конфликты
- Если посидеть, спокойно послушать, почему все это важно – видео Jackson Gabbard
- Гайд от interviewing.io – вольный пересказ Amazon Leadership Principles
- И главное – моки и реальные собесы. Причем моки могут быть полезнее – тебе расскажут прям про подноготную, на реальных собесах еще поди получи внятную обратку. Я приставал напрямую к людям из желаемой компании, но есть и платформы: та же interviewing.io (помните кулстори про brilliant jerk, который сейчас в OpenAI?), еще слышал хорошие отзывы про Exponent.

2) Кодинг

Казалось бы, что тут нового скажешь. Я тут тоже писал, как пстра освежить литкод. Neetcode roadmap и Leetcode Premium – это да. Но я повторюсь про моки. Live-coding это вообще непростое дело: надо думать, писать код, слушать и складно говорить. А все одновременно! Такое надо практиковать. Вот правда, люди не могут внятно озвучивать свой код - идет аа…эээ… ууу.. и прочие бабуинские хмыкания. Для моков по литкоду – тот же interviewing.io, но есть и вариант для простых ребят – pramp, там peer2peer.

3) ML в ширину

- млкурс. Не, серьезно, я как тот дед, читающий свои учебники, перед собесами пролистываю mlcourse.ai. Bias-variance, бустинг vs бэггинг, где там в градиентном бустинге градиенты – все это до сих пор вовсю спрашивают (тот же Amazon на Applied Scientist).
- По NLP есть курс-жемчужина – NLP For You Лены Войты. Плюс посты Jay Alammar про архитектуру трансформера.
- У Дьяконова я подсмотрел вот эти конспекты + еще подборка Daily Dose of Data Science хороша.
- Наконец, есть драфт книги Chip Huyen “Machine Learning Interviews”, там все от видов специализаций в ML до переговоров и списков вопросов по ML, кодингу и матану

4) ML в глубину

Тут особо нечего посоветовать, оно из рабочего опыта все идет. Разве что можно эрудицию развивать чтением блогов а-ля ML in the Wild. У Evidently есть подборка из целых 300 штук (этот же совет и для ML дизайна ниже). Я читаю 2-3 блога о компании, куда собеседуюсь, и еще 2-5 – наиболее близких к описанию вакансии.

5) ML-кодинг

Специально не готовился, так что все тот же совет – моки.

6) Рисеч-презентация

Тут тоже каких-то ресурсов нет под рукой. Совет – уточнить у эйчара или HM, что хотят услышать: хардкор по теории, инженерии или еще что. Чтоб не словить “too much leadership”, как я.

6) ML дизайн

Да, тут есть популярные книги, но реалистично, перед собесом - это не книга нужна. Из всех ресурсов я выделю вот эту репу. Там и шаблон из 9 пунктов, которому можно следовать (problem → metrics → data → etc). И типичные кейсы разбираются, уже форматированные по шаблону.

7) Домашнее задание

Про take home сколько уже срачей только не было. Я не вставал в позу и 3 домашки сделал. Одна просто классная была на instruction fine-tuning LLM, еще одна очень легкая, 3-я – наоборот, сложная, запорол. Могу оставить ссылку на наш командный пет с приложением по анализу тональности новостей о крипте. Как минимум, если в домашке надо будет задеплоить модельку, можно подсмотреть.

8) System design

Наконец, system design, не путать с ML-дизайном, собесы совершенно разные. System design я грокал с нуля, за пару недель, часов 30 наверное заложил. Я заботал все перечисленные ресурсы, от и до:

- гайд все тех же interviewing.io
- Primer (классика)
- книга “System Design Interview” – страниц на 200, куча картинок и схем, быстро читается
- курс Neetcode (платно, некоторые видео на ютубе есть)

И 2 мок-собеса прошел со знакомыми, на одном меня дружелюбно и конструктивно растоптали, второй я уже прошел.

Это все то, что именно мне помогло. Можно в коментах делиться своими ресурсами. Плюс я пару ссылок добавлю, когда компанию объявлю.

6 months, 1 week ago
7 months, 1 week ago

Вот уж не думал, что буду репостить Дудя. Но эта история - про зачистку математики Гитлером. И кликнуло имя Тейхмюллера: кто следил за триллером вокруг abc-гипотезы с пресловутыми «театрами Ходжа» (пересказывал тут) – вот там это имя, «Inter-Universal Teichmüller Theory I: Construction of Hodge Theaters».

7 months, 1 week ago

#career #random

5-минутная аналитика моих повышений и денег за 2021-2023.

По титулам: senior –> principal –> senior manager.

По чистым евро, net: X –> 1.075 X –> 1.1 X.

Европка…

7 months, 1 week ago

Советы вкатывающимся в Data Science c невыдающимся резюме
#career

Мир становится жесток, да, долго и сложно. Но можно. Собрал несколько рекомендаций (не исчерпывающий список, по убыванию приоритета):

- Рефералы, рефералы и еще раз рефералы a.k.a. кумовство. Вот правда, благодаря знакомым в принципе можно попасть на такие позиции, на которые в норме бы ваше резюме вообще не рассмотрели. Ничего страшного, если пройдете. Да, будет синдром самозванца, но потом можно и нагнать. О том, как правильно нетворкаться, – неплохо написано в посте “А как собеседоваться в 2023?” (правда, там описана версия для экстравертов 80-го левела, вариант с чуть меньшей соцактивностью тоже подойдет);

- Первое на что смотрят в резюме – реальный опыт работы. И его не заменишь курсам/сертификатами/профилями на литкоде или кэггле. Так что тут лучшее, что можно посоветовать – искать сторонние проекты, чтоб этот опыт получить. Например, HuggingFace инициирует проекты, где любой желающий может подключиться (а-ля обучения берта для тамильского язык, мой коллега там участвовал). Тот же open source. Еще можно найти команду для прикладного проекта в рамках курса (например, такая активность была в курсе ods.ai по MLOps). Это не быстрый путь, знаю, но это чуть ли не единственное, что может выделить одного кандидата на фоне других при прочих равных условиях;

- Если у вас нет Data Science опыта, но есть релевантный опыт в разработке или аналитике, может быть реально поучаствовать в Data Science проектах в компании, где вы уже работаете. Если наберется track record из 2-3 таких проектов, то уже проще будет и формально перейти на DS-позицию. Иногда для этого надо чем-то пожертвовать, например, немного проиграть в деньгах или в должности;

- Как ни банально звучит, первым делом смотрят на резюме, так что его надо слегка прожарить. Сервис ResumeWorded прям хорош (пост).

Что скорее не поможет:

- Набивать титулы типа Kaggle Competitions Master. Тут можно потратить уйму времени и в результате отклик может не обрадовать. Эйчары не сильно различают грандмастеров в Notebooks и соревнованиях, так что ваша лычка может быть не так уж и заметна. Есть, конечно, исключения, например, команды с большим представительством Kaggle Competitions Grandmasters (H2O, Nvidia Rapids), но среднему человеку я не порекомендую такой путь развития (мне он тоже не подходит). При всем сказанном, получить немного опыта на Кэггле – однозначно здорово.

- Получать охапки сертификатов. К ним отношение противоречивое, но если у вас нет релевантного опыта работы, скорее всего сертификаты не спасут ситуацию.

7 months, 2 weeks ago

#career #карьера #faang #interview

Behavioural interviews in FAANG+.

Недавно делала пару мок интервью (*тренировочные интервью, mock)
по behave на уровень стаффа. У всех все прошло успешно.
Давайте пройдёмся по behave и важным пунктам подготовки.

1. Подготовка.
Первое и самое важное, которое очень многие упускают при подготовке в фаанги, т.к. наивно думают, что главное затащить литкод и дизайны, а уж behave это просто "поговорить за опыт".

Behave interview -- это не какое-то маловажное интервью, к которому можно почти не готовиться. Это самое важное интервью, и готовиться к нему надо не хуже дизайна.

Именно это интервью в основном определяет уровень, который вам предложат. Литкод этот уровень определить не может. А затащив хорошо behave and leadership можно попасть на Engineering manager, Staff+ и выше (при том же уровне дизайна и литкода).
Многие этот момент упускают и делают основной упор на литкод. Заваленный литкод вам простят при остальных отличных (со мной такое было в Мета и я видела 2 таких случая в гугл!) Но заваленное behave - это мимо.

2. Репетиции.
Крайне полезно cделать тренировочные интервью с людьми более высокого уровня в больших компаниях (если такие люди есть среди знакомых и готовы помочь - отлично. Если нет - существуют варианты за деньги).
Стоимость около 200-300 долларов за интервью. По отзывам польза он них есть.

3. Leadership principles
В Амазоне есть знаменитые leadership principles. Так вот они работают не только в Амазоне, рекомендую ознакомиться и впитать. Они хорошо подойдут как база и в другие компании для подготовки.

4. Записываем истории.
Свои истории про опыт и лидерство стоит записать. Штук 10-20, чтобы на разные ситуации и разные leadership principles.  Записать их словами. Потом прочитать и сократить. Потом опять прочитать и улучшить. Можно даже посоветоваться с карьерным консультантом. Потом выучить и отрепетировать на mock интервью (или хотя бы перед зеркалом).
Распространённая ошибка, которую я видела, это слишком долго все рассказывать, ввиду недостаточно лаконичного рассказа. Краткость важна, чтобы интервьюер успел получить все сигналы.

5. Внимание на процессы
После Eng manager/Staff+ уровня вы делаете проекты не своими руками, а руками других людей. Поэтому в историях важно уделать внимание выстраиванию процессов. Вы не сами пофиксили какой-то баг (это уровень синьора), вы наладили процесс, чтобы такого больше не могло повториться.

6. Leadership style
Вы должны знать ваш стиль лидерства и управления людьми. Мой любимый -- это leading by example, я говорю на интервью, что только он работает и с детьми дома и на работе. Всем нравится.

7. Failures
Многие реально валят истории про свои фэйлы. Худшее, что можно тут сделать, это начать обвинять бывших коллег или бывшего начальника, или того пуще звезды, пандемии и галактики... и это делают регулярно.
Фэйлы - это вообще не про то, кто виноват. Это про вашу способность к рефлексии.
Признайте фэйл, расскажите про свои ошибки, расскажите, что вынесли из этого, чему научились и как исправили ситуацию, чтобы больше не повторялось. Опять-таки, возможно вы наладили какой-то процесс.

8. Клише
Есть немало устоявшихся клише по части вопросов и ответов. Например, часто задают вопрос про недостаток, и часто отвечают про перфекционизм или трудоголизм.
Я понимаю, клише-вопросы прямо бесят иногда. Все же старайтесь быть креативными. Всем надоели ответы-клише.

9. STAR
Свои истории удобно выстраивать по формату STAR: situation (контекст), task, action, result.
Я часто видела, как люди уделяют слишком много времени описанию контекста и собственно проблемы, и потом мало времени именно actions и результатам.
Контекст нужен, но ваши действия важны, а результаты тем более. Поэтому вернёмся в пункт 4: пишем истории и потом сокращаем.

Продолжение следует.

We recommend to visit

Рассказываю про крипту и инвестиции на понятном языке.

Сотрудничество — @TGowner999

Больше информации о нашей сети: https://t.me/TGownerTOP

Last updated 1 month ago

Утро начинается не с кофе.

Сотрудничество: @evoanna (по всем вопросам, только мне писать)

Канал в реестре: https://clck.ru/3FCQfU

Last updated 5 days, 22 hours ago

Самые любимые рецепты для Вас!

Контакт: @khaitbayev

Доверенные менеджеры тут:
https://t.me/+reWsclRikXIxOTcy

Ссылка для приглашения: https://t.me/+wsrt9bX3G1U3Zjg6

Last updated 1 week, 6 days ago