Библиотека собеса по Data Science | вопросы с собеседований / Beauty / Telegram Index

Open in telegram

☆☆☆☆☆

⚑ Report channel

4 158 @ds_interview_lib

Description

Вопросы с собеседований по Data Science и ответы на них.

Список наших каналов: https://t.me/proglibrary/9197
Учиться у нас: https://proglib.io/w/7dfb7235

Обратная связь: @proglibrary_feedback_bot

По рекламе: @proglib_adv
Прайс: @proglib_advertising

Advertising

We recommend to visit

HAYZON

5,791,257 @hayzonn

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 1 month, 1 week ago

Architec.ton #inTonWeTrust

4,439,684 @architecton_tech

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 1 month ago

WeWantYou

4,373,433 @wewantyoutodothejob

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 3 weeks ago

4 дня, 19 часов назад

*🎁*🎄Как ваше настроение? Рассказывайте, что вам подарили на Новый год?**

199 #

5 дней, 19 часов назад

Как быть с категориальными предикторами при построении линейной регрессии?

Их, конечно, нужно привести к числовому виду. Как именно это сделать, нужно решать, исходя из вида категориальной переменной.

▫️ Номинальная.
У таких переменных нет естественного порядка, и они обычно представляют собой различные категории, такие как цвета, пол и т.д. Для кодирования номинальных переменных чаще всего используется метод one-hot кодирования. При этом каждая категория представляется отдельной бинарной переменной (столбцом), где 1 означает наличие этого признака, а 0 — его отсутствие.

▫️ Порядковая.
Такие переменные имеют естественный порядок, например, оценки уровня образования или уровни удовлетворённости. Для таких переменных можно использовать порядковое кодирование, где каждая категория получает числовое значение, отражающее её ранг. Например, «низкий», «средний» и «высокий» уровень удовлетворенности можно закодировать как 1, 2 и 3 соответственно.

#машинное_обучение

399 #

6 дней, 19 часов назад

В каких случаях лучше не использовать momentum в оптимизации?

Добавление momentum к градиентному спуску позволяет повысить его устойчивость и избегать маленьких локальных минимумов/максимумов. Однако есть случаи, когда его использование может быть нецелесообразным.

В частности, когда модель склонна к переобучению, использование momentum может ускорить этот процесс. Кроме того, на участках, где функция ошибки имеет плато (то есть изменения градиента минимальны или отсутствуют), momentum может затруднить выход из этих областей.

В каждом из этих случаев стоит рассмотреть альтернативные методы оптимизации или тщательнее настраивать гиперпараметры модели для достижения оптимального результата.

483 #

1 неделя назад

🧠 Прокрастинация: почему разработчики к ней склонны и что с этим делать

Даже самые целеустремлённые и дисциплинированные разработчики порой сталкиваются с периодами прокрастинации. Это состояние чаще вызвано глубокими причинами, чем просто нежеланием работать. Делимся личной историей разработчика, сумевшего преодолеть прокрастинацию.

🔗 Читать по ссылке

157 #

1 неделя, 1 день назад

409 #

1 неделя, 2 дня назад

Как сделать модель более устойчивой к выбросам?

Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.

Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).

Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.

#машинное_обучение
#статистика

670 #

1 неделя, 5 дней назад

Как работает умножение списка?

Посмотрим на результат умножения списка [1,2,3] на 2:
[1,2,3] * 2
#=> [1, 2, 3, 1, 2, 3]

Содержание списка [1,2,3] повторяется дважды

359 #

2 недели, 1 день назад

Когда не стоит использовать обобщённые линейные модели (GLM), такие как линейная и логистическая регрессии?

1️⃣ Если между переменными наблюдается значительная нелинейность. В таких случаях лучше рассмотреть альтернативные модели, способные учесть эти особенности.
2️⃣ Обобщённые линейные модели предполагают выполнение определённых условий: нормальность остатков, гомоскедастичность и отсутствие мультиколлинеарности. Если эти условия не соблюдаются, результаты могут оказаться ненадёжными.
3️⃣ GLM могут быть подвержены влиянию выбросов или экстремальных значений.

558 #

2 недели, 2 дня назад

Что такое иерархическая кластеризация и в каких случаях она применяется?

В отличие от обычной кластеризации, где все кластеры равноправны и располагаются на одном уровне, иерархическая кластеризация формирует вложенные кластеры, создавая древовидную структуру.

Алгоритм можно описать следующим образом:
▫️Сначала создаём столько кластеров, сколько объектов в выборке, каждый объект находится в своём собственном кластере.
▫️Затем итеративно объединяем два ближайших кластера, пока не будет достигнут критерий остановки.

В качестве критерия остановки можно использовать либо необходимое количество кластеров, либо условия, основанные на метриках расстояния между кластерами.
Полученная иерархическая структура анализируется с помощью дендрограммы. Иерархическую кластеризацию целесообразно применять в следующих случаях:

▪️если количество кластеров неизвестно,
▪️если требуется визуализировать структуру данных,
▪️если данные имеют естественную иерархическую организацию.

648 #

2 недели, 6 дней назад

Расскажите о некоторых мерах сходства, используемых в машинном обучении.

🔹Косинусное сходство
Определяется через рассмотрение двух векторов в n-мерном пространстве и вычисление косинуса угла между ними. Диапазон значений этой меры — от [-1, 1], где значение 1 означает, что два вектора максимально схожи, а -1 — что они различны.

🔹Евклидово или Манхэттенское расстояние
Эти значения представляют собой расстояния между двумя точками в n-мерном пространстве. Основное различие между ними заключается в способе их вычисления:
▪️Евклидово расстояние вычисляется как прямая линия между двумя точками.
▪️Манхэттенское расстояние — сумма абсолютных разниц координат, представляя путь «по сетке».

🔹 Сходство Жаккара
Также известно как IoU (Intersection over Union). Широко применяется в области детекции объектов для оценки перекрытия между предсказанным ограничивающим прямоугольником и истинным (ground truth). Вычисляется как отношение пересечения множества (Intersection) к объединению множества (Union).