Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 1 month, 4 weeks ago
Мемопад доставляет
Тест gpt-o1 на моей магистрской работе
Я представил, что мне вернули мой 2013 ? и я пишу магистрскую работу на мехмате. Поможет ли o1 сделать это эффективнее? А может вообще напишет всё за меня?
Задача у меня, если сильно упростить, была такая:
пузырек воздуха в жидкости находится под воздействием кучи разных сил, влияние которых, в целом, изучено и можно высчитать траекторию его движения при заданных начальных условиях. Но вот есть одна сила, влияние которой строго не показано, и иногда она может сильно влиять на процессы. Она называется сила Бассэ. Естественно, все силы выражены в уравнении, и там куча разных интегралов и формул. Чтобы рассчитать всё это дело используют численные методы - аппроксимации всех этих формул и интегралов. То есть мы решаем не аналитически - численно. А значит можем запрограммировать все расчёты.
В таких численных схемах выходит, что текущее состояние системы зависит от предыдущего. То есть расчеты ведутся для каждого временного шага последовательно. Сила Бассэ выражена в виде интеграла по времени. Интегралы в численных схемах это суммы с маленьким шагом (в данном случае это шаг по времени). И это усложняет расчет, так как каждый временной шаг этот интеграл нужно рассчитывать заново. Нельзя сказать, что текущее значение - это предыдущее + небольшой новый расчет. Всегда нужно считать заново по всем временным шагам. Понятно, что чем дальше по времени, тем больше расчетов.
По каким-то непонятным мне причинам gpt-o1 не принимает на вход файлы. Пришлось немного извратиться. В общем я подгрузил свою дипломную работу в gpt-4, попросил сформулировать задачу и проверил на корректность. Потом засунул это дело в нашу новую gpt-o1 и попросил решить. По сути задача сводится к анализу влияния силы Бассэ при всяких разных условиях.
Модель задачу поняла хорошо, делала классные выводы и рассуждения, а потом - бац - и ошиблась в простой математике. Она решила, что вот этот самый интеграл силы Бассэ можно выразить, как его значение на предыдущем шаге + небольшой новый расчет. Но это не так. Причем это сразу видно из формул, которые модель сама же пишет в рассуждениях. Там даже не надо ничего раскрывать, сразу смотришь и понятно, что ошибка. Если указать на это, то она исправляется и начинает размышлять уже по-другому. В целом я заметил, что одну настолько большую задачу давать, похоже, черезчур. Если разбивать на более мелкие и чатиться в поисках истины - вроде неплохой сервис выходит. Мне кажется, при слишком громоздкой задаче модель делает более крупные шаги размышлений, которые могут приводить к ошибкам, как с моим интегралом. Тем не менее, я впечатлен тем, что увидел - мне бы такая модель пригодилась 10 лет назад. ?
Вот еше несколько заметок:
- размышляла o1 по 10-75 секунд, и в процессе было видно, какой конкретно шаг размышления идет сейчас. Оказывается ждать так долго ответа от чатбота в наше время - просто пытка. Для простого чата и повседневных задач ее использовать недобно, да и не нужно - она не для того.
- prompt engineering как будто уже вшит внутрь и накрутка всякого может сделать только хуже
- очень хочется подавать на вход файлы, но нельзя
- модель выдает сразу полотно текста и нужно быть готовым все это переварить
Вангую будет много новых тулов для исследователей разных мастей на основе этой модели. И еще интересно, когда будет open-source аналог.
Всё это очень интересно и не перестает давать мне вайбы нереальности происходящего ?
Adam-mini: Use Fewer Learning Rates To Gain More
LLM - жирные (не фэтшейминг!). Хочется учить их быстрее и эффективнее. С одной стороны можно скейлить и улучшать железо, данные, сами модели. С другой - можно потюнить сам training design. Например, можно поковырять оптимизаторы. В статье «Adam-mini: Use Fewer Learning Rates To Gain More» предлагают оптимизатор, который обеспечивает на 49,6% более высокую пропускную способность по сравнению с AdamW при предобучении Llama2-7B на 2x A800-80GB GPU, что экономит 33% wall-lock time на предобучение.
Немного деталей:
? Adam-mini снижает использование памяти за счет назначения меньшего количества learning rates. Вместо индивидуальных lr для каждого параметра он использует среднее значение v по заранее определенным блокам параметров.
- v – это вектор второго порядка моментов в Adam/AdamW. Он хранит экспоненциально сглаженное среднее значение квадратов градиентов для каждого параметра.
- В стандартном AdamW v обновляется для каждого параметра i следующим образом: v_i = (1 - β2) * (gradient_i^2) + β2 * v_i. Он использует 1/√v_i для масштабирования learning rate для каждого параметра индивидуально.
- Adam-mini изменяет это, вычисляя среднее значение v для каждого блока параметров.
? Экономия памяти: сокращает ≥90% v в Adam, уменьшая общую память, используемую оптимизатором, на 45-50%. Для Llama2-7B это означает снижение использования памяти на 48,04% (с 53,92 ГБ до 28,04 ГБ). Почему они не использовали llama-3 - непонятно. Возможно работу делали давно и не хотели заново гонять бенчмарки.
arXiv.org
Adam-mini: Use Fewer Learning Rates To Gain More
We propose Adam-mini, an optimizer that achieves on-par or better performance than AdamW with 45% to 50% less memory footprint. Adam-mini reduces memory by cutting down the learning rate resources...
Meta FAIR анонсировали новые открытые AI моделиВ этот раз по-мелочи.
Сегодня Meta FAIR представила четыре новых модели и дополнительные исследовательские материалы. Вот основные новинки:
1. Meta Chameleon: языковые модели с 7B и 34B параметрами, поддерживающие смешанный ввод и текстовый вывод.
2. Meta Multi-Token Prediction: предобученные языковые модели для автодополнения кода с использованием многотокенного предсказания.
3. Meta JASCO: генерирующие текстово-музыкальные модели с возможностью точного управления. Научная статья доступна сегодня, предобученная модель - скоро.
4. Meta AudioSeal: модель аудиоводяных знаков для обнаружения синтетической речи, доступная по коммерческой лицензии.
5. Дополнительные артефакты RAI: исследования, данные и код для улучшения представления географических и культурных предпочтений в системах ИИ.
Подробности и доступ ко всем выпущенным ресурсам от FAIR ➡️ go.fb.me/tzzvfg
Meta AI
Sharing new research, models, and datasets from Meta FAIR
Meta FAIR is releasing several new research artifacts. Our hope is that the research community can use them to innovate, explore, and discover new ways to apply AI at scale.
Ребята из exolabs уже запилили open-source альтернативу Apple Intelligence.
Мелкие задачи гоняются on-device. Большие - на кластере из Apple устройств. ? То есть данные не уходят в облако вообще.
Построено всё на MLX. Скоро обещают показать код.
P.S. С удивлением узнал, что у них есть группа в телеге. Линк
Siri теперь может общаться с ChatGPT. Она сама понимает, когда это нужно.
Можно писать тексты в заметки и сразу нативно просить чатгпт о помощи с чем-то. И это - бесплатно. Платные пользователи чатагпт смогут пользоваться всеми платными фишками. По сути это связь слабых on-device моделей и сильных моделей в облаке.
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 1 month, 4 weeks ago