Простір для вивчення нової професії, зростання в кар’єрі або розвитку бізнесу👇🏻
Наша команда пише для вас найкращі та найцікавіші матеріали, які обов’язково допоможуть у вашому навчанні: https://genius.space/lab/
Last updated 2 weeks, 1 day ago
OpenAI робить відкритим своє дослідження фічей state-of-the-art моделей
У невеликому анонсі розповідається про поточний прогрес компанії у пошуку концептів всередині GPT4 i GPT2-small: про автоенкодери, 16М фічей, скейлінг і як це має покращити безпеку / збільшити довіру до LLM вцілому.
Додаток для дослідників:
1. Стаття з деталями експериментів і повною методологією
2. Код: автоенкодери для розпізнавання фічей в GPT2-small з прикладами використання
3. Візуалізатор фічей
Опенсорс - це, звісно, круто, але щось мені підказує, що до розуміння LLM нам приблизно так само далеко, як і до розуміння механізму роботи власних мізків :)
#shared_link
#machine_learning
Openai
Extracting Concepts from GPT-4
Using new techniques for scaling sparse autoencoders, we automatically identified 16 million patterns in GPT-4's computations.
Схоже що ChatGPT хоститься в Україні
Я вирішив коротко законспектувати матеріал з мого останнього вебінару. Цей матеріал розділений на дві частини, це перша, а друга вийде незабаром. Efficiency in AI (Part 1) @eiaioi
Medium
Efficiency in AI (Part 2)
Practical tips for optimizing AI systems
В четвер тут виступатиму, поділюся практичними методами оптимізації штучних нейронних мереж, як можна запустити подібні до ChatGPT моделі на звичайному MacBook (gpt4all), або як у рази найлегше пришвидшити нейронку майже без втрати точності (float16 + torch2trt).…
Medium
Efficiency in AI (Part 1)
Practical tips for optimizing AI systems
Тримайте llm.c від Andrej Karpathy
https://github.com/karpathy/llm.c
1к рядків коду на чистому C/CUDA, щоб натренувати GPT-2 для 124M параметрів.
Корисне в якості освітнього ресурсу ;)
#shared_link
#machine_learning
GitHub
GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA
LLM training in simple, raw C/CUDA. Contribute to karpathy/llm.c development by creating an account on GitHub.
Авторам вдалося обрізати 25% шарів без істотної втрати якості. Алгоритм наступний: спочатку рахують Block Influence (BI) метрику (скрін 1) для блоків трансформера. Після цього сортують за збільшенням метрики і обрізають найменш значущі (скріни 2 і 3)
Stability AI викатили Stable Diffusion 3, поки що доступ через waitlist. Stable Diffusion 3 це ціле сімейство генеративних мультимодальних моделей, від 800M до 8B параметрів. Зазначається, що модель комбінує у собі методи diffusion transformer architecture та flow matching.
? Tech report: Stable+Diffusion+3+Paper.pdf
Claude 3 — це остання LLM розробка компанії Anthropic. Це сімейство LLM включає три моделі: Claude 3 Haiku, Claude 3 Sonnet та Claude 3 Opus, кожна з яких має різні рівні capability, швидкості та вартості, дозволяючи користувачам вибрати найкращий варіант для своїх потреб (доступ надається за API).
Sonnet вдвічі швидше за Claude 2, демонструючи більший intelligence. Моделі є мультимодальні (розуміння тексту та зображення). Кількість токенів, що обробляються за один запит: 200k.
Особливість Anthropic в тому, що безпечний ШІ для них найвищий пріорітет у розробці нових LLM. Розробляючи Claude 3, вони притримуються методологій Constitutional AI.
Крім того, вони узгодили своє власне ШІ-policy: Responsible Scaling Policy. Цей документ пропонує чотири рівня безпеки ШІ:
— ? ASL-1 відноситься до систем, які не становлять значущого катастрофічного ризику, наприклад, LLM 2018 року або ШІ-система, яка грає лише в шахи.
— ? ASL-2 відноситься до систем, які демонструють ранні ознаки небезпечних можливостей - наприклад, здатність давати інструкції про те, як створити біологічну зброю - але де інформація ще не є корисною через недостатню надійність або не надає інформацію, яку, наприклад, пошукова система не може надати. Поточні LLM, включаючи Claude, відносяться до ASL-2.
— ? ASL-3 відноситься до систем, які суттєво підвищують ризик катастрофічного зловживання порівняно з базовими системами без ШІ (наприклад, пошуковими системами або підручниками) АБО які демонструють низькорівневі автономні можливості.
— ? Рівень ASL-4 і вище (ASL-5+) ще не визначений, оскільки він занадто далекий від сучасних систем, але, ймовірно, буде пов'язаний з якісною ескалацією потенціалу катастрофічних зловживань і автономності.
Простір для вивчення нової професії, зростання в кар’єрі або розвитку бізнесу👇🏻
Наша команда пише для вас найкращі та найцікавіші матеріали, які обов’язково допоможуть у вашому навчанні: https://genius.space/lab/
Last updated 2 weeks, 1 day ago