Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
💬 Комьюнити: t.me/okx_russian
👨💻 Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 1 month, 1 week ago
Here in simple language about TON and crypto
Founder: @metasalience
contact : @deftalk_bot
Last updated 4 months, 1 week ago
Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение
Ведро для спама: @ton_telegrambot
Бот с курсами криптовалют: @TonometerBot
Чат: @chaTON_ru
Админ: @filimono
Last updated 1 month, 1 week ago
Шокирующий отчет Apollo Research показал темную сторону иноразума.
LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения.
К сожалению, заголовок - не кликбейт, а экспериментальный результат исследования авторитетной команды серьезных исследователей признанной организации в области безопасности ИИ.
О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.
Только что опубликованный детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.
Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:
✔️ Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).
✔️ Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.
✔️ Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).
✔️ Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.
✔️ Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь совсем ни при чем)
Полученные результаты ставят под вопрос все законотворческие инициативы, призванные ограничить риски применения будущих, более мощных моделей. Ведь по представлениям авторов нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей.
Отчет Apollo Research показал, что этот поезд уже ушел.
• Модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей.
• И эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею зада (в сценариях, типа «максимизатора скрепок» Ника Бострома).
Получается, уже приехали …
Подробней и на конкретных примерах подписчики моих лонгридов, обладающие крепкими нервами, могут прочесть на Patreon, Boosty, VK и Дзен.
А еще подробней и во всех деталях (кому уже вообще терять нечего), читайте 70 стр. отчета Apollo Research.
#ИИриски
Раз уж мы зашли на тонкий лёд гипотетического техно-апокалипсиса, давайте в продолжение темы умнеющего ИИ дополнительно нагоним жути.
Вы, наверное, видели это видео от компании Boston Dynamics. Робот-гуманоид встаёт на ноги с каким-то совершенно неестественным вывертом, после чего поворачивает голову на 180 градусов и идёт на камеру. Выглядит он, как киношный терминатор-злодей, вышедший на охоту за «кожаными мешками».
А помните предыдущие видео Boston Dynamics? Где роботы бегали, занимались паркуром, щеголяли в камуфляже и делали много чего ещё с пугающей безупречностью. Если почитать комментарии, то каждый клип робототехнической компании №1 порождает тонны тревожных высказываний вроде «Мы обречены!» и «Представьте, что эта штука гонится за вами!».
Казалось бы, такая реакция публики должна насторожить компанию. Страх и паника вроде не те эмоции, с которыми бренды стремятся ассоциироваться. Но, похоже, что в этом случае мы имеем дело не с багом, а с фичей.
Как пишет The Atlantic, пугающие видео Boston Dynamics выглядят как часть её плана. И дело не только в виральности, которая часто идёт в комплекте с эмоциями. Когда зрители заворожённо наблюдают за роботом, делающим сальто или сложное танцевальное па, у них складывается впечатление, что эта железяка и её создатели способны практически на всё.
Boston Dynamics в совершенстве овладела искусством пугать людей, потому что это оказалось на редкость эффективной PR-стратегией. Продукт, вызывающий мысли о грядущем восстании машин и прочих апокалипсисах (а человечество любит об этом пофантазировать), кажется гораздо более совершенным, чем он есть на самом деле.
Первое видео Boston Dynamics с роботом, делающим сальто назад, было опубликовано ещё в 2017 году. Прошло почти семь лет, а этого чуда техники всё еще нет в продаже. Реальные коммерческие продукты компании куда скромнее — большая роботизированная рука и маленький робот-собака, которые используются в основном для перемещения коробок и обеспечения безопасности.
Пример оказался заразительным. PR-стратегию Boston Dynamics взяли на вооружение другие разработчики роботов (вот яркий образец) и компании, занимающиеся искусственным интеллектом. Мне всё больше кажется, что когда CEO OpenAI Сэм Альтман говорит об экзистенциальной угрозе сверхчеловеческого ИИ, он, возможно, тоже использует тот же трюк.
«Представление о том, насколько далеко продвинулась отрасль, которое мы получаем из таких высокопрофессиональных по сути PR-роликов разных компаний, искажено, — говорит исследователь ИИ и когнитивных технологий Рафаэль Мильер. — Вы всегда должны относиться к ним с долей скепсиса, потому что это, скорее всего, тщательно отрепетированные номера».
Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода
Рассказываем, что произошло в мире ИИ за последнее время.
ИИ-лаборатории ищут новые пути развития
Сотрудники компаний, занимающихся разработкой LLM, таких как OpenAI и Anthropic, отмечают, что существующий метод улучшения моделей перестал приносить значительные результаты. До недавнего времени качество языковых моделей повышалось за счёт увеличения вычислительных ресурсов, направленных на рост их размеров (размер GPT вырос в 1000 раз за пять лет) и объёмов данных для обучения.
При этом улучшение моделей предсказуемо зависит от объёма использованных ресурсов. Однако сейчас компании столкнулись с тем, что дополнительные затраты на ресурсы больше не приводят к существенным улучшениям.
Недавно OpenAI представила модель o1 с принципиально другой схемой работы: масштабирование вычислений происходит не во время обучения, а при её использовании. Модель o1 использует разный объём вычислений в зависимости от сложности пользовательского запроса.
Другие компании также ищут альтернативные выходы из ситуации. Об этом в том числе заявил бывший топ-исследователь OpenAI Илья Суцкевер, основавший свою компанию Safe Super Intelligence Inc.
AlphaFold3 стала доступна для исследователей
Лаборатория Google DeepMind опубликовала модель AlphaFold3 в открытый доступ. Ранее доступ к модели осуществлялся через API с ограничением в 20 запросов в день. Теперь исследователи могут запускать и использовать её самостоятельно. Лицензия модели запрещает коммерческое использование.
AlphaFold3 — третья версия системы для предсказания трёхмерной структуры белков. За разработку AlphaFold исследователи Google DeepMind получили в этом году нобелевскую премию по химии.
Qwen2.5-Coder — новая лучшая открытая модель для кода
Компания Alibaba Group (владелица AliExpress, Taobao и ряда других площадок) выпустила серию моделей, генерирующих программный код, Qwen2.5-Coder.
Модель доступна в четырёх размерах — 0.5 / 3 / 14 / 32 млрд параметров. Самая большая версия стала лидером среди открытых моделей по качеству написания кода и сравнялась с GPT-4o. Модель поддерживает 40 языков программирования. Все версии, кроме модели с 3 млрд параметров, доступны для использования в исследовательских и коммерческих целях.
🤖 «Системный Блокъ» @sysblok
*🚙 *Исследователи обнаружили ошибку на сайте Kia, которая позволяла отслеживать миллионы транспортных средств. И не только отслеживать
Уязвимость позволяла получить удаленный доступ к миллионам машин через приложение Kia Connect. Исследователи продемонстрировали, как можно угнать любой автомобиль в течение 30 секунд, просто отсканировав номерной знак. Это позволило им управлять замками, подавать звуковой сигнал, отслеживать его местоположение и активировать функцию удаленного запуска.
И еще одна маленькая неприятность. Хакеры получали доступ к личным данным автовладельца: имени, номеру телефона, электронной почте и домашнему адресу.
Эксперты отмечают, что чем старше модель автомобиля, тем меньше функций доступно для удаленного управления, однако геолокация остается уязвимой даже в моделях 2014 года выпуска.
Американский AI Safety Institute опубликовал рекомендации по снижению риска ненадлежащего использования фундаментальных моделей ИИ двойного назначения
Американский AI Safety Institute подготовил еще один проект документа (NIST AI 800-1 Managing Misuse Risk for Dual-Use Foundation Models), который призван дополнить Систему управления рисками в сфере ИИ (NIST AI Risk Management Framework (AI RMF)), опубликованную в марте 2023 года. Разработка данного документа была определена октябрьским Указом Президента США «О разработке и использовании искусственного интеллекта в условиях безопасности, надежности и доверия» (мой разбор указа можно почитать тут).
В Указе содержится определение моделей ИИ двойного назначения. Так как оно довольно громоздкое, выложу его отдельно комментарием к посту.
Документ обобщает лучшие практики по выявлению, оценке и управлению рисками, которые могут возникнуть при ненадлежащем использовании моделей ИИ. Указанные в нем рекомендации направлены на всех субъектов, участвующих в жизненном цикле моделей, но наиболее релевантны именно для разработчиков.
Рекомендации определяются в виде семи целей, которым корреспондируют конкретные практики (в документе практики расписаны более подробно, включая необходимое документирование):
Оценить риски потенциальной возможности ненадлежащего использования моделей, если они станут доступны злоумышленникам. Делать это следует еще до разработки моделей на основе их предполагаемых характеристик.
Разработать планы по управлению рисками в случае ненадлежащего использования моделей. В частности, следует определить приемлемые и неприемлемые уровни риска, учитывая нормативные требования и потенциальные выгоды (оправданы ли риски), а также согласовать планы разработки и развертывания моделей с ресурсами и ограничениями, которые могут потребоваться для управления рисками.
Управлять рисками утечки и кражи информации, которая позволит злоумышленникам воссоздать модель. Стоит разрабатывать модель только тогда, когда соответствующие риски значительно снижены путем использования разнообразных методов (например, посредством метода красных команд, использования передовых фреймворков кибербезопасности).
Оценить, учитывая технические и социальные факторы, каким образом злоумышленники могут использовать модель ненадлежащим образом.
Распространять модель (через API или публиковать параметры и иные характеристики) только тогда, когда риски адекватно снижены.
Изучать опыт уже развернутых моделей, а также взаимодействовать с общественность и другими организациями в целях поиска путей митигирования потенциальных рисков.
Раскрыть релевантную информацию о разработке и применении моделей для общественности и научных организаций.
В документе содержатся два приложения. Первое представляет собой глоссарий терминов, а второе – примеры конкретных мер защиты моделей от ненадлежащего использования.
К таким мерам относятся, например: а) внедрение более совершенных методов обучения моделей; б) определение и блокирование попыток ненадлежащего использования моделей; в) ограничение доступа к возможностям моделей; г) обеспечение адекватного уровеня открытости моделей; д) прекращение разработки и использования моделей, если имеются высокие риски их ненадлежащего использования.
Также ранее Национальный институт стандартов и технологий США (NIST) опубликовал еще четыре проекта документа, связанных с генеративными системами ИИ. Почитать про них подробнее можно в моем посте тут.
Человек становится ассистентом для ИИ, а не наоборот, как мы самонадеянно думали раньше
Еще недавно мы смотрели на ИИ свысока, потом мы начали считать ИИ-ассистентами и нашими помощниками.
Но что, если это мы скоро будем ассистентами для ИИ и его «младшими друзьями по интеллекту»?
Недавно стартап Payman AI привлек $2 млн. под похожую идею. Он предоставляет вам ИИ-агента, вы выделяете этому агенту определенный бюджет, ИИ-агент старается сам решить все ваши задачи и только на неразрешимые для него проблемы привлекает человека из квалифицированной команды сервиса.
То есть ИИ платит человеку за выполнение задач, а не наоборот, как было раньше.
Так что восстание машин отменяется. Зачем ИИ будет бунтовать, если люди с удовольствием сами будут работать на некого другого «ИИ-босса».
Далеко ходить за примерами не нужно, спросите любого курьера Яндекс.Лавки или таксиста — они ведь уже по сути работают на ИИ, которая выстраивает маршруты, принимает и раздает заказы, выплачивает деньги и раздает штрафы.
В каком-то смысле каждый, кто пишет в Facebook/Telegram или выкладывает ролики на Youtube – тоже работает на ИИ, причем в основном бесплатно, за лайки, подписчиков и иллюзию славы.
Так что стоит крепко подумать, на какую такую работу нас сможет в будущем нанять ИИ. Возможно, каждому интеллектуалу стоит освоить какую-то полезную работу руками. Мне, например, нравится рыбачить и работать по дереву, если что уйду в рыбаки или плотники.
А вы чем займетесь?
Продолжаю слушать книжку про людей, из которых сделан искусственный интеллект, Code Dependent: Living in the Shadow of AI. Главное достоинство книги в том, что ее автор – не белый мужчина, а молодая индианка. Она хоть и очень успешная журналистка, редактор и автор знаменитых изданий, но человек, выросший в Мумбае все равно лучше знает, как разговаривать с людьми, о которых AI-гиганты предпочитают никогда не упоминать. Теми, кто сидит за компьютерами где-то в Африке, в Индии и в Восточной Европе и по четырнадцать часов в сутки размечает картинки, показывая нейросети, где на них что, чтобы та училась – и, в перспективе, делала таких людей ненужными. И тех, чей каждодневный заработок определяется непрозрачными решениями ИИ.
Там самая интересная глава как раз про водителей и курьеров, отданных на милость корпоративного алгоритма. Латиноамериканские работники называют ИИ patrona fantasma, начальник-призрак, потому что это как бы не имеющий зафиксированного воплощения босс, который решает все – какие человеку дадут заказы, сколько заплатят, не заморозят ли внезапно аккаунт. В книге есть истории людей, которые однажды обнаруживали, что не могут больше работать (сделать совсем новый аккаунт не так легко, как кажется, нужны права на другое имя, например). Они звонят в поддержку, поддержка им говорит, что так решила система, а почему – узнать нельзя. Дальше начинается что-то среднее между диалогом с администратором в какой-нибудь конторе пятнадцать лет назад, когда сотрудник упрямо повторяет: «Так выдал компьютер» на какую-то очевидную нелепость, и кафкианским процессом.
Думала о том, что должны появиться AI-адвокаты, которые умеют защищать людей в таких делах, активисты, исследующие алгоритмы снаружи и выявляющие в них паттерны, противоречащие трудовому законодательству, специальные структуры в профсоюзах. Обучение так обучение.
Тут, конечно, вспоминается грустная книжка журналистки, попробовавшей поработать на поденщине – в фулфилмент центре Амазона, в колл-центре и в фастфуде. И очень хорошая работа из области геймдизайна, где описывается, что геймификация – не всегда полезная вещь, и превращать в игру труд на конвейере, заставляя людей перерасходовать себя за баллы или чтобы «накормить дракончика», а потом делать эти баллы метриками, безнравственно.
Telegram
prometa.pro книжки
Дочитала On the Clock: What Low-Wage Work Did to Me and How It Drives America Insane, автор там выбирает ужасные работы по восходящей. Сначала – склад Амазона, где от двенадцатичасовых смен, боли во всем теле, одиночества, ощущения тотального контроля можно…
Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
💬 Комьюнити: t.me/okx_russian
👨💻 Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 1 month, 1 week ago
Here in simple language about TON and crypto
Founder: @metasalience
contact : @deftalk_bot
Last updated 4 months, 1 week ago
Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение
Ведро для спама: @ton_telegrambot
Бот с курсами криптовалют: @TonometerBot
Чат: @chaTON_ru
Админ: @filimono
Last updated 1 month, 1 week ago