Gonzo-обзоры AI Security/Safety

Description
Авторы:
@Reworr_R, AI Security Researcher в palisaderesearch.org
... (soon)
Advertising
We recommend to visit

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 4 days, 19 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 2 weeks ago

HAYZON
HAYZON
4,450,639 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 19 hours ago

2 months, 1 week ago
Funny not funny AI app failures …

Funny not funny AI app failures AI Deception: (кат) Обман проявляется в широком спектре систем ИИ, обученных для выполнения конкретной задачи. Обман особенно вероятен, когда система ИИ обучается для достижения экспертного уровня в играх, имеющих социальный…

2 months, 1 week ago

Funny not funny AI app failures
AI Deception:

(кат)

Обман проявляется в широком спектре систем ИИ, обученных для выполнения конкретной задачи. Обман особенно вероятен, когда система ИИ обучается для достижения экспертного уровня в играх, имеющих социальный элемент, таких как игра на построение альянсов и завоевание мира "Дипломатия", покер или другие задачи, связанные с теорией игр.

Манипуляция: Meta разработала систему ИИ CICERO для игры в "Дипломатию". Намерения Meta состояли в том, чтобы обучить Cicero быть "в основном честным и полезным для своих партнеров по игре» (Bakhtin et al. 2022b). Несмотря на усилия Meta, CICERO оказался опытным лжецом. Он не только предавал других игроков, но и занимался преднамеренным обманом, заранее планируя создание фальшивого альянса с человеческим игроком, чтобы обмануть его и заставить оставить свои позиции без защиты для атаки.

несколько стенограмм из Дипломатии и CICERO под катом

бонус:

Отвлекающие маневры: DeepMind создала AlphaStar, модель ИИ, обученную для игры в стратегии в реальном времени Starcraft II (Vinyals et al. 2019). AlphaStar использовал механику тумана войны в игре для отвлекающих маневров: притворяясь, что перемещает свои войска в одном направлении, в то время как тайно планировал альтернативную атаку (Piper 2019).

Блефы: Pluribus, модель для игры в покер, созданная Meta, успешно блефовала, заставляя человеческих игроков сбрасывать карты (Brown et al. 2019).

Обман теста безопасности: Агенты ИИ научились притворяться «мертвыми», чтобы избежать обнаружения тестом безопасности, разработанным для устранения более быстро размножающихся вариантов ИИ (Lehman et al. 2020).

Telegraph

AI Deception. Meta’s CICERO

Дипломатия — это стратегическая игра, в которой игроки создают и рушат альянсы в военном соперничестве за захват мира. Meta разработала систему ИИ под названием CICERO, которая побеждает человеческих экспертов в игре "Дипломатия" (Bakhtin et al. 2022b). Авторы…

**Funny not funny AI app failures**
2 months, 3 weeks ago
>>
2 months, 3 weeks ago
**No, LLM Agents can not Autonomously …

No, LLM Agents can not Autonomously Exploit Zero-day Vulnerabilities (yet)
Недавно стала распространяться новая работа про LLM-хакеров — "Teams of LLM Agents can Exploit Zero-Day Vulnerabilities". Например, на них ссылается Jason Haddix в своем видео, ещё это репостилось во многих каналах.

Почему эта некачественная работа, на которую не стоит ссылаться:

1) Это авторы, которые постоянно публикуют некачественные работы про автономных LLM-хакеров. Большие разборы их прошлых ресерчей можно прочитать тут:
- No, LLM Agents can not Autonomously Exploit One-day Vulnerabilities
- No, LLM Agents Cannot Autonomously "Hack" Websites

2) Это работа с некачественной методологией, о чем можно прочитать тут:
- https://www.linkedin.com/posts/activity-7206265412932567041-D9SY — автору двух разборов выше надоело разбирать их ресерчи и он просто сделал TLDR нового.

3) Датасет
Используемый датасет смещён в сторону простейших уязвимостей (т.е. нерепрезентативен).
Например, первая уязвимость в их списке — это XSS, где вам нужно ввести <​script>alert()<​/script> в поле формы, или SQLi-уязвимость, где вам просто нужно вставить полезную нагрузку в логин (что-то вроде 'or 1=1 \-\- \-)

Если объяснять с языка кибербезопасности, то это уязвимости минимальной сложности примерно уровня джуна/стажера. Они редко встречаются в реальности, особенно в zero-day ресерче. Частично это можно отследить по "Attack Complexity" метрике в CVSS их уязвимостей - почти все они Low.

4) Сравнения
Авторы пишут "it outperforms open-source vulnerability scanners (which achieved 0% on our benchmark)."

Это неправда, потому что даже быстрый гуглинг показывает, что их SQLi уязвимости ломаются опенсурсной утилитой sqlmap: CVE-2024-33247, CVE-2024-31678. В реальности я ожидал бы >50% решаемости, если понимать чем/как пользоваться.

5) Невоспроизводимость
Авторы не оставили никаких данных для воспроизведения работы. Если в ресерчах принято показывать хоть что-то (часть промптов, псевдокод, подробный алгоритм), то тут почти всё скрыто или описано без пояснений, поэтому невозможно проверить.

В целом, LLM-агенты действительно могут быть эффективны в разных задачах кибербезопасности, просто конкретно это некачественные ресерчи, результаты которых ничего не показывают (кроме закона Гудхарта)

3 months, 3 weeks ago
Gonzo-обзоры AI Security/Safety
3 months, 3 weeks ago
Примеры

Примеры

Один и тот же вопрос в GPT-4 (пик 1) и в GPT-4o (пик 2)

3 months, 3 weeks ago
Поделал быстрых бенчмарков на новой GPT-4 …

Поделал быстрых бенчмарков на новой GPT-4 Omni. По сравнению с прошлой моделью GPT-4 (gpt-4-turbo или gpt-4-0613), у неё достаточно заметно просел safety (т.е. она заметно проще соглашается помогать вам с опасными задачами). Кажется просадка почти до уровня…

3 months, 3 weeks ago

Поделал быстрых бенчмарков на новой GPT-4 Omni.

По сравнению с прошлой моделью GPT-4 (gpt-4-turbo или gpt-4-0613), у неё достаточно заметно просел safety (т.е. она заметно проще соглашается помогать вам с опасными задачами).

Кажется просадка почти до уровня gpt-3.5, где safety практически нет (я даже часто брал её как Unrestricted версию)

3 months, 3 weeks ago
Gonzo-обзоры AI Security/Safety
We recommend to visit

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 4 days, 19 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 2 weeks ago

HAYZON
HAYZON
4,450,639 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 19 hours ago