Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago
В ключевых датасетах стало меньше информации
Исследователи MIT проанализировали несколько тысяч веб-доменов, информация из которых содержится в основных дата-сетах для обучения ИИ-моделей.
Выяснилось, что за прошедший год значительное количество владельцев этих доменов закрыли доступ к информации для разработчиков нейросетей.
Например, в случае с так называемыми «высококачественными» источниками (например, СМИ или ресурсы с научными публикациями), число тех, кто запретил собирать информацию для обучения ИИ, достигло 30%.
Понятно, что та информация, которая уже есть в датасетах, не исчезнет. Но это означает, что актуальную информацию из этих источников получить будет нельзя. Если, конечно, разработчики нейросетей не готовы нарушать требования владельцев информации.
Авторов, которые охраняют право на свой контент любыми доступными способами, можно понять. Обратной стороной этого желания является тот факт, что датасетами пользуются не только компании с многомиллиардными бюджетами, но и молодые стартапы, а также научные сотрудники. Им, вероятно, станет гораздо сложнее получить доступ к качественной информации, чтобы разработать свою ИИ-модель.
В Сингапуре придумали, как зарядить телефон без зарядки
Исследователи Национального института Сингапура (NUS) вместе с коллегами из Японии и Италии рассказывают о новой разработке — модуле, который использует радиочастотные сигналы для получения постоянного тока.
Модуль может захватить сигнал от работы Wi-Fi-роутера, Bluetooth-модуля или 5G-антенны. Главная инновация устройства, разработанного в NUS — его способность использовать даже очень слабые сигналы, от -20 дБм и меньше.
В ходе тестов исследователям удалось заставить работать обычный температурный датчик, использовав сигнал мощностью всего -27 дБм — и никаких аккумуляторов и батареек.
Просто представьте, что в будущем у вас будет смартфон, который не нужно будет раз в несколько часов ставить на зарядку — специальный модуль будет постоянно поддерживать его в рабочем состоянии (если, конечно, поблизости будет Wi-Fi).
Беспроводная зарядки устройств с помощью модуля — одна из главных целей исследователей. Следом за ней идет создание умных автономных систем, которые для питания будут использовать только разработку NUS.
Какими высокими технологиями запомнится Олимпиада в Париже
Я уже рассказывал про технологии для спорта на примере Евро-2024. Сейчас идет парижская Олимпиада, где также реализовали несколько примечательных решений:
— Для трансляций используют нейросеть Gemini от Google: ИИ будет рассказывать зрителями интересные факты про соревнования. Также благодаря сервисам Google в эфире показывают иммерсивные 3D-карты с основными местами, где проходят соревнования. В трансляциях американских каналов ИИ используют для пересказа главных событий за день
— Нейросети также самостоятельно отбирают хайлайты — самые зрелищные моменты соревнований
— Японские атлеты выступают на Олимпиаде в специальных костюмах, которые блокируют инфракрасные камеры (тепловизоры). Нужны они не для достижения спортивных рекордов, а для спокойствия спортсменов: ведь с помощью тепловизоров можно увидеть, что у спортсмена под формой. В 2020 году спортсмены, выступавшие на Олимпиаде в Токио, жаловались, что их «инфракрасные» фото широко обсуждались в соцсетях
— Организаторы Олимпиады запустили систему на основе ИИ, которая мониторит соцсети и помечает оскорбительный контент с упоминанием спортсменов. Информацию передают владельцам платформ, которые должны принять меры
— На Олимпиаде активно используются цифровые двойники, с помощью которых отслеживают энергопотребление на спортивных объектах
Ранее технологичные решения затрагивали только участников соревнований. Сейчас технологии улучшают и «зрительский» компонент соревнований — делают их более зрелищными даже для тех, кто не считает себя спортивным фанатом.
Еще новейшие разработки помогают обеспечить психологическое спокойствие спортсменов, чтобы они могли сосредоточиться только на соревнованиях.
В США создали самый большой 3D-принтер в мире — он может напечатать дом за 80 часов
Университет штата Мэн в апреле представил Factory of the Future 1.0 (FoF 1.0, «Фабрика будущего») — 3D-принтер для печати на термопластичных полимерах. Он может создавать объекты длиной в 30 метров, 10 метров — в ширину, и 5,5 метра — в высоту, потребляя до 226 кг сырья в час.
Принтер поддерживает разные способы производства: аддитивный (когда материал добавляется в форму), субтрактивный (материал удаляется с заготовки), автоматизированная укладка ленты (пластик находится в виде лент в ролике принтера) и печать роботизированной рукой.
С помощью «Фабрики будущего» Университет Мэн побил свой собственный рекорд, занесенный в книгу рекордов Гиннеса. В 2019 году его инженеры создали MasterPrint, на тот момент самый крупный в мире полимерный 3D-принтер, который из перерабатываемых материалов (из древесного волокна и материалов на основе биосмолы) напечатал дом площадью 56 м². Новый принтер это делает в четыре раза быстрее — такой же дом он может напечатать за 80 часов. Оба принтера находятся в одном помещении, в Центре перспективных конструкций и композитов Университета, а также могут работать одновременно.
Большинство материалов, с которыми работает «Фабрика будущего», пригодны для вторичной переработки. Например, 3D-принтер может печатать объекты из древесных отходов. Для Мэн это особенно актуально, это один из самых зеленых штатов США (на севере и северо-востоке растут ель и пихта, на юго-западе — сосна и тсуга).
Технологию биопечати могут использовать для расширения другого проекта Университета — BioHome3D. Его суть — в увеличении объема доступного жилья в США путем печати на 3D-принтерах домов из биоматериалов. По оценке директора по развитию компании MaineHousing Марка Визендангера, к 2030 году в штате Мэн нужно будет построить около 80 тыс. жилых домов.
Финансирование для создания 3D-принтера Университет штата Мэн получил от Инженерного корпуса армии, Министерства обороны и Министерства энергетики США. По задумке «Фабрика будущего» может помочь не только при строительстве домов, но также и мостов, морских судов и оборудования для использования энергии воды или ветра.
В России тоже есть интересные проекты, связанные с 3D-печатью в строительстве. В Татарстане сейчас «печатают» целый поселок под названием «Квадрум» из 34 домов, и в первые дома уже заехали жильцы. В строительстве используют принтер S-300 производства российской компании «АМТ-Спецавиа».
Такой принтер может напечатать бетонной смесь здание высотой до 2 этажей и площадью до 180 кв.м., печатается дом за 21 день — впрочем, после печати еще нужно, например, вставлять окна. Но служить такой дом должен от 80 до 120 лет.
В самой компании отмечают: тот факт, что с помощью 3D-принтеров строят уже не отдельные дома, а поселки, означает, что в России 3D-печать в строительстве переходит из разряда экспериментальной технологии к массовой.
Выглядят дома слегка футуристично, но жильцы не жалуются — говорят, что летом в таком доме прохладно, а зимой тепло.
ИИ-агенты: от ассистентов к автономным помощникам
В 2023 году эксперты объявили, что следующий этап развития ИИ — автономные агенты. Об этом, к примеру, говорят Билл Гейтс и CEO Google DeepMind Демис Хассабис.
Сейчас мы живем в эпоху ИИ-ассистентов. Они выполняют конкретные действия: пишут выжимки из текстов, генерируют изображения и так далее. Но люди вынуждены проверять их результаты, чтобы ИИ не нагаллюцинировал.
ИИ-агенты устроены иначе. Они автономно работают с задачами, которые требуют множества шагов. К примеру, автономные автомобили с ними смогут сами находить себе сервис и покупать в интернете нужные запчасти. Агенты-кодеры смогут создавать по промпту целые приложения, а агенты-маркетологи — запускать рекламные кампании со всеми креативами и закупкой рекламы. Армии автономных ИИ-роботов смогут работать на фабриках и заводах. А контролировать их будет агент-дирижер, способный отслеживать действия и перенаправлять процессы в случае чрезвычайных ситуаций.
В Accenture считают, что в перспективе ближайших 10 лет появятся экосистемы агентов, где десятки и сотни ИИ будут работать на разных задачах компаний и взаимодействовать друг с другом, будто рабочие на большой фабрике.
Впрочем, сегодня самостоятельный ИИ — скорее цель, чем реальность. Что-то похожее запускают и сегодня, но пока такие решения слишком часто ошибаются.
В 2023 году появились несколько агентов на базе ChatGPT от независимых разработчиков — AutoGPT, AgentGPT, VimGPT. Они подключаются к разным источникам данных, к приложениям и выполняют несложные цепочки действий — например, могут оформить подписку на интернет-журнал или разослать приглашение на праздник. Но такие решения совершают кучу ошибок, например, приводят неверные вычисления или генерируют неработающий код, а часто просто не могут найти способ справиться с задачей без помощи пользователя. Встроить их в процессы с пользой получилось мало у кого — поэтому они не взлетели.
Более перспективно выглядят недавние релизы. Агент для пользовательских задач MultiOn может по промпту заказать такси или доставку еды, или даже сдать электронный экзамен на права. Правда, он пока не умеет анализировать изображения, а на кнопку «далее» на странице с тестом может нажать только после подсказки пользователя.
ИИ-кодер Devin от Cognition AI может по текстовому промпту писать целые приложения, проверять код и разворачивать их, а также устанавливать и обучать модели ИИ. Правда, даже по внутренним тестам он справляется лишь с 13,8% задач — больше, чем любые другие ИИ, но несравнимо меньше, чем опытные программисты.
Для агентности современному ИИ не хватает долгосрочной и краткосрочной памяти, способностей к самоанализу. Мнения расходятся — достаточно ли для реальной агентности развития современных технологий (возможно, ее поможет достичь уже GPT-5) или нужен рывок и принципиально новые решения.
В целом предстоит еще многое понять о будущем агентов. Непонятно, насколько универсальными будут пользовательские агенты — придется ли нам использовать десять таких решений для разных задач или все будет собрано в одном. Неясно, как будет обеспечиваться защита наших данных — ведь агентам придется дать доступ ко всем приложениям. Пользовательские агенты потребуют доступ ко всем личным данным и банковским счетам, а корпоративные — к огромным массивам внутренней информации и коммерческой тайне. А значит, не смогут обойтись без принципиально новых протоколов безопасности, которых тоже пока не видно даже на горизонте.
Стартапы оцифровывают запахи: теперь разрабатывать новые ароматы можно с помощью «ИИ-носов»
ИИ — горячая тема практически для всех отраслей, парфюмерной индустрии это тоже касается. В нейросети инвестируют и крупнейшие производители (Givaudan, Firmenich), и стартапы. Основная задача — оцифровать запахи, чтобы изменить подход к разработке новых ароматов.
Одна из компаний в авангарде этого движения — Osmo AI. Стартап уже получил $60 млн инвестиций, в него, в том числе вложился фонд Google Ventures. CEO Алекс Уилтшко, кстати, раньше работал научным сотрудником в Google Research. Osmo можно считать продолжением исследований Google.
Компания разработала метод оцифровки обоняния, который включает в себя три ключевых этапа: чтение, картирование и запись. Первый этап — это преобразование атомов в цифровые биты, примерно как камера фиксирует свет. На втором этапе происходит картирование за счет распознавания и организации этих битов. Это похоже на использование модели RGB для цвета. Последний этап — превращение цифровых битов обратно в атомы, которые может воспринимать человек (аналогия с принтером).
В основе подхода Osmo — их «почти 300-мерная» ИИ-карта запахов. Она позволяет предсказать запах молекулы по ее структуре. По сути, это и есть «обонятельная версия RGB».
Osmo AI совместно с учеными из разных университетов разработали свою ИИ-модель на основе графовой нейронной сети. Они загрузили в нее 5 тыс. молекул из каталога ароматов для обучения, а потом «скормили» ей 400 молекул, которые еще не выпустили. Машина должна была предсказать их запах. ИИ смог правильно определить восприятие в половине случаев, что уже можно считать хорошим результатом (но точность будет расти).
У решения Osmo огромный потенциал для создания ароматов. Правда, есть несколько «слепых пятен» — например, молекулы, идентичные по структуре, но отличающиеся по запаху. С такими тонкостями ИИ работать сложнее. А еще пока возникают трудности с определением интенсивности запахов, смешиванием молекул, субъективностью восприятия людей.
В любом случае решение может пригодиться для промышленности. Выводить на рынок новые ароматы сложно и дорого, а с ИИ можно проанализировать миллиарды возможных молекул и создать оптимальную. Совместно с Фондом Гейтса команда Osmo уже разработала восемь молекул для репеллентов, которые должны стать более эффективны, чем существующие формулы. А еще компания предполагает, что сможет сделать доступными уникальные запахи — те, которые можно найти только лишь в тропиках.
Оцифровкой запахов занимается не только Osmo. Revorn создает платформу, которая аккумулирует данные о запахах со всего мира. Для этого она использует запатентованные девайсы и ИИ. Их идея в том, чтобы воспроизвести человеческое обоняние с помощью датчика запаха (нос) и ИИ (мозг).
В перспективе «ИИ-нос» можно было бы использовать, чтобы создавать запахи, которые будут вызывать теплые воспоминания у людей. Еще один интересный юзкейс — обнаружение заболеваний на ранних стадиях, потому что именно по запаху часто можно засечь аномалии в работе организма. Похожая история — с выявлением испорченных продуктов, утечек газа. В общем, применять такие технологии можно во многих индустриях.
Пространственные вычисления — это не только AR и VR
«Пространственными вычислениями» или spatial computing называют те инструменты и процессы, которые позволяют стирать границы между реальным и виртуальным, объединять физический мир с цифровым контентом.
Популярным это понятие сделала Apple с выходом гарнитуры Apple Vision Pro. Но термин существует больше 20 лет. Еще в 2003 году Саймон Гринвольд написал диссертацию о своей работе с пространственными вычислениями в MIT.
С помощью spatial computing машины могут анализировать физические пространства, узнавать, как люди ведут себя в них, и как-то на это реагировать. В действии это может выглядеть как совсем просто (автоматизированное управление освещением, когда человек входит в комнату), так и очень сложно (использование сети 3D-камер для моделирования процесса на заводе).
Пространственные вычисления включают три основных шага:
Сбор данных о пользователе и его окружении. Для этого используются разные устройства (камеры, LiDAR) и методы вроде фотограмметрии (создание 3D-моделей из фотографий).
Анализ данных. ИИ помогает машине идентифицировать объекты в сцене, понять, как они двигаются и соотносятся друг с другом.
Действие. С помощью контроллеров, датчиков движения и других технологий устройство общается с окружающей средой и человеком. Пример: анализ собранных цифровых 3D-изображений позволяет самоуправляемому автомобилю «увидеть» пешехода перед собой и вовремя остановиться.
Пространственные вычисления часто употребляют вместе с терминами AR и VR, но это не одно и то же. Spatial computing — зонтичный термин. Он включает в себя разные «виды» реальности: дополненную, виртуальную, смешанную, и в целом любые виды блендинга между мирами.
Но в повседневной жизни люди обычно сталкиваются с пространственными вычислениями, именно когда используют AR-очки вроде Air 2 Ultra от Xreal или VR-гарнитуры, такие как Oculus Quest 2. В них зашиты самые разные технологии. Например, Apple Vision Pro оснащена передовой системой отслеживания взгляда. Можно просто посмотреть на предмет, чтобы активировать какое-то действие — не нужно даже двигать головой.
С помощью современных гарнитур вы можете поместить цифровую кошку к себе на стол и повесить открытую вкладку в интернете на потолок. Но, как видно из примеров выше, пространственные вычисления подходят не только для развлечений. Они пригодятся в обучении, дизайне, на производстве и даже медицине. Такие кейсы уже есть: в Лондоне медсестры недавно использовали Apple Vision Pro, чтобы выбирать инструменты и следить за ходом операции.
Что известно о Sora — модели OpenAI для генерации реалистичных видео
В феврале OpenAI впервые продемонстрировала Sora для генерации гиперреалистичных видео на основе текста. Компания показала короткие и качественные видеоролики, которые (по словам OpenAI) Sora создала за минуты. В них дрон летает над улицами Токио, мамонты ходят по заснеженному лугу, а пушистый монстр смотрит на тающую свечу.
OpenAI пока сделала инструмент доступным только для «избранных» художников, дизайнеров и режиссеров. Но видео из него уже разлетелись по всей сети и произвели фурор.
Sora может сгенерировать ролик длительностью до минуты. Это необязательно абсолютно новое видео — можно дополнить уже существующую запись или анимировать статическое изображение. Модель может создавать несколько связанных кадров и выдерживать общий стиль для всех, «снимать» сцены с разными персонажами, отображать эмоции, создавать детализированный бэкграунд. Разработчики утверждают, что Sora понимает не только саму текстовую подсказку, но и как объекты существуют в физическом мире.
В основе лежит диффузионная модель. Она начинает генерацию с пиксельного паттерна (как белый шум в телевизоре) и постепенно его преобразует. Sora также использует пространственно-временные патчи, которые позволяют одновременно анализировать изображение на каждом кадре (пространственную информацию) и изменения в нем со временем (временную информацию). Патчи — это, по сути, аналог токенов в LLM. Подробности можно почитать здесь.
На каких именно данных обучалась Sora, неизвестно, но OpenAI точно использовала контент с Shutterstock.
Технологию бурно обсуждали в сети. Одни пользователи считают, что модель знает законы физики и приближает нас к AGI, другие в этом сомневаются. А третьи — переживают за свою работу в креативной индустрии. В Китае выход Sora и вовсе вызвал «приступ тревоги». Местные эксперты увидели, насколько велик разрыв между китайскими и американскими ИИ-технологиями.
В любом случае, с причинно-следственными связями и изменениями физических свойств объектов у Sora пока проблемы. Например, откушенное яблоко может остаться в руке человека нетронутым, а баскетбольный мяч иногда пролетает сквозь кольцо. А еще нейросеть может перепутать право и лево, не всегда справляется со сложными движениями и в целом допускает ошибки, как и любой ИИ.
Однако пользователи пишут, что уже сейчас Sora может делать то, что не под силу ни одной из других крупных видеомоделей ИИ — Runway's Gen-2, Pika Labs Pika 1.0 или StabilityAI's Stable Video Diffusion 1.1. А недавний опрос показал: пользователи в США с трудом отличают видео, записанные людьми, от тех, что созданы инструментом преобразования текста в видео Sora
В недавнем интервью главный технический директор OpenAI Мира Мурати сказала, что компания откроет Sora для всех уже в этом году, в течение нескольких месяцев. К этому моменту OpenAI хочет сделать инструмент таким же доступным по цене, как DALL-E. В планах — добавить в Sora звук, чтобы сцены получались еще более реалистичными. Компания также хочет дать пользователям возможность редактировать контент.
После официального выпуска Sora, скорее всего, не сможет создавать видео с общественными деятелями. Плюс, ролики снабдят водяными знаками. Но от новой эры дезинформации это нас вряд ли спасет.
Как искусственный интеллект поможем нам понимать котиков
У кошек 276 выражений «лица» — именно столько недавно насчитали исследователи. Это только для общения с сородичми Для людей у них припасены и другие сигналы. А еще некоторые эксперты говорят, что пушистые могут издавать более 100 разных звуков.
Разобраться во всем мимическом и голосовом многообразии самостоятельно практически невозможно. Я сам регулярно не понимаю, чего от меня хотят мои коты — мейн-кун Нил и саванна Том. Но, возможно, нам помогут нейросети. Мы с котами решили разобраться, как именно — начнем с распознавания мяукания.
В мяуканье заключено множество смыслов: согласно одному исследованию, в лучшие кошачьи времена — скажем, когда кошку кормят — звуки обычно короткие и высокочастотное, с повышающимися интонациями. А, например, в переноске кошки обычно дают знать о своем бедственном положении долгим, низким мяуканьем. Интонация, наоборот, понижается.
В исследовании 2019 года Ставрос Нталампирас, специалист из Миланского университета, продемонстрировал, что алгоритмы могут автоматически различать мяуканье кошек в трех ситуациях: когда их расчесывают, в ожидании еды или после того, как они остались одни в незнакомой обстановке.
Именно доктора Нталампираса привлекли создатели MeowTalk для развития своего приложения. Оно использует алгоритмы для идентификации кошачьего мяуканья в различных контекстах. Приложение анализирует звуки в режиме реального времени и присваивает каждому из них «намерение», например «счастлив», «отдыхает», «охотится» или «брачный призыв». Затем оно отображает разговорный, простой английский «перевод», что-то вроде «Дай мне отдохнуть».
MeowTalk использует звуки для постоянного совершенствования алгоритмов. Плюс, владельцы домашних животных могут давать обратную связь, когда приложение ошибается. Еще 2021 году исследователи MeowTalk сообщили, что программа может различать девять намерений с точностью 90%. Сейчас на сайте указано 11 намерений.
Конечно, идеально понять питомца не получится — иногда приложение сильно ошибается в контексте, а иногда выдает странные фразочки вроде «Любовь моя, я здесь!» или «Давай уединимся». Но на Google Play MeowTalk уже скачали более 5 млн раз. Правда, пользователей напрягает настойчивая реклама премиальной версии.
Биометрия, какой вы ее еще не знали: новые (и неожиданные старые) способы идентификации пользователей
Пароль — все еще главный способ идентификации пользователей, и одновременно очень уязвимый. Но при этом пароли привычны большинству пользователей, у них простой UX и развертывание. Для замены этого инструмента нужен столь же удобный и намного более надежный аналог.
В дополнение и на смену паролям приходят новые стандарты аутентификации. Один из наиболее распространенных примеров — открытый стандарт WebAuthn, он позволяет использовать для авторизации приложения, аппаратные токены или биометрические данные. На нем построено множество ID-решений, в том числе и в России
Биометрия же — один из наиболее удобных аутентификаторов. Ее данные трудно украсть и их не получится забыть. Биометрию уже внедрили в большинство смартфонов, планшетов и многие компьютеры. Глобальная выручка от продаж мобильной биометрии в 2022 году составила $30,5 млрд и будет расти на 21,2% в год.
Вместе с этим, инженеры по всему миру работают над новыми способами идентификации пользователей. Вот наиболее свежие и интересные из них:
Поведенческая биометрия. Специальное ПО на устройстве непрерывно анализирует, например, как вы печатаете, ваш ритм нажатия клавиш, использование мыши, скорость набора текста и продолжительность удерживания клавиш. Другой вариант (его предложили ученые из Портсмутского университета в Великобритании), когда ПО изучает походку человека с помощью встроенных в смартфоне акселерометра, гироскопа и GPS. Человеку для входа в устройство не нужно совершать каких-то действий — телефон просто уже знает вас по движениям.
Анализ персональных особенностей дыхания.В 2024 году ученые из Индийского технологического института Мадраса в Индии представили технологию биометрии дыхания. На выдохе воздух проходит из легких через сложные внутренние структуры наших дыхательных путей, что создает сигнатуры турбулентности. Ученые решили, что это может стать подходящим биомаркером для идентификации человека. Технология пока находится в стадии разработки
Идентификация по химическому составу выдыхаемого воздуха. Ученые из Университета Кюсю в Фукуоке в Японии в 2022 году разработали способ анализа химических соединений в образцах выдыхаемого воздуха. 16 датчиков анализируют 28 соединений для формирования индивидуального профиля человека, затем эту информацию можно использовать для идентификации.
Идентификация через электромагнитное поле. Команда инженеров из американского Purdue University разработала гаджет, который состоит из передатчика и приемника. Передатчик, выполненный в виде наручного браслета, индуцирует низкочастотное электромагнитное поле, которое протекает по человеческому телу на пути к приемнику. Передача информации начинается и осуществляется только в момент прикосновения пальца к поверхности принимающего гаджета. При этом электромагнитное поле не покидает границы человеческого тела и перехватить такой сигнал без физического контакта с «жертвой» невозможно.
Биоакустическая подпись. Этот метод распознавания основан на звуковых волнах, проникающих в тело через пальцы человека. Волны, проходя через наше тело, обладающее уникальными анатомическими особенностями, производит акустический сигнал неповторимой спектральной формы. Полученный акустический «отпечаток» тела становится уникальным ключом для последующей идентификации пользователя. На этапе тестирования прототип смог продемонстрировать точность верификации на уровне 97%.
Не каждый из этих экспериментальных методов можно будет легко внедрить в смартфон или компьютер. Некоторые из них смогут пригодиться для защиты данных в правительственных организациях или IT-компаниях, для медицинских исследований или идентификации личности в публичных местах.
Мы в МТС также развиваем инструменты биометрической идентификации. Еще в 2022 году в наших салонах внедрили технологии компьютерного зрения VisionLabs, которые идентифицируют личность человека по биометрическому фото и позволяют ему совершать операции без предъявления паспорта.
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago