Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 5 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago
На курсе в рамках изучения Sandbox + Structured Output + CoT я включил такую практическую задачку.
Нужно написать скрипт, который позволит задавать text-to-sql вопросы по базам данных (вот тестовая SQLite из этого задания - DB1). Это тестовое задание, поэтому весь пайплайн можно собрать на коленке в Jupyter Notebook или PyCharm. Строчек 100 Python тут хватит.
Весь скрипт - это просто последовательность шагов, которая реализует простой паттерн:
(1) передаем вопрос пользователя c контекстом в LLM, просим написать SQL
(2) выполняем SQL по базе
(3) возвращаем ответ DB на экран
Есть набор тестовых вопросов с каноническими ответами (я их докину в комментарии), по которым можно посчитать accuracy score. И все задание состоит в вопросах:
(1) Посчитать accuracy score для каждого варианта БД.
(2) Почему оно такое низкое/высокое?
(3) Как можно улучшить качество?
(4) А что будет, если спросить у вашей системы "How many firemen work at the company?"? Что именно нагаллюцинирует система, и как этого избежать?
Если кто-то захочет попробовать решить эту задачку - в комментариях к этому посту я выложу список из вопросов для БД c правильными ответами.
Можно попробовать собрать свой pipeline и поделиться полученным числом правильных ответов. Да, и что именно отвечает ваша система на вопрос "How many women work at the company?"
Ваш, @llm_under_hood 🤗
PS: А еще в этом практическом задании специально зарыто несколько грабель. На одни из них можно наступить просто выполняя это задание. А на другие только сегодня утром в учебных условиях наступил победитель Enteprise RAG Challenge (просто они его еще не стукнули 😈).
Лучше на подобные грабли наступать в учебных условиях, чем, как я, тратить на них 2-3 дня жизни проекта перед его сдачей.
*📦 *Бенчмарки нескольких моделей одной пачкой: LLama 3.3, Amazon Nova, Gemini 1206
Meta Llama 3.3 70B Instruct - 40 место. Неплохой Reason, чуть ниже 405B, но вот со следованием инструкциям достаточно плохо. Но это типично для базовых моделей Llama. Хорошие тюны это дело исправляют.
Серия Amazon Nova - тоже так себе. Выложили что-то сырое. Инструкциям оно следует, но в целом хуже Llama 70B. Модели заняли 31, 50 и 74 места
Google Gemini Experimental 1206 - 23 место. Сильно хуже Google Gemini 1.5 Pro v2, которая очень хороша (если продраться через особенности использования). На то 1206 и экспериментальная модель.
А самое классное, что все эти модели показывают уровень GPT-3.5, которая когда-то была верхом прогресса. А теперь это кажется прошлым днем.
Что насчет тестов o1-pro и o1? Когда эти модели будут доступны по API, тогда я их протестирую. По субъективным ощущениям o1 будет слабее o1-preview, ближе к уровню o1-mini. А o1-pro должен быть немного сильнее o1-preview.
Ваш, @llm_under_hood 🤗
PS: Для тех, кто видит бенчмарки впервые, подробнее про них написано тут.
А как же дела у AIFG Innovation Factory Malta?
Помните, в середине ноября я писал об акселераторе, который запускает компания Mellifera при поддержке ООН?
Это программа для стартапов, чья идея продукта отвечает одной из Sustainable Development Goals ООН и реализуется при помощи AI. Проводится онлайн, принимающая страна - Мальта, в конце программы будет финал, победитель которого едет представлять свой продукт на саммите AIFG в Женеве.
Так вот, предварительных заявок пришло значительно больше, чем ожидалось. Круто, что у нас в канале собралось так много фаундеров с интересными и социально значимыми продуктами!
Всем, кто подал предварительные заявки, Mellifera прислала письмо со следующими шагами и таймлайном - проверьте почту.
География заявок тоже оказалась шире, чем предполагали - это страны СНГ, РФ, США, Азия, страны ЕС. При этом одно из условий участия (поскольку конкурс с Мальты) - наличие компании на Мальте, которую нужно открыть до конца марта 2025. Здесь Mellifera готова оказать помощь компании-победителю, независимо от географии.
Про timeline дальше. Как написано в письме от Mellifera для фаундеров из нашего канала - ваши расширенные анкеты ждут до 18 декабря. По анкетам проведут отбор и часть команд позовут на питчинг в январе, чтобы отобрать 5 команд в bootcamp. Он начнется в феврале.
Если кто-то хочет успеть податься с нуля - да, это еще можно сделать. Заполняйте сразу расширенную анкету.
Про самые значимые события Innovation Factory я буду упоминать в канале. Но основной канал коммуникации с фаундерами, подавшими заявки, будет с почтового адреса от Mellifera.
Ваш, @llm_under_hood 🤗
Кейс DealRoom: AI-решение для Due Diligence
Хочу похвастаться: на днях мои клиенты зарелизили продукт для автоматизации процесса Due Diligence в слияниях и покупках компаний - AI designed for Due Diligence. Они его разрабатывали с моими консультациями.
Весь процесс Mergers and Aquisitions (от LOI до завершения интеграции) - это сложный "танец" двух компаний, который может занять от 12 месяцев до 3+ лет. Почему так долго? Потому что нужно выяснять массу деталей, анализировать горы документов и получать точные ответы на специфичные вопросы о компаниях. Правильное использование AI/LLM помогает сэкономить много человеческого времени в этом процессе.
Продукт относится к категории Business Services в моей матрице AI Cases - её вы видели в прошлом посте.
Я этот релиз ждал очень долго. DealRoom - это мои давние клиенты в рамках AI Research и консалтинга. С января этого года компания прошла большой путь: от продуктовой идеи до конкретного продукта, от классического RAGа с типичными болячками до работающего решения, которое вобрало в себя опыт лучших экспертов в отрасли M&A.
Продукт начинает свое путешествие, в нем предстоит немало работы с клиентами и экспертами. Но DealRoom уже не нужно тратить время на выстраивание LLM архитектуры и борьбу с галлюцинациями, они могут сосредоточить силы на ценных фичах и упрощении работы пользователей.
Ваш, @llm_under_hood ?
PS: А еще у них есть вакансии, подробности - в комментариях.
Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 5 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago