Первый верифицированный канал о технологиях и искусственном интеллекте.
Сотрудничество/Реклама: @alexostro1
Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official
Last updated 1 week, 1 day ago
Единственный легальный канал Wylsacom Media.
Есть новость или что сказать, наш бот для вас: @WylsacomRedNewsBot
По всем вопросам пишите сюда:
[email protected]
[email protected]
Last updated 3 days, 7 hours ago
Крупнейшее медиа об интернет-культуре и технологиях.
Больше интересного на https://exploit.media
Написать в редакцию: @exploitex_bot
Сотрудничество: @todaycast
Last updated 1 month, 3 weeks ago
*?Открытые данные и LLM*?
#nlp #про_nlp
Прошлая неделя выдалась тяжелой для открытых текстовых данных.
*?*Open Library
Open Library, большая часть Internet Archive, про которую я рассказывала раньше, проиграла судебный процесс по копирайту против группы американских издательств.
Издатели вынудили Archive org удалить более 500 тысяч книг из общественного доступа. Многие из этих книг отсутствуют в оцифрованном виде где-либо еще, а так же составляют базу ссылок и источников Википедии. Заявление архива:
— More than 500,000 books have been taken out of lending as a result of Hachette v. Internet Archive, the publishers’ lawsuit against our library, including more than 1,300 banned and challenged books.
— We are appealing the decision that led to these takedowns in an effort to restore access to these books for all of our patrons.
Надежда есть! Международная федерация библиотек помогает побороться и восстановить доступ, легализуя статус "Controlled Digital Lending".
Список из 1300 названий запрещенных книг, которые требовали удалить в первую очередь, включает "1984" Оруэлла, "Оптимизм" Вольтера, "Декамерон" Боккаччо, книги с нетрадиционной любовной сюжетной линией -- это только то, что сразу бросилось в глаза в списке.
*?*Anna's Archive
Anna's Archive org заблокирован и переехал на новый домен: https://annas-archive.gs
На прошлой неделе в торрент-части появилось несколько десятков новых коллекций, суммарно 60Тб, доступных для скачивания напрямую как датасет либо в формате зашарженных архивов через торрент:
— Degruyter — дамп базы научных изданий Degruyter, метаданных пока нет, только архивы на торренте.
— Docer — дамп публично доступных документов из агрегатора docer.pl
— Duxiu — китайская библиотека оцифрованных книг, в большинстве научная литература, университетские издания.
— MagzDB — дамп базы всех периодических изданий из magzdb
— Open Library тоже доступна -- эта коллекция везде фигурирует под именем IA Controlled Digital Lending и OpenLibrary. Есть версия датасета от 26 марта, то есть сразу после проигыша суда Archive org.
?Ссылка на датасеты: https://annas-archive.gs/datasets
?Коммьюнити-торренты https://annas-archive.gs/torrents/upload
Telegram
Kali Novskaya
#nlp #про\_nlp #opensource Немного про насущные проблемы ИИ и интернет-корпусов Одной из предпосылок открытых технологий ИИ является достатоынй объем качественных открытых данных на разных яязыках. К сожалению, проблемы настигают многие источники цифрового…
Мысль с потолка: если сначала, как Google, подпортить выдачу сгенерированными LLM-ответами (аля Quora), а потом строить RAG-сервисы на поиске, то галлюцинации будут протекать в ответ уже и через RAG! ?
Вообще Furby как игрушка — индоктринирует детей вырасти и заниматься лингвистикой и LLM.
Говорю из опыта.
— Искусственный язык и датасет в инструкции — чек
— Симуляция обучения (ферби где-то полгода после первого включения выдаёт новые фразочки, как будто он их выучил) — чек
#шитпост
Чтобы вам было что-то хорошее сегодня)
Через 2 минуты начинаем, приходите!
https://youtube.com/live/zaHrKhDBL6M?feature=share
YouTube
Антикопирайт в эпоху ИИ / Михаил Вербицкий, Кали Новская
Свободное ПО во многом определило вид современной науки, укрепляя принципы воспроизводимости и открытости: но что делать с генеративными моделями, которые обучены на копирайтных данных? — Открытые и проприетарные генеративные модели, обученные на копирайтных…
Первый верифицированный канал о технологиях и искусственном интеллекте.
Сотрудничество/Реклама: @alexostro1
Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official
Last updated 1 week, 1 day ago
Единственный легальный канал Wylsacom Media.
Есть новость или что сказать, наш бот для вас: @WylsacomRedNewsBot
По всем вопросам пишите сюда:
[email protected]
[email protected]
Last updated 3 days, 7 hours ago
Крупнейшее медиа об интернет-культуре и технологиях.
Больше интересного на https://exploit.media
Написать в редакцию: @exploitex_bot
Сотрудничество: @todaycast
Last updated 1 month, 3 weeks ago