Kali Novskaya

Description
Нейросети, искусство, мысли. Поехали!

Разрабатываю LLM и веду команды
chatGPT, GPT-3, GPT-4
Advertising
We recommend to visit

Первый верифицированный канал о технологиях и искусственном интеллекте.

Сотрудничество/Реклама: @alexostro1

Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official

Last updated 1 week, 1 day ago

Единственный легальный канал Wylsacom Media.
Есть новость или что сказать, наш бот для вас: @WylsacomRedNewsBot

По всем вопросам пишите сюда:
[email protected]
[email protected]

Last updated 3 days, 7 hours ago

Крупнейшее медиа об интернет-культуре и технологиях.

Больше интересного на https://exploit.media

Написать в редакцию: @exploitex_bot

Сотрудничество: @todaycast

Last updated 1 month, 3 weeks ago

2 months, 3 weeks ago

*?Открытые данные и LLM*?
#nlp #про_nlp

Прошлая неделя выдалась тяжелой для открытых текстовых данных.

*?*Open Library
Open Library, большая часть Internet Archive, про которую я рассказывала раньше, проиграла судебный процесс по копирайту против группы американских издательств.
Издатели вынудили Archive org удалить более 500 тысяч книг из общественного доступа. Многие из этих книг отсутствуют в оцифрованном виде где-либо еще, а так же составляют базу ссылок и источников Википедии. Заявление архива:
— More than 500,000 books have been taken out of lending as a result of Hachette v. Internet Archive, the publishers’ lawsuit against our library, including more than 1,300 banned and challenged books.
— We are appealing the decision that led to these takedowns in an effort to restore access to these books for all of our patrons.

Надежда есть! Международная федерация библиотек помогает побороться и восстановить доступ, легализуя статус "Controlled Digital Lending".

Список из 1300 названий запрещенных книг, которые требовали удалить в первую очередь, включает "1984" Оруэлла, "Оптимизм" Вольтера, "Декамерон" Боккаччо, книги с нетрадиционной любовной сюжетной линией -- это только то, что сразу бросилось в глаза в списке.

*?*Anna's Archive
Anna's Archive org заблокирован и переехал на новый домен: https://annas-archive.gs

На прошлой неделе в торрент-части появилось несколько десятков новых коллекций, суммарно 60Тб, доступных для скачивания напрямую как датасет либо в формате зашарженных архивов через торрент:
— Degruyter — дамп базы научных изданий Degruyter, метаданных пока нет, только архивы на торренте.
— Docer — дамп публично доступных документов из агрегатора docer.pl
— Duxiu — китайская библиотека оцифрованных книг, в большинстве научная литература, университетские издания.
— MagzDB — дамп базы всех периодических изданий из magzdb
— Open Library тоже доступна -- эта коллекция везде фигурирует под именем IA Controlled Digital Lending и OpenLibrary. Есть версия датасета от 26 марта, то есть сразу после проигыша суда Archive org.

?Ссылка на датасеты: https://annas-archive.gs/datasets
?Коммьюнити-торренты https://annas-archive.gs/torrents/upload

Telegram

Kali Novskaya

#nlp #про\_nlp #opensource Немного про насущные проблемы ИИ и интернет-корпусов Одной из предпосылок открытых технологий ИИ является достатоынй объем качественных открытых данных на разных яязыках. К сожалению, проблемы настигают многие источники цифрового…

*****?***Открытые данные и LLM*****?***
3 months ago
Kali Novskaya
3 months ago
Kali Novskaya
3 months ago
Kali Novskaya
3 months ago
Kali Novskaya
3 months ago
Kali Novskaya
5 months, 2 weeks ago

Мысль с потолка: если сначала, как Google, подпортить выдачу сгенерированными LLM-ответами (аля Quora), а потом строить RAG-сервисы на поиске, то галлюцинации будут протекать в ответ уже и через RAG! ?

5 months, 2 weeks ago

Вообще Furby как игрушка — индоктринирует детей вырасти и заниматься лингвистикой и LLM.
Говорю из опыта.
— Искусственный язык и датасет в инструкции — чек
— Симуляция обучения (ферби где-то полгода после первого включения выдаёт новые фразочки, как будто он их выучил) — чек
#шитпост

5 months, 2 weeks ago

Чтобы вам было что-то хорошее сегодня)

7 months, 1 week ago

Через 2 минуты начинаем, приходите!

https://youtube.com/live/zaHrKhDBL6M?feature=share

YouTube

Антикопирайт в эпоху ИИ / Михаил Вербицкий, Кали Новская

Свободное ПО во многом определило вид современной науки, укрепляя принципы воспроизводимости и открытости: но что делать с генеративными моделями, которые обучены на копирайтных данных? — Открытые и проприетарные генеративные модели, обученные на копирайтных…

Через 2 минуты начинаем, приходите!
We recommend to visit

Первый верифицированный канал о технологиях и искусственном интеллекте.

Сотрудничество/Реклама: @alexostro1

Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official

Last updated 1 week, 1 day ago

Единственный легальный канал Wylsacom Media.
Есть новость или что сказать, наш бот для вас: @WylsacomRedNewsBot

По всем вопросам пишите сюда:
[email protected]
[email protected]

Last updated 3 days, 7 hours ago

Крупнейшее медиа об интернет-культуре и технологиях.

Больше интересного на https://exploit.media

Написать в редакцию: @exploitex_bot

Сотрудничество: @todaycast

Last updated 1 month, 3 weeks ago