Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
? Комьюнити: t.me/okx_russian
?? Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 2 weeks, 3 days ago
Здесь простым языком про TON, DFC и крипту.
Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot
Last updated 1 month ago
#1 канал о блокчейне, криптовалютах и децентрализованных финансах.
🔥 Реклама — @DCTeam
Last updated 8 hours ago
PeriodWave. Дифузионный вокодер.
Судя по цифрам моделька очень и очень мощная. Код пока не зарелизили, но обещают в скором времени.
https://arxiv.org/abs/2408.07547
https://arxiv.org/abs/2408.08019
Код обещают выложить вот здесь
Привет господа и господамы ?
Сегодня будет необычный стрим с кликбейтным названием, миллион у нас на команду моего с Димой стартапа Audio2MIDI) На стриме я буду гостем и поделюсь своей историей со временен, когда я был бекендером и отвечу на вопросы. Дальше меня будут чаще звать на такие мероприятия, но ничего бы не было без моего учителя. Есть у меня человек, без которого вероятно я бы не стал программистом, а потом ML инженером/ресерчером. Не стал бы вести этот канал и не стал бы преподавать. Мы знакомы 5й год и человек, который дал мне выйти в мир ИТ ~~print("Hello world!')~~ это Михаил Омельченко.
Стрим будет в 20:00
YouTube
Путь от backend к ML и миллион на стартап в 17 лет | Михаил Омельченко и Захар Варфоломеев
На стриме обсудим: ***➡️***Переход из бекенда в машинное обучение ***➡️***Как Захар развивался в ML с 15 лет ***➡️***Значимость общения со специалистами в различных сообществах ***➡️***Что не понравилось в процессе изучения ***➡️***Преподавание ML в 17 лет ***➡️***Захар занимается ML для обработки…
RLHF лишь отдаленно напоминает настоящее обучение с подкреплением (RL) и не так эффективно.
Основные моменты:
RLHF использует "модель вознаграждения" (RM), обученную на человеческих оценках, а не на реальных результатах.
Оптимизация RLHF быстро находит примеры, обманывающие RM, что ограничивает длительность обучения.
В отличие от AlphaGo, использовавшего настоящее RL для игры в го, RLHF не позволяет достичь подобных результатов.
RLHF все же полезно, так как позволяет использовать преимущество "разрыва между генератором и дискриминатором" - людям легче выбрать лучший ответ, чем создать его с нуля.
RLHF также помогает уменьшить галлюцинации модели.
Карпатый заключает, что настоящее RL для языковых моделей в открытой области еще не достигнуто, но его реализация может привести к значительному прогрессу в решении разнообразных задач.
Как-то в одном из профильных чатов задали следующий вопрос: актёр в кадре говорит по-русски, но с акцентом, и при этом как избавиться от акцента, но сохранить узнаваемый голос?
Я дал подробный ответ, мне разрешили его опубликовать у себя. В целом я подметил четыре варианта:
1. Взять подписку ElevenLabs за 5 $, загрузить датасет и клонировать голос, а затем пробовать генерировать TTSкой или STSкой. Должно быть без акцента
✅ Наиболее удобный способ
✅ По времени не очень затратный способ. Войсклон можно сделать как из 5 секунд, так из 5 минут
✅ Хорошо в плане эмоций и интонаций, но не идеально
❌ Это стоит денег, причем оплата только с зарубежной карты. Если её нет — придётся муторно делать карту или искать посредников
❌ Может оказаться такое, что акцент на американский лад в букве «Р» сохранится. Это «особенность» сервиса, которая зависит от самого датасета
2. Подготовить датасет как на оригинальном английском языке, так и на русском языке с акцентом. А затем обучить для каждого датасета отдельные RVC-модели и посмотреть, что выйдет.
При этом чтобы речь звучала качественно и звучала без акцента на русском, необходимо использовать претрейн «Снежок» или недавно вышедший «Ригель». В сборке последнего я принимал участие
✅ Это бесплатно
✅ Это можно использовать абсолютно в любых целях и в неограниченном количестве
❌ Самый запарный способ. Начиная от установки локального GUI-интерфейса к себе на компьютер и заканчивая обучением модели. Об этом всём отдельная и долгая речь
❌ Возможны очевидные артефакты, особенно в районе шипящих звуков, и искажения
❌ Фактически это не TTSка, а STSка
3. Можно пойти ещё дальше — взять подписку ElevenLabs, то есть пойти по первому пути, и уже на основе генераций, сделанных благодаря этому сервису, собрать совсем новый датасет для тренировки RVC-моделей
4. Ещё можно воспользоваться сервисом Character.ai. Он позволяет создать своего ИИ-персонажа, предварительно задав ему тон, манеру общения и прочие характеристики. К нему можно также привязать голос — создать свой или выбрать уже существующий. Возможно клонировать голос из 15 секунд записи (больше нельзя, дальше просто обрезает), затем подключить его рандомному боту и попросить сказать какую-нибудь фразу
✅ Наименее затратный по времени и наименее запарный способ. Войсклон осуществляется всего из 15 секунд
✅ Неограниченная бесплатная генерация текста. Это как ChatGPT, только с подключенным голосом
✅ TTSка хороша в плане клонирования и интонаций, чем-то похожа на ElevenLabs
❌ Произношение звука нельзя контролировать
❌ Само качество звука неважное
❌ Когда даёшь боту задание сказать фразу, он может её сказать немного по-другому
В целом если есть деньги (и зарубежная карта) и не хочется особо париться — я бы взял ElevenLabs
Если хочется создать полноценно функционирующую бесплатную модель для применения в любых целях — я бы выбрал RVC
Если хочется непременно сейчас протестировать и любопытства ради узнать, как же актёр говорил бы по-русски — я бы затестил Character.ai
На статью от stability AI про TTS, который контроллируется промптом
https://arxiv.org/pdf/2402.01912
выпустили код!
https://github.com/huggingface/parler-tts
И даже несколько моделек
https://huggingface.co/parler-tts/parler_tts_mini_v0.1
https://huggingface.co/parler-tts/parler-tts-mini-expresso
Моделька довольно сильная. Очень советую попробовать.
Семпл:
prompt = "Stop it! Why do you make me do these examples? They're so generic."
description = "Alice is shouting in an angry tone with emphasis and high quality audio."
RUNorm v1 - открытый русскоязычный нормализатор текста перед TTS.
Примерно месяц назад был открытый бета-тест RUNorm в телеграм-боте. С этого момента было много экспериментов с тэггером и нормализатором. Отдельная модель для нормализации чисел была удалена.
Был обновлен набор моделей, теперь их 3:
- RUNorm_big (FRED-T5_LARGE 860M параметров)
- RUNorm_medium (ruT5-base 222M параметров)
- RUNorm_small (FRED-T5-95M. Дистиллят большой модели. 95M параметров)
Как и на чем обучались модели?
Изначально, датасет состоял из очень грязных данных, частично написанных руками, частично размеченных chatGPT. После, был обучен FRED-T5-1.7B. Потом взял большой текстовый датасет (pikabu) и регуляркой вытащил предложения, где предположительно должны быть сокращения и прогнал через этого фреда.
Идея пайплайна для чисел была взята отсюда, но с небольшими доработками, в виде нормализации чисел еще до подачи в модель. Таким образом, модели не обязательно знать, как число перевести в текст, остается только склонить.
Модель для английских слов училась транслитерировать небольшие последовательности из разных английских слов в русские. Датасет также полусинтетический, часть размечена руками, часть взята из датасета с соревы от гугла на каггле, часть размечена chatGPT.
За основу датасета модели-тэггер был взят тот же с соревы гугла по нормализации текста, но с небольшим обогащением сокращениями.
Модели можно потыкать тут: ссылка
GitHub: ссылка
P.S Возможна некоторая деградация качества для больших чисел, постараюсь поправить в будущих релизах.
https://x.com/taras_y_sereda/status/1786727753200410833?s=46&t=7jwH29MvU0R301CgvqVBYw
X (formerly Twitter)
taras sereda (@taras_y_sereda) on X
Last month I was invited to give lectures on TTS modelling at @ucu\_apps Happy to share my lecture notes. I cover classics as well as modern approaches in auto-regressive and parallel sequence modelling, neural codecs and discrete speech representations.
Google Scholar search: "certainly, here is" -chatgpt -llm (? Score: 150+ in 3 hours)
Link: https://readhacker.news/s/64gaF
Comments: https://readhacker.news/c/64gaF
simonwillison.net
Google Scholar search: “certainly, here is” -chatgpt -llm
Searching Google Scholar for "certainly, here is" turns up a huge number of academic papers that include parts that were evidently written by ChatGPT - sections that start with "Certainly, …
Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
? Комьюнити: t.me/okx_russian
?? Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 2 weeks, 3 days ago
Здесь простым языком про TON, DFC и крипту.
Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot
Last updated 1 month ago
#1 канал о блокчейне, криптовалютах и децентрализованных финансах.
🔥 Реклама — @DCTeam
Last updated 8 hours ago