Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
💬 Комьюнити: t.me/okx_russian
👨💻 Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 2 weeks, 2 days ago
Here in simple language about TON and crypto
Founder: @metasalience
contact : @deftalk_bot
Last updated 3 months, 2 weeks ago
Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение
Ведро для спама: @ton_telegrambot
Бот с курсами криптовалют: @TonometerBot
Чат: @chaTON_ru
Админ: @filimono
Last updated 2 weeks, 4 days ago
Опубликована открытая AI-модель hertz-dev для полнодуплексного голосового общения https://opennet.ru/62170/
RLHF лишь отдаленно напоминает настоящее обучение с подкреплением (RL) и не так эффективно.
Основные моменты:
RLHF использует "модель вознаграждения" (RM), обученную на человеческих оценках, а не на реальных результатах.
Оптимизация RLHF быстро находит примеры, обманывающие RM, что ограничивает длительность обучения.
В отличие от AlphaGo, использовавшего настоящее RL для игры в го, RLHF не позволяет достичь подобных результатов.
RLHF все же полезно, так как позволяет использовать преимущество "разрыва между генератором и дискриминатором" - людям легче выбрать лучший ответ, чем создать его с нуля.
RLHF также помогает уменьшить галлюцинации модели.
Карпатый заключает, что настоящее RL для языковых моделей в открытой области еще не достигнуто, но его реализация может привести к значительному прогрессу в решении разнообразных задач.
Как-то в одном из профильных чатов задали следующий вопрос: актёр в кадре говорит по-русски, но с акцентом, и при этом как избавиться от акцента, но сохранить узнаваемый голос?
Я дал подробный ответ, мне разрешили его опубликовать у себя. В целом я подметил четыре варианта:
1. Взять подписку ElevenLabs за 5 $, загрузить датасет и клонировать голос, а затем пробовать генерировать TTSкой или STSкой. Должно быть без акцента
✅ Наиболее удобный способ
✅ По времени не очень затратный способ. Войсклон можно сделать как из 5 секунд, так из 5 минут
✅ Хорошо в плане эмоций и интонаций, но не идеально
❌ Это стоит денег, причем оплата только с зарубежной карты. Если её нет — придётся муторно делать карту или искать посредников
❌ Может оказаться такое, что акцент на американский лад в букве «Р» сохранится. Это «особенность» сервиса, которая зависит от самого датасета
2. Подготовить датасет как на оригинальном английском языке, так и на русском языке с акцентом. А затем обучить для каждого датасета отдельные RVC-модели и посмотреть, что выйдет.
При этом чтобы речь звучала качественно и звучала без акцента на русском, необходимо использовать претрейн «Снежок» или недавно вышедший «Ригель». В сборке последнего я принимал участие
✅ Это бесплатно
✅ Это можно использовать абсолютно в любых целях и в неограниченном количестве
❌ Самый запарный способ. Начиная от установки локального GUI-интерфейса к себе на компьютер и заканчивая обучением модели. Об этом всём отдельная и долгая речь
❌ Возможны очевидные артефакты, особенно в районе шипящих звуков, и искажения
❌ Фактически это не TTSка, а STSка
3. Можно пойти ещё дальше — взять подписку ElevenLabs, то есть пойти по первому пути, и уже на основе генераций, сделанных благодаря этому сервису, собрать совсем новый датасет для тренировки RVC-моделей
4. Ещё можно воспользоваться сервисом Character.ai. Он позволяет создать своего ИИ-персонажа, предварительно задав ему тон, манеру общения и прочие характеристики. К нему можно также привязать голос — создать свой или выбрать уже существующий. Возможно клонировать голос из 15 секунд записи (больше нельзя, дальше просто обрезает), затем подключить его рандомному боту и попросить сказать какую-нибудь фразу
✅ Наименее затратный по времени и наименее запарный способ. Войсклон осуществляется всего из 15 секунд
✅ Неограниченная бесплатная генерация текста. Это как ChatGPT, только с подключенным голосом
✅ TTSка хороша в плане клонирования и интонаций, чем-то похожа на ElevenLabs
❌ Произношение звука нельзя контролировать
❌ Само качество звука неважное
❌ Когда даёшь боту задание сказать фразу, он может её сказать немного по-другому
В целом если есть деньги (и зарубежная карта) и не хочется особо париться — я бы взял ElevenLabs
Если хочется создать полноценно функционирующую бесплатную модель для применения в любых целях — я бы выбрал RVC
Если хочется непременно сейчас протестировать и любопытства ради узнать, как же актёр говорил бы по-русски — я бы затестил Character.ai
На статью от stability AI про TTS, который контроллируется промптом
https://arxiv.org/pdf/2402.01912
выпустили код!
https://github.com/huggingface/parler-tts
И даже несколько моделек
https://huggingface.co/parler-tts/parler_tts_mini_v0.1
https://huggingface.co/parler-tts/parler-tts-mini-expresso
Моделька довольно сильная. Очень советую попробовать.
Семпл:
prompt = "Stop it! Why do you make me do these examples? They're so generic."
description = "Alice is shouting in an angry tone with emphasis and high quality audio."
Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
💬 Комьюнити: t.me/okx_russian
👨💻 Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 2 weeks, 2 days ago
Here in simple language about TON and crypto
Founder: @metasalience
contact : @deftalk_bot
Last updated 3 months, 2 weeks ago
Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение
Ведро для спама: @ton_telegrambot
Бот с курсами криптовалют: @TonometerBot
Чат: @chaTON_ru
Админ: @filimono
Last updated 2 weeks, 4 days ago