Voice stuff / Cryptocurrencies / Telegram Index

Open in telegram

☆☆☆☆☆

⚑ Report channel

1,266 @voicestuff

Description

Канал про голосовые технологии.

Чат группы @voice_stuff_chat

Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом.
Контакт: @frappuccino_o

Advertising

We recommend to visit

OKX Новости

8,949,438 @okx_ru

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 2 weeks, 2 days ago

Meta Silense TON

6,350,079 @tonmetasilense

Here in simple language about TON and crypto

Founder: @metasalience
contact : @deftalk_bot

Last updated 3 months, 2 weeks ago

Дайте TON!

4,591,170 @givemetonru

Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение

Ведро для спама: @ton_telegrambot

Бот с курсами криптовалют: @TonometerBot

Чат: @chaTON_ru

Админ: @filimono

Last updated 2 weeks, 4 days ago

1 month, 1 week ago

292 #

1 month, 2 weeks ago

588 #

1 month, 2 weeks ago

Опубликована открытая AI-модель hertz-dev для полнодуплексного голосового общения https://opennet.ru/62170/

744 #

4 months, 2 weeks ago

RLHF лишь отдаленно напоминает настоящее обучение с подкреплением (RL) и не так эффективно.

Основные моменты:

RLHF использует "модель вознаграждения" (RM), обученную на человеческих оценках, а не на реальных результатах.
Оптимизация RLHF быстро находит примеры, обманывающие RM, что ограничивает длительность обучения.
В отличие от AlphaGo, использовавшего настоящее RL для игры в го, RLHF не позволяет достичь подобных результатов.
RLHF все же полезно, так как позволяет использовать преимущество "разрыва между генератором и дискриминатором" - людям легче выбрать лучший ответ, чем создать его с нуля.
RLHF также помогает уменьшить галлюцинации модели.

Карпатый заключает, что настоящее RL для языковых моделей в открытой области еще не достигнуто, но его реализация может привести к значительному прогрессу в решении разнообразных задач.

https://x.com/karpathy/status/1821277264996352246

658 #

4 months, 3 weeks ago

Как-то в одном из профильных чатов задали следующий вопрос: актёр в кадре говорит по-русски, но с акцентом, и при этом как избавиться от акцента, но сохранить узнаваемый голос?

Я дал подробный ответ, мне разрешили его опубликовать у себя. В целом я подметил четыре варианта:

1. Взять подписку ElevenLabs за 5 $, загрузить датасет и клонировать голос, а затем пробовать генерировать TTSкой или STSкой. Должно быть без акцента

✅ Наиболее удобный способ
✅ По времени не очень затратный способ. Войсклон можно сделать как из 5 секунд, так из 5 минут
✅ Хорошо в плане эмоций и интонаций, но не идеально

❌ Это стоит денег, причем оплата только с зарубежной карты. Если её нет — придётся муторно делать карту или искать посредников
❌ Может оказаться такое, что акцент на американский лад в букве «Р» сохранится. Это «особенность» сервиса, которая зависит от самого датасета

2. Подготовить датасет как на оригинальном английском языке, так и на русском языке с акцентом. А затем обучить для каждого датасета отдельные RVC-модели и посмотреть, что выйдет.

При этом чтобы речь звучала качественно и звучала без акцента на русском, необходимо использовать претрейн «Снежок» или недавно вышедший «Ригель». В сборке последнего я принимал участие

✅ Это бесплатно
✅ Это можно использовать абсолютно в любых целях и в неограниченном количестве

❌ Самый запарный способ. Начиная от установки локального GUI-интерфейса к себе на компьютер и заканчивая обучением модели. Об этом всём отдельная и долгая речь
❌ Возможны очевидные артефакты, особенно в районе шипящих звуков, и искажения
❌ Фактически это не TTSка, а STSка

3. Можно пойти ещё дальше — взять подписку ElevenLabs, то есть пойти по первому пути, и уже на основе генераций, сделанных благодаря этому сервису, собрать совсем новый датасет для тренировки RVC-моделей

4. Ещё можно воспользоваться сервисом Character.ai. Он позволяет создать своего ИИ-персонажа, предварительно задав ему тон, манеру общения и прочие характеристики. К нему можно также привязать голос — создать свой или выбрать уже существующий. Возможно клонировать голос из 15 секунд записи (больше нельзя, дальше просто обрезает), затем подключить его рандомному боту и попросить сказать какую-нибудь фразу

✅ Наименее затратный по времени и наименее запарный способ. Войсклон осуществляется всего из 15 секунд
✅ Неограниченная бесплатная генерация текста. Это как ChatGPT, только с подключенным голосом
✅ TTSка хороша в плане клонирования и интонаций, чем-то похожа на ElevenLabs

❌ Произношение звука нельзя контролировать
❌ Само качество звука неважное
❌ Когда даёшь боту задание сказать фразу, он может её сказать немного по-другому

В целом если есть деньги (и зарубежная карта) и не хочется особо париться — я бы взял ElevenLabs

Если хочется создать полноценно функционирующую бесплатную модель для применения в любых целях — я бы выбрал RVC

Если хочется непременно сейчас протестировать и любопытства ради узнать, как же актёр говорил бы по-русски — я бы затестил Character.ai

634 #

7 months, 1 week ago

На статью от stability AI про TTS, который контроллируется промптом

https://arxiv.org/pdf/2402.01912

выпустили код!

https://github.com/huggingface/parler-tts

И даже несколько моделек
https://huggingface.co/parler-tts/parler_tts_mini_v0.1
https://huggingface.co/parler-tts/parler-tts-mini-expresso

Моделька довольно сильная. Очень советую попробовать.

Семпл:
prompt = "Stop it! Why do you make me do these examples? They're so generic."
description = "Alice is shouting in an angry tone with emphasis and high quality audio."

590 #