Voice stuff

Description
Канал про голосовые технологии.

Чат группы @voice_stuff_chat

Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом.
Контакт: @frappuccino_o
Advertising
We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

? Комьюнити: t.me/okx_russian

?‍? Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 2 weeks, 3 days ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 1 month ago

#1 канал о блокчейне, криптовалютах и децентрализованных финансах.

🔥 Реклама — @DCTeam

Last updated 8 hours ago

1 month, 3 weeks ago
Voice stuff
1 month, 3 weeks ago
**PeriodWave. Дифузионный вокодер.**

PeriodWave. Дифузионный вокодер.

Судя по цифрам моделька очень и очень мощная. Код пока не зарелизили, но обещают в скором времени.

https://arxiv.org/abs/2408.07547

https://arxiv.org/abs/2408.08019

Код обещают выложить вот здесь

https://github.com/sh-lee-prml/PeriodWave

1 month, 3 weeks ago
Voice stuff
1 month, 4 weeks ago

Привет господа и господамы ?

Сегодня будет необычный стрим с кликбейтным названием, миллион у нас на команду моего с Димой стартапа Audio2MIDI) На стриме я буду гостем и поделюсь своей историей со временен, когда я был бекендером и отвечу на вопросы. Дальше меня будут чаще звать на такие мероприятия, но ничего бы не было без моего учителя. Есть у меня человек, без которого вероятно я бы не стал программистом, а потом ML инженером/ресерчером. Не стал бы вести этот канал и не стал бы преподавать. Мы знакомы 5й год и человек, который дал мне выйти в мир ИТ ~~print("Hello world!')~~ это Михаил Омельченко.

Стрим будет в 20:00

YouTube

Путь от backend к ML и миллион на стартап в 17 лет | Михаил Омельченко и Захар Варфоломеев

На стриме обсудим: ***➡️***Переход из бекенда в машинное обучение ***➡️***Как Захар развивался в ML с 15 лет ***➡️***Значимость общения со специалистами в различных сообществах ***➡️***Что не понравилось в процессе изучения ***➡️***Преподавание ML в 17 лет ***➡️***Захар занимается ML для обработки…

Привет господа и господамы ***?***
2 months ago

RLHF лишь отдаленно напоминает настоящее обучение с подкреплением (RL) и не так эффективно.

Основные моменты:

  1. RLHF использует "модель вознаграждения" (RM), обученную на человеческих оценках, а не на реальных результатах.

  2. Оптимизация RLHF быстро находит примеры, обманывающие RM, что ограничивает длительность обучения.

  3. В отличие от AlphaGo, использовавшего настоящее RL для игры в го, RLHF не позволяет достичь подобных результатов.

  4. RLHF все же полезно, так как позволяет использовать преимущество "разрыва между генератором и дискриминатором" - людям легче выбрать лучший ответ, чем создать его с нуля.

  5. RLHF также помогает уменьшить галлюцинации модели.

Карпатый заключает, что настоящее RL для языковых моделей в открытой области еще не достигнуто, но его реализация может привести к значительному прогрессу в решении разнообразных задач.

https://x.com/karpathy/status/1821277264996352246

2 months ago

Как-то в одном из профильных чатов задали следующий вопрос: актёр в кадре говорит по-русски, но с акцентом, и при этом как избавиться от акцента, но сохранить узнаваемый голос?

Я дал подробный ответ, мне разрешили его опубликовать у себя. В целом я подметил четыре варианта:

1. Взять подписку ElevenLabs за 5 $, загрузить датасет и клонировать голос, а затем пробовать генерировать TTSкой или STSкой. Должно быть без акцента

Наиболее удобный способ
По времени не очень затратный способ. Войсклон можно сделать как из 5 секунд, так из 5 минут
Хорошо в плане эмоций и интонаций, но не идеально

Это стоит денег, причем оплата только с зарубежной карты. Если её нет — придётся муторно делать карту или искать посредников
Может оказаться такое, что акцент на американский лад в букве «Р» сохранится. Это «особенность» сервиса, которая зависит от самого датасета

2. Подготовить датасет как на оригинальном английском языке, так и на русском языке с акцентом. А затем обучить для каждого датасета отдельные RVC-модели и посмотреть, что выйдет.

При этом чтобы речь звучала качественно и звучала без акцента на русском, необходимо использовать претрейн «Снежок» или недавно вышедший «Ригель». В сборке последнего я принимал участие

Это бесплатно
Это можно использовать абсолютно в любых целях и в неограниченном количестве

Самый запарный способ. Начиная от установки локального GUI-интерфейса к себе на компьютер и заканчивая обучением модели. Об этом всём отдельная и долгая речь
Возможны очевидные артефакты, особенно в районе шипящих звуков, и искажения
Фактически это не TTSка, а STSка

3. Можно пойти ещё дальше — взять подписку ElevenLabs, то есть пойти по первому пути, и уже на основе генераций, сделанных благодаря этому сервису, собрать совсем новый датасет для тренировки RVC-моделей

4. Ещё можно воспользоваться сервисом Character.ai. Он позволяет создать своего ИИ-персонажа, предварительно задав ему тон, манеру общения и прочие характеристики. К нему можно также привязать голос — создать свой или выбрать уже существующий. Возможно клонировать голос из 15 секунд записи (больше нельзя, дальше просто обрезает), затем подключить его рандомному боту и попросить сказать какую-нибудь фразу

Наименее затратный по времени и наименее запарный способ. Войсклон осуществляется всего из 15 секунд
Неограниченная бесплатная генерация текста. Это как ChatGPT, только с подключенным голосом
TTSка хороша в плане клонирования и интонаций, чем-то похожа на ElevenLabs

Произношение звука нельзя контролировать
Само качество звука неважное
Когда даёшь боту задание сказать фразу, он может её сказать немного по-другому

В целом если есть деньги (и зарубежная карта) и не хочется особо париться — я бы взял ElevenLabs

Если хочется создать полноценно функционирующую бесплатную модель для применения в любых целях — я бы выбрал RVC

Если хочется непременно сейчас протестировать и любопытства ради узнать, как же актёр говорил бы по-русски — я бы затестил Character.ai

4 months, 3 weeks ago

На статью от stability AI про TTS, который контроллируется промптом

https://arxiv.org/pdf/2402.01912

выпустили код!

https://github.com/huggingface/parler-tts

И даже несколько моделек
https://huggingface.co/parler-tts/parler_tts_mini_v0.1
https://huggingface.co/parler-tts/parler-tts-mini-expresso

Моделька довольно сильная. Очень советую попробовать.

Семпл:
prompt = "Stop it! Why do you make me do these examples? They're so generic."
description = "Alice is shouting in an angry tone with emphasis and high quality audio."

5 months ago

RUNorm v1 - открытый русскоязычный нормализатор текста перед TTS.

Примерно месяц назад был открытый бета-тест RUNorm в телеграм-боте. С этого момента было много экспериментов с тэггером и нормализатором. Отдельная модель для нормализации чисел была удалена.

Был обновлен набор моделей, теперь их 3:
- RUNorm_big (FRED-T5_LARGE 860M параметров)
- RUNorm_medium (ruT5-base 222M параметров)
- RUNorm_small (FRED-T5-95M. Дистиллят большой модели. 95M параметров)

Как и на чем обучались модели?

Изначально, датасет состоял из очень грязных данных, частично написанных руками, частично размеченных chatGPT. После, был обучен FRED-T5-1.7B. Потом взял большой текстовый датасет (pikabu) и регуляркой вытащил предложения, где предположительно должны быть сокращения и прогнал через этого фреда.

Идея пайплайна для чисел была взята отсюда, но с небольшими доработками, в виде нормализации чисел еще до подачи в модель. Таким образом, модели не обязательно знать, как число перевести в текст, остается только склонить.

Модель для английских слов училась транслитерировать небольшие последовательности из разных английских слов в русские. Датасет также полусинтетический, часть размечена руками, часть взята из датасета с соревы от гугла на каггле, часть размечена chatGPT.

За основу датасета модели-тэггер был взят тот же с соревы гугла по нормализации текста, но с небольшим обогащением сокращениями.

Модели можно потыкать тут: ссылка
GitHub: ссылка

P.S Возможна некоторая деградация качества для больших чисел, постараюсь поправить в будущих релизах.

@den4ikresearch

5 months ago

https://x.com/taras_y_sereda/status/1786727753200410833?s=46&t=7jwH29MvU0R301CgvqVBYw

X (formerly Twitter)

taras sereda (@taras_y_sereda) on X

Last month I was invited to give lectures on TTS modelling at @ucu\_apps Happy to share my lecture notes. I cover classics as well as modern approaches in auto-regressive and parallel sequence modelling, neural codecs and discrete speech representations.

6 months, 3 weeks ago

Google Scholar search: "certainly, here is" -chatgpt -llm (? Score: 150+ in 3 hours)

Link: https://readhacker.news/s/64gaF
Comments: https://readhacker.news/c/64gaF

simonwillison.net

Google Scholar search: “certainly, here is” -chatgpt -llm

Searching Google Scholar for "certainly, here is" turns up a huge number of academic papers that include parts that were evidently written by ChatGPT - sections that start with "Certainly, …

We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

? Комьюнити: t.me/okx_russian

?‍? Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 2 weeks, 3 days ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 1 month ago

#1 канал о блокчейне, криптовалютах и децентрализованных финансах.

🔥 Реклама — @DCTeam

Last updated 8 hours ago