Любите Пророка, читайте салават!
https://t.me/RKadyrov_95?boost
https://t.me/boost/kadyrov_95chat
Vkontakte: https://vk.com/ramzan
Twitter: https://twitter.com/rkadyrov
Last updated 4 days, 2 hours ago
Last updated 1 month ago
вдруг осознал, что reinforcement learning — это ближайший родственник разностных уравнений.
(кстати разностные уравнения — ближайшие родственники дифференциальных уравнений)
RL policies — это всё, что у нас обычно в диффурах стоит в правой части.
а если вы говорите про higher order RL-policies (Meta RL, HRL, Multi-Level Policies, L2L, RL-policies of RL-policies), то всё это как бы — про системы дифференциальных уравнений высшего порядка.
Хотелось написать "Вот и всё." в конце.
Нет, конечно. Не всё.
Одно из главных отличий между RL и системой диффуров — RL сразу бросают в холодные пучины недифференцируемых поверхностей.
RL — это скорее про системы стохастических дифференциальнных уравнений
P.S. я выше писал, что человеческие эмоции — это просто RL-policies у нас, у кожаных мешков. Ну, вот, получилось, что эмоции — это просто производные разных порядков в системе кожаных стохастических дифференциальных уравнений.
У меня вполне внушительный опыт в программировании -- 35 лет. Писал на многих языках, и ещё на многих читал.
Вчера был второй день моей жизни, когда я весь день программировал на человеческих языках.
Боюсь, пришла эра, когда т.н. высокоуровневые языки программирования начнут уходить "под капот". Может не в той же мере, в какой ушёл под капот ассемблер, но изменение будет колоссальным, тектоническим.
Не удивлюсь, если в резюме программисты станут не стесняясь писать "язык программирования -- английский, другими не владею"
Нынешние языки программирования останутся, но станут более нишевыми профессиональными скилами, какими нынче являются знания библиотек, фреймворков и платформ.
Эра силиконовых языков капсулизируется. Гусеницы силиконовых языков превращаются в куколки.
Какие бабочки ожидаются?
Мы хотим пользоваться лучшими ИИ.
Это задаёт эволюцию в ИИ.
Лучшие модели выживают, худшие уходят в небытие.
Однако мы, люди — это очень медленный фидбек этого эволюционного RL-цикла в ИИ.
Не нужно быть семи пядей во лбу, чтобы понять, что человек вскоре будет выкинут из эволюционного цикла ИИ — чтобы модели стали круче, чтобы крутые модели появлялись раньше, чтобы специализированных моделей стало не просто больше, а чтобы их стало во намного раз больше, чем людей.
в один день мы осозна́ем, что ИИ-агенты уже эволюционируют без нас, что там уже своя атмосфера развития, и эта атмосфера понятна нам лишь кое-где — так же, как нам понятен машинный код откомпилированной программы — лишь чуть-чуть, лишь кое-где.
Эволюция ИИ еще толком не началась, но старт очень близок
предсказание следующей буквы в тексте стало ключевым в целеполагании для громадного успеха LLM.
вангую, что установка на предсказание следующих текстов в хронологически отсортированных текстах станет не меньшим потрясением.
отношение порядка для букв играет ключевую роль для развития нарратива текста. Но для понимания и предсказания того, куда мы идем в историческом масштабе важно сортировать не только буквы.
текст — это одномерная структура, а множество текстов, пусть даже отсортированных во времени — все же нет. Отчасти и поэтому, уверен, что в этом контексте опять будут востребованы идеи, которые использовали в Stable Diffusion моделях.
Каждый текст — это как цветной многомерный пиксель в историческом кино. Мы знаем приблизительно на каком кадре этого кино этот текстовый пиксель появился. А еще, в отличие от обычного кино, "цветовое" (векторное) значение этих текстовых пикселей не любит исчезать со временем.
Историческое кино как бы все время растет в своей размерности, ибо старые кадры проглядываются сквозь свежие.
а вот и вторая — о том, чем именно распоряжаются эмоциональные состояния.
довольно очевидно, что эмоциональные состояния (читайте RL-policies) — это про "казначейство" энергии, которой располагает агент. Но это лишь при первом поверхностном взгляде. Если энергия не является дефицитным для агента(*) ресурсом, то остается другой более фундаментально дефицитный ресурс.
Это истинно дефицитный ресурс — время.
Даже если у агента кроме дешевого доступа к энергии есть еще широкие возможности для дешевого распараллеливания, то все равно прогнозирование сугубо последовательных процессов будет пожирать ваш самый дефицитный ресурс — время.
Другими словами, возможно самым важным ресурсом, относительно которого происходит казначейство в "эмоциях" агента — это именно время, а лишь вслед за этим идет казначейство вычислительной материи и энергии, необходимой на вычисления.
—
() агент* — это просто термин для обозначения 'динамическая система, обособленная в своих границах относительно окружающей среды'
комрад @Silveroboros скинул мне перл. Это пример фундаментального взгляда на историю диффуров (предположительно цитата Ю.С. Ильяшенко, ноэтонеточно) :
История дифференциальных уравнений:
1 Ньютон: «Дано уравнение. Решить его»;
2 Пуанкаре: «Дано уравнение. Описать свойства его решений, не находя их, не пытаясь их вычислить»;
3. Андронов: «Не дано дифференциальное уравнение. Описать свойства его решений»;
когда вы впервые задумались о том,
что существует всего лишь 2 (два!) распространенных способа универсально задать закон распределения случайной величины?
"универсально" — то есть, не опираясь на существование моментов и не опираясь на конечность случайной величины?
Эти способы — это функция распределения (CDF) и характеристическая функция (CF)
а о том, что CF
обычно опирается на скалярное произведение евклидвого пространства, а скалярное произведение евклидового пространства — это просто частный случай скалярного произведения в гильбертовых пространствах?
Другими словами, вы можете ввести туеву хучу разных собственных скалярных произведений и "вырастить" на них свои необычные характеристические функции?
Например, вы можете положить вейвлеты в основу ваших CF
.
CDF
не требует гильбертовости, и даже не требует линейности от вашего топологического векторного пространства, т.е CDF
работает в любых векторных пространствах, где есть отношение порядка для каждой координаты. И все это за довольно символическую плату в одномерном случае: эффективная работа с CDF
потребует сортировку, т.е. вычислительная сложность будет O(n*log(n))
, где n
— это число наблюдений. В то время как для CF
вычислительная сложность будет O(n)
, но от вас потребуют полноценную гильбертовость!
Если вас спросят, что такое диффузия, то попробуйте зарядить вот такой ответ:
Diffusion is a multi-resolution multi-headed gradient descent
у сложных сущностей бывают очень простенькие скелеты. Вот вам набросок скелета:
элементарные частицы ==> атомы ==> молекулы ==> конфигурации молекул ==> тела ==> конструкции, производимые телами ==> ... ==> конфигурации высшего порядка
неустойчивые конфигурации покидают игру. Устойчивые остаются.
homo(-quasi)-sapiens — это просто этап отбора конфигураций высшего порядка, которые претендуют на устойчивость в этой фазе и в этом месте вселенной.
эти "кожаные двуногие конфигурации" показали некоторую устойчивость (жизнеспособность) на ничтожно малом (но зато позднем!) отрезке времени.
основным инструментом для сохранения устойчивости у кожаных homo(-quasi)-sapiens является способность к моделированию — ничего особенного, почти у всех представителей фауны есть эта способность — это способность создавать конфигурации внутри конфигураций. Удобная штучка: вы позволяете себе умереть в ментальной модели, чтобы понять, что в реальной вселенной не стОит делать такой же самоубийственный поступок.
Но у ходячих конфигураций homo(-quasi)-sapiens способность создавать внутри себя (ментально) потенциальные возможные конфигурации выведена на новый уровень — они уже начинают явно моделировать не только физические конфигурации, но и конфигурации высшего порядка — т.е. те конфигурации, которые "живут внутри" ходячих кожаных мешков и не только. И модели эти — явные, т.е. в этих моделях присутствует прямая способность к actor referencing — "вон тот", "вон этот", "вот эти" и, наконец, "вот этот, который Я". Очень удобная естественная штучка с точки зрения эволюции конфигураций.
Вот собственно и всё.
В последнем пункте и житие, и бытие, и сознание, и дух — и прочая хтонь, которая так удобна ~~нам~~ эволюции в отборе новых конфигураций высшего порядка.
мы — лишь временные сборки этих конфигураций
Любите Пророка, читайте салават!
https://t.me/RKadyrov_95?boost
https://t.me/boost/kadyrov_95chat
Vkontakte: https://vk.com/ramzan
Twitter: https://twitter.com/rkadyrov
Last updated 4 days, 2 hours ago
Last updated 1 month ago