XRUST.ru » Новости » Искусственный интеллект научился писать фортепианную музыку так, что люди перестали замечать разницу
Новости / Программы

Искусственный интеллект научился писать фортепианную музыку так, что люди перестали замечать разницу

26 января 2026, 13:40 7 371 0 8

Ещё несколько лет назад музыка, созданная искусственным интеллектом, легко распознавалась. Она звучала механически, шаблонно и лишённо эмоций. Даже неподготовленный слушатель мог почти сразу сказать: это написал алгоритм, а не человек. Однако новое исследование в области генерации музыки показало..

Речь идёт о научной работе «Создание фортепианной музыки с помощью трансформеров: сравнительное исследование масштаба, данных и метрик», опубликованной в рамках проекта Plain English Papers, пишет xrust. Исследование не просто описывает новую модель, а отвечает на куда более важный вопрос: что вообще означает «успех» в генерации музыки с помощью ИИ?

Музыкальный тест Тьюринга: в чём суть

Классический тест Тьюринга проверяет, способен ли компьютер обмануть человека в диалоге. В музыкальной версии всё устроено похожим образом. Участникам эксперимента дают послушать фортепианные произведения и просят определить, кем они были созданы — человеком или алгоритмом. Если слушатель не может уверенно отличить одно от другого, значит система приблизилась к человеческому уровню восприятия.

Именно этот подход стал центральным в исследовании. Учёных интересовало не соответствие формальным метрикам и не математическая точность предсказания нот, а реальное восприятие музыки людьми. Итог оказался неожиданным даже для самих авторов: лучшая модель показала точность распознавания около 50%. Проще говоря, слушатели фактически угадывали, не имея надёжных ориентиров.

Почему привычные метрики вводят в заблуждение

Долгое время качество музыкальных моделей оценивалось количественными показателями. Например, насколько точно алгоритм предсказывает следующую ноту. Такие метрики удобны: их легко измерить, сравнить и опубликовать. Но у них есть серьёзный недостаток — они почти не отражают того, как музыку воспринимает человек.

Музыка, строго следующая шаблонам, может быть технически «правильной», но при этом скучной. Настоящие композиторы часто нарушают ожидания, создают напряжение и неожиданность. С точки зрения статистики это может выглядеть как ошибка, но для слушателя именно такие моменты делают музыку живой. Исследование показало, что оптимизация по неправильным метрикам приводит к моделям, которые хорошо выглядят в отчётах, но плохо работают на практике.

Три ключевых фактора успеха

Авторы работы не пытались найти «волшебную» архитектуру. Вместо этого они систематически изучили влияние трёх факторов: размера модели, объёма и качества данных, а также стратегии обучения.

Первый фактор — масштаб модели. Были протестированы трансформеры с числом параметров от 155 до 950 миллионов. Более крупные модели действительно показывали лучшие результаты, но прирост качества быстро снижался. Каждое последующее увеличение размера давало всё меньший эффект.

Второй фактор — данные. Исследователи сравнили два принципиально разных набора. MAESTRO — небольшой, тщательно отобранный датасет высококачественной фортепианной музыки. И Aria-Deduped — огромную коллекцию из примерно 80 тысяч MIDI-файлов разных жанров, стилей и уровней качества. Несмотря на «хаотичность», именно второй набор дал лучшие результаты при прослушивании.

Третий фактор — стратегия обучения. Модели, которые сначала обучались на большом и разнообразном наборе данных, а затем донастраивались на небольшом экспертном датасете, значительно превосходили те, что обучались с нуля.

Почему разнообразие данных важнее «идеального качества»

Один из главных выводов исследования заключается в том, что разнообразие данных часто важнее их идеальной чистоты. Большой набор Aria включал музыку разных эпох, жанров и стилей. Это позволило модели уловить фундаментальные закономерности фортепианной музыки, а не заучить один конкретный формат исполнения.

Аналогию можно провести с языковыми моделями. Они учатся не на идеально отредактированных текстах, а на миллионах реальных высказываний. Именно разнообразие помогает сформировать интуицию. То же самое оказалось верно и для музыки.

Где заканчивается польза от увеличения модели

Исследование также показало, что бесконечное наращивание параметров не имеет смысла без соответствующего объёма данных. Большая модель, обученная на маленьком датасете, начинает запоминать, а не обобщать. В результате ресурсы тратятся, а качество почти не растёт.

Практический вывод прост: лучше инвестировать усилия в сбор и расширение обучающих данных, чем в бесконечное увеличение размера нейросети.

Что слышат реальные люди

Финальным и самым важным этапом стало прослушивание. Участники эксперимента оценивали фрагменты музыки, не зная, кем они были созданы. В ряде жанров искусственный интеллект достиг уровня, при котором различие с человеческой композицией практически исчезало. В других стилях разница всё ещё ощущалась, что напрямую связано с составом обучающих данных.

Важно и то, что у людей есть собственные предубеждения. Некоторые склонны считать необычную музыку результатом работы ИИ, другие — признаком человеческого гения. Поэтому 50% точности в таком тесте на самом деле является серьёзным достижением.

Главный вывод исследования

Прорыв произошёл не из-за одной удачной идеи, а благодаря системному подходу. Умеренный размер модели, максимально разнообразные данные и стратегия предварительного обучения с последующей тонкой настройкой оказались ключом к успеху.

Этот вывод применим не только к музыке. Он актуален для всех задач, где требуется генерация сложных последовательностей: текста, кода, речи и других форм цифрового творчества. Искусственный интеллект всё ближе подходит к тому моменту, когда различие между машинным и человеческим творчеством станет неочевидным.

Xrust: Искусственный интеллект научился писать фортепианную музыку так, что люди перестали замечать разницу

искусственный интеллект создает музыку, нейросеть для генерации музыки, музыкальный тест Тьюринга, искусственный интеллект и фортепиано, генерация музыки ИИ, трансформеры в музыке

Поделится
8 0

Комментарии


Японский банковский сектор перед лицом Mythos: щит или меч?
В апреле 2026 года мировая финансовая элита оказалась в состоянии повышенной готовности, пишет xrust. Поводом для экстренных консультаций стала модель искусственного интеллекта Mythos от компании Anthropic PBC. В Японии ситуация приняла официальный оборот: министр финансов Сацуки Катаяма инициировала серию встреч с руководством крупнейших финансовых групп страны — Mitsubishi UFJ, Sumitomo Mitsui и Mizuho. В чем уникальность Mythos? В отличие от предыдущих поколений ИИ, Mythos обладает беспрецедентными способностями к анализу кода и поиску уязвимостей «нулевого дня». Для банков это означает, что традиционные системы киберзащиты могут стать прозрачными для интеллектуальных атак нового типа. Именно эта «двуликость» технологии — способность как находить дыры в безопасности, так и использоваться для их эксплуатации — заставила регуляторов во всем мире, от США до Японии, начать разработку новых протоколов безопасности. Финансово-экономические перспективы Для японской банковской системы
798 1