Ещё несколько лет назад музыка, созданная искусственным интеллектом, легко распознавалась. Она звучала механически, шаблонно и лишённо эмоций. Даже неподготовленный слушатель мог почти сразу сказать: это написал алгоритм, а не человек. Однако новое исследование в области генерации музыки показало..
Речь идёт о научной работе «Создание фортепианной музыки с помощью трансформеров: сравнительное исследование масштаба, данных и метрик», опубликованной в рамках проекта Plain English Papers, пишет xrust. Исследование не просто описывает новую модель, а отвечает на куда более важный вопрос: что вообще означает «успех» в генерации музыки с помощью ИИ?
Классический тест Тьюринга проверяет, способен ли компьютер обмануть человека в диалоге. В музыкальной версии всё устроено похожим образом. Участникам эксперимента дают послушать фортепианные произведения и просят определить, кем они были созданы — человеком или алгоритмом. Если слушатель не может уверенно отличить одно от другого, значит система приблизилась к человеческому уровню восприятия.
Именно этот подход стал центральным в исследовании. Учёных интересовало не соответствие формальным метрикам и не математическая точность предсказания нот, а реальное восприятие музыки людьми. Итог оказался неожиданным даже для самих авторов: лучшая модель показала точность распознавания около 50%. Проще говоря, слушатели фактически угадывали, не имея надёжных ориентиров.
Долгое время качество музыкальных моделей оценивалось количественными показателями. Например, насколько точно алгоритм предсказывает следующую ноту. Такие метрики удобны: их легко измерить, сравнить и опубликовать. Но у них есть серьёзный недостаток — они почти не отражают того, как музыку воспринимает человек.
Музыка, строго следующая шаблонам, может быть технически «правильной», но при этом скучной. Настоящие композиторы часто нарушают ожидания, создают напряжение и неожиданность. С точки зрения статистики это может выглядеть как ошибка, но для слушателя именно такие моменты делают музыку живой. Исследование показало, что оптимизация по неправильным метрикам приводит к моделям, которые хорошо выглядят в отчётах, но плохо работают на практике.
Авторы работы не пытались найти «волшебную» архитектуру. Вместо этого они систематически изучили влияние трёх факторов: размера модели, объёма и качества данных, а также стратегии обучения.
Первый фактор — масштаб модели. Были протестированы трансформеры с числом параметров от 155 до 950 миллионов. Более крупные модели действительно показывали лучшие результаты, но прирост качества быстро снижался. Каждое последующее увеличение размера давало всё меньший эффект.
Второй фактор — данные. Исследователи сравнили два принципиально разных набора. MAESTRO — небольшой, тщательно отобранный датасет высококачественной фортепианной музыки. И Aria-Deduped — огромную коллекцию из примерно 80 тысяч MIDI-файлов разных жанров, стилей и уровней качества. Несмотря на «хаотичность», именно второй набор дал лучшие результаты при прослушивании.
Третий фактор — стратегия обучения. Модели, которые сначала обучались на большом и разнообразном наборе данных, а затем донастраивались на небольшом экспертном датасете, значительно превосходили те, что обучались с нуля.
Один из главных выводов исследования заключается в том, что разнообразие данных часто важнее их идеальной чистоты. Большой набор Aria включал музыку разных эпох, жанров и стилей. Это позволило модели уловить фундаментальные закономерности фортепианной музыки, а не заучить один конкретный формат исполнения.
Аналогию можно провести с языковыми моделями. Они учатся не на идеально отредактированных текстах, а на миллионах реальных высказываний. Именно разнообразие помогает сформировать интуицию. То же самое оказалось верно и для музыки.
Исследование также показало, что бесконечное наращивание параметров не имеет смысла без соответствующего объёма данных. Большая модель, обученная на маленьком датасете, начинает запоминать, а не обобщать. В результате ресурсы тратятся, а качество почти не растёт.
Практический вывод прост: лучше инвестировать усилия в сбор и расширение обучающих данных, чем в бесконечное увеличение размера нейросети.
Финальным и самым важным этапом стало прослушивание. Участники эксперимента оценивали фрагменты музыки, не зная, кем они были созданы. В ряде жанров искусственный интеллект достиг уровня, при котором различие с человеческой композицией практически исчезало. В других стилях разница всё ещё ощущалась, что напрямую связано с составом обучающих данных.
Важно и то, что у людей есть собственные предубеждения. Некоторые склонны считать необычную музыку результатом работы ИИ, другие — признаком человеческого гения. Поэтому 50% точности в таком тесте на самом деле является серьёзным достижением.
Прорыв произошёл не из-за одной удачной идеи, а благодаря системному подходу. Умеренный размер модели, максимально разнообразные данные и стратегия предварительного обучения с последующей тонкой настройкой оказались ключом к успеху.
Этот вывод применим не только к музыке. Он актуален для всех задач, где требуется генерация сложных последовательностей: текста, кода, речи и других форм цифрового творчества. Искусственный интеллект всё ближе подходит к тому моменту, когда различие между машинным и человеческим творчеством станет неочевидным.
Xrust: Искусственный интеллект научился писать фортепианную музыку так, что люди перестали замечать разницу