XRUST.ru » Новости » Искусственный интеллект научился писать фортепианную музыку так, что люди перестали замечать разницу
Новости / Программы

Искусственный интеллект научился писать фортепианную музыку так, что люди перестали замечать разницу

26 января 2026, 13:40 2 772 0 2

Ещё несколько лет назад музыка, созданная искусственным интеллектом, легко распознавалась. Она звучала механически, шаблонно и лишённо эмоций. Даже неподготовленный слушатель мог почти сразу сказать: это написал алгоритм, а не человек. Однако новое исследование в области генерации музыки показало..

Речь идёт о научной работе «Создание фортепианной музыки с помощью трансформеров: сравнительное исследование масштаба, данных и метрик», опубликованной в рамках проекта Plain English Papers, пишет xrust. Исследование не просто описывает новую модель, а отвечает на куда более важный вопрос: что вообще означает «успех» в генерации музыки с помощью ИИ?

Музыкальный тест Тьюринга: в чём суть

Классический тест Тьюринга проверяет, способен ли компьютер обмануть человека в диалоге. В музыкальной версии всё устроено похожим образом. Участникам эксперимента дают послушать фортепианные произведения и просят определить, кем они были созданы — человеком или алгоритмом. Если слушатель не может уверенно отличить одно от другого, значит система приблизилась к человеческому уровню восприятия.

Именно этот подход стал центральным в исследовании. Учёных интересовало не соответствие формальным метрикам и не математическая точность предсказания нот, а реальное восприятие музыки людьми. Итог оказался неожиданным даже для самих авторов: лучшая модель показала точность распознавания около 50%. Проще говоря, слушатели фактически угадывали, не имея надёжных ориентиров.

Почему привычные метрики вводят в заблуждение

Долгое время качество музыкальных моделей оценивалось количественными показателями. Например, насколько точно алгоритм предсказывает следующую ноту. Такие метрики удобны: их легко измерить, сравнить и опубликовать. Но у них есть серьёзный недостаток — они почти не отражают того, как музыку воспринимает человек.

Музыка, строго следующая шаблонам, может быть технически «правильной», но при этом скучной. Настоящие композиторы часто нарушают ожидания, создают напряжение и неожиданность. С точки зрения статистики это может выглядеть как ошибка, но для слушателя именно такие моменты делают музыку живой. Исследование показало, что оптимизация по неправильным метрикам приводит к моделям, которые хорошо выглядят в отчётах, но плохо работают на практике.

Три ключевых фактора успеха

Авторы работы не пытались найти «волшебную» архитектуру. Вместо этого они систематически изучили влияние трёх факторов: размера модели, объёма и качества данных, а также стратегии обучения.

Первый фактор — масштаб модели. Были протестированы трансформеры с числом параметров от 155 до 950 миллионов. Более крупные модели действительно показывали лучшие результаты, но прирост качества быстро снижался. Каждое последующее увеличение размера давало всё меньший эффект.

Второй фактор — данные. Исследователи сравнили два принципиально разных набора. MAESTRO — небольшой, тщательно отобранный датасет высококачественной фортепианной музыки. И Aria-Deduped — огромную коллекцию из примерно 80 тысяч MIDI-файлов разных жанров, стилей и уровней качества. Несмотря на «хаотичность», именно второй набор дал лучшие результаты при прослушивании.

Третий фактор — стратегия обучения. Модели, которые сначала обучались на большом и разнообразном наборе данных, а затем донастраивались на небольшом экспертном датасете, значительно превосходили те, что обучались с нуля.

Почему разнообразие данных важнее «идеального качества»

Один из главных выводов исследования заключается в том, что разнообразие данных часто важнее их идеальной чистоты. Большой набор Aria включал музыку разных эпох, жанров и стилей. Это позволило модели уловить фундаментальные закономерности фортепианной музыки, а не заучить один конкретный формат исполнения.

Аналогию можно провести с языковыми моделями. Они учатся не на идеально отредактированных текстах, а на миллионах реальных высказываний. Именно разнообразие помогает сформировать интуицию. То же самое оказалось верно и для музыки.

Где заканчивается польза от увеличения модели

Исследование также показало, что бесконечное наращивание параметров не имеет смысла без соответствующего объёма данных. Большая модель, обученная на маленьком датасете, начинает запоминать, а не обобщать. В результате ресурсы тратятся, а качество почти не растёт.

Практический вывод прост: лучше инвестировать усилия в сбор и расширение обучающих данных, чем в бесконечное увеличение размера нейросети.

Что слышат реальные люди

Финальным и самым важным этапом стало прослушивание. Участники эксперимента оценивали фрагменты музыки, не зная, кем они были созданы. В ряде жанров искусственный интеллект достиг уровня, при котором различие с человеческой композицией практически исчезало. В других стилях разница всё ещё ощущалась, что напрямую связано с составом обучающих данных.

Важно и то, что у людей есть собственные предубеждения. Некоторые склонны считать необычную музыку результатом работы ИИ, другие — признаком человеческого гения. Поэтому 50% точности в таком тесте на самом деле является серьёзным достижением.

Главный вывод исследования

Прорыв произошёл не из-за одной удачной идеи, а благодаря системному подходу. Умеренный размер модели, максимально разнообразные данные и стратегия предварительного обучения с последующей тонкой настройкой оказались ключом к успеху.

Этот вывод применим не только к музыке. Он актуален для всех задач, где требуется генерация сложных последовательностей: текста, кода, речи и других форм цифрового творчества. Искусственный интеллект всё ближе подходит к тому моменту, когда различие между машинным и человеческим творчеством станет неочевидным.

Xrust: Искусственный интеллект научился писать фортепианную музыку так, что люди перестали замечать разницу

искусственный интеллект создает музыку, нейросеть для генерации музыки, музыкальный тест Тьюринга, искусственный интеллект и фортепиано, генерация музыки ИИ, трансформеры в музыке

Поделится
2 0

Комментарии


Компания Samsung скоро представит свою адаптивную функцию защиты конфиденциальности на смартфонах Galaxy
Компания Samsung опубликовала тизер, демонстрирующий встроенную адаптивную систему защиты конфиденциальности. Она скоро появится во флагманских моделях Galaxy S26. В отличие от стандартных систем защиты конфиденциальности, можно будет выбирать, какая часть экрана будет скрыта от посторонних глаз. Новая технология Samsung для обеспечения конфиденциальности на экранах. Если вы не знакомы с защитными экранами, вот как они обычно работают: на микроскопическом уровне эти панели имеют микрорешетки, которые физически блокируют прохождение света под определенными углами. На практике это означает, что пользователям необходимо смотреть на дисплей прямо, чтобы четко видеть содержимое экрана, в то время как те, кто смотрит под углом, ничего не увидят. Хотя Samsung еще не уточнила, как будет работать ее технология, вероятно, она основана на аналогичных принципах, регулируя излучение света в режиме реального времени. По информации инсайдера Ice Universe в Twitter производитель смартфонов пошел еще
2 457 8