С конца марта 2026 года Google усиливает музыкальные возможности своего чат-бота Gemini, представив обновленную модель генерации аудио под названием Lyria 3 Pro. Новая версия заметно расширяет пределы предыдущего функционала и делает генерацию музыки более гибкой и приближенной к полноценному продакшену.
Если ранее, после запуска Lyria 3, пользователи могли получать лишь короткие аудиофрагменты длительностью около 30 секунд, то теперь нейросеть способна создавать композиции продолжительностью до трех минут. При этом пользователю не требуется прописывать текст песни — достаточно задать общее настроение, темп или даже загрузить изображение в качестве референса, после чего модель самостоятельно формирует структуру трека.
Разработчики нейросети отмечают, что обновленная версия лучше интерпретирует запросы и может учитывать указания по построению композиции, включая вступления, куплеты, припевы и бриджи. Таким образом, взаимодействие с генерацией музыки становится ближе к работе с полноценным цифровым инструментом, а не к экспериментальному аудиогенератору.
На текущий момент доступ к функции ограничен: воспользоваться созданием музыки могут только платные пользователи Gemini. Запуск происходит через соответствующую опцию «Создать музыку», доступную в интерфейсе сервиса — как в веб-версии, так и в приложении.
Речь идет о внедрении системы «генерации высококачественной музыки» сразу в несколько сервисов компании, включая Vertex AI, AI Studio, Vids и Producer AI.
Следующим этапом после генерации изображений и видео становится музыка. Компания представила модель Lyria 3, которая позволяет пользователям Gemini создавать короткие аудиофрагменты длительностью до 30 секунд на основе текстовых и визуальных подсказок.
Механика взаимодействия максимально упрощена. Пользователь может начать с генерации изображения с помощью инструмента Nano Banana, после чего в интерфейсе становится доступна кнопка «Создать музыку». Система предлагает выбрать жанр из заранее заданных направлений — от рэпа 90-х до латиноамериканской поп-музыки, R&B или афропопа — либо задать параметры вручную, описав настроение, стиль, вокал и темп будущего трека.
Lyria 3 способна дополнительно формировать текст песни на основе заданного описания, включая сценарии, в которых используются изображения как источник контекста. В качестве примера Google приводит запрос, где пользователь просит создать композицию о прогулке с собакой по лесу, опираясь на загруженные фотографии. После обработки запроса Gemini генерирует 30-секундный аудиоклип, сопровождаемый визуальной обложкой, созданной Nano Banana. Полученный трек можно сохранить или отправить по ссылке.
Google подчеркивает, что задача новой технологии — вовсе не создание «музыкальных шедевров», а предоставление пользователям инструмента для свободного и оригинального самовыражения. В компании отдельно акцентируют: модель ориентирована на создание уникального контента и не предназначена для имитации существующих исполнителей. Встроенные фильтры, по заявлению разработчиков, отслеживают совпадения с уже существующими произведениями и снижают риск заимствований.
Все композиции, созданные с помощью Gemini, маркируются специальным водяным знаком Synth ID, разработанным Google. В случае сомнений пользователь может загрузить аудиофайл обратно в Gemini и получить подтверждение его происхождения.
При этом сама идея генерации музыки с использованием искусственного интеллекта уже давно перестала быть экспериментом. Платформы Suno и Udio развивают это направление несколько лет, однако их развитие сопровождалось юридическими спорами с крупнейшими музыкальными лейблами, включая Sony, Universal Music и Warner Bros. Впоследствии Suno урегулировала разногласия с Warner, а Udio достигла соглашений сразу с Warner и Universal, заключив лицензионные договоры.
Интерес к подобным технологиям проявляет и YouTube. По данным отраслевых источников, платформа рассматривает возможность лицензирования собственных ИИ-инструментов уже в 2024 году. Ранее компания представила функцию генерации плейлистов с использованием искусственного интеллекта для пользователей YouTube Premium и YouTube Music Premium, тем самым обозначив движение в сторону более глубокой интеграции ИИ в музыкальный опыт пользователей.
Функция Lyria 3 в составе Gemini начинает поэтапное распространение среди пользователей. Доступ к ней уже открыт на настольных устройствах для аудитории старше 18 лет, тогда как в мобильном приложении запуск ожидается в ближайшие дни.
На текущем этапе генерация музыки поддерживает несколько языков, включая английский, немецкий, испанский, французский, хинди, японский, корейский и португальский. В компании уточняют, что языковой список будет расширяться по мере развития технологии.
Точные ограничения для бесплатных пользователей Google не раскрывает, однако подчеркивает, что обладатели подписок AI Plus, Pro и Ultra смогут рассчитывать на более высокий объем генерации. Помимо Gemini, модель Lyria 3 интегрируется и в другие продукты экосистемы — в частности, в инструмент YouTube Dream Track, предназначенный для создания коротких видеороликов с музыкальным сопровождением.











