Эта страница переведена с помощью Cloud Translation API.

Анализируйте аудиофайлы с помощью Gemini API.

Вы можете попросить модель Gemini проанализировать аудиофайлы, которые вы предоставляете либо в строке (в кодировке base64), либо через URL. При использовании Firebase AI Logic вы можете сделать этот запрос непосредственно из своего приложения.

Благодаря этой возможности вы можете делать следующее:

Опишите, обобщите или ответьте на вопросы об аудиоконтенте
Транскрибировать аудиоконтент
Анализируйте определенные фрагменты аудио с использованием временных меток

Перейти к примерам кода Перейти к коду для потоковых ответов

Дополнительные возможности работы со звуком см. в других руководствах.
Генерация структурированного вывода Многопоточный чат Двунаправленная потоковая передача

Прежде чем начать

Щелкните своего поставщика API Gemini , чтобы просмотреть специфичный для этого поставщика контент и код на этой странице.

Если вы еще этого не сделали, ознакомьтесь с руководством по началу работы , в котором описывается, как настроить проект Firebase, подключить приложение к Firebase, добавить SDK, инициализировать внутреннюю службу для выбранного поставщика API Gemini и создать экземпляр GenerativeModel .

Для тестирования и итерации ваших подсказок и даже получения сгенерированного фрагмента кода мы рекомендуем использовать Google AI Studio .

Нужен образец аудиофайла?

Вы можете использовать этот общедоступный файл с MIME-типом audio/mp3 ( просмотреть или загрузить файл ). https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3

Генерация текста из аудиофайлов (в кодировке base64)

Прежде чем приступить к работе с этим примером, выполните действия, описанные в разделе «Перед началом работы» данного руководства, чтобы настроить свой проект и приложение.
В этом разделе вы также нажмете кнопку для выбранного вами поставщика API Gemini , чтобы увидеть на этой странице контент, специфичный для этого поставщика .

Вы можете попросить модель Gemini сгенерировать текст, используя подсказки с текстом и аудио, указав mimeType входного файла и сам файл. Требования и рекомендации для входных файлов вы найдете далее на этой странице.