Эта страница переведена с помощью Cloud Translation API.

Анализируйте видеофайлы с помощью Gemini API.

Вы можете попросить модель Gemini проанализировать видеофайлы, которые вы предоставляете либо в строке (в кодировке base64), либо через URL. При использовании Firebase AI Logic вы можете сделать этот запрос непосредственно из своего приложения.

Благодаря этой возможности вы можете делать следующее:

Субтитры и ответы на вопросы о видео
Анализируйте определенные фрагменты видео с помощью временных меток
Транскрибируйте видеоконтент, обрабатывая как звуковую дорожку, так и визуальные кадры.
Описывать, сегментировать и извлекать информацию из видео, включая как звуковую дорожку, так и визуальные кадры.

Перейти к примерам кода Перейти к коду для потоковых ответов

Дополнительные возможности работы с видео см. в других руководствах.
Генерация структурированного вывода Многопоточный чат

Прежде чем начать

Щелкните своего поставщика API Gemini , чтобы просмотреть специфичный для этого поставщика контент и код на этой странице.

Если вы еще этого не сделали, ознакомьтесь с руководством по началу работы , в котором описывается, как настроить проект Firebase, подключить приложение к Firebase, добавить SDK, инициализировать внутреннюю службу для выбранного поставщика API Gemini и создать экземпляр GenerativeModel .

Для тестирования и итерации ваших подсказок и даже получения сгенерированного фрагмента кода мы рекомендуем использовать Google AI Studio .

Нужен пример видеофайла?

Вы можете использовать этот общедоступный файл с MIME-типом video/mp4 ( просмотреть или загрузить файл ). https://storage.googleapis.com/cloud-samples-data/video/animals.mp4

Генерация текста из видеофайлов (в кодировке base64)

Прежде чем приступить к работе с этим примером, выполните действия, описанные в разделе «Перед началом работы» данного руководства, чтобы настроить свой проект и приложение.
В этом разделе вы также нажмете кнопку для выбранного вами поставщика API Gemini , чтобы увидеть на этой странице контент, специфичный для этого поставщика .

Вы можете попросить модель Gemini сгенерировать текст, используя подсказки с текстом и видео, указав mimeType каждого входного файла и сам файл. Требования и рекомендации для входных файлов вы найдете далее на этой странице.

Обратите внимание, что в этом примере показано предоставление встроенного файла, но SDK также поддерживают предоставление URL-адреса YouTube .