Поддерживаемые входные файлы и требования

При вызове API Gemini из вашего приложения с помощью Firebase AI Logic SDK вы можете поручить модели Gemini сгенерировать текст на основе многомодальных входных данных, таких как изображения, видео и аудио, а также документы (например, PDF-файлы).

Вам необходимо использовать поддерживаемые типы файлов, указать поддерживаемый тип MIME и убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям и следуют передовым практикам.

Эта страница посвящена использованию GenerativeModel и описывает следующее:

Варианты предоставления файлов в мультимодальных запросах

Выберите поставщика API Gemini, чтобы просмотреть специфичный для поставщика контент на этой странице.

В каждом мультимодальном запросе вы всегда должны предоставить следующее:

Размер и количество файлов, которые вы можете предоставить в запросе, определяются типом входного файла, способом предоставления файла и используемой моделью (подробности см. в разделе каждого типа входного файла на этой странице).

Вариант 1 : Предоставить файл как встроенные данные

Обратите внимание на следующее относительно файлов, предоставляемых как встроенные данные:

  • В качестве встроенных данных можно отправлять только небольшие файлы, поскольку общий размер запроса ограничен 20 МБ.

  • При передаче файл кодируется в base64 (что увеличивает размер файла).

Пример, показывающий, как включить файл в качестве встроенных данных, см. в разделе Генерация текста из текстово-файлового (мультимодального) ввода . Обратите внимание, что SDK для платформ Android и Apple могут обрабатывать встроенные изображения в запросах без необходимости указывать тип MIME. Подробнее.

Вариант 2 : Предоставьте файл, используя URL-адрес

Ниже приведены допустимые типы URL-адресов при использовании API разработчика Gemini :



Изображения : требования, передовой опыт и ограничения

Изображения: Требования

В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос изображений.

Поддерживаемые типы MIME

Мультимодальные модели Gemini поддерживают следующие типы MIME изображений:

Тип MIME изображения Близнецы 2.0 Флэш Gemini 2.0 Flash‑Lite
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

Лимиты на запрос

Определенного ограничения на количество пикселей в изображении нет. Однако более крупные изображения уменьшаются и дополняются, чтобы соответствовать максимальному разрешению 3072 x 3072, сохраняя при этом исходное соотношение сторон.

Вот максимальное количество файлов изображений, разрешенных в запросе:

  • Gemini 2.0 Flash и Gemini 2.0 Flash‑Lite : 3000 изображений

Изображения: Токенизация

Вот как рассчитываются токены для изображений:

  • Gemini 2.0 Flash и Gemini 2.0 Flash‑Lite :
    • Если оба измерения изображения меньше или равны 384 пикселям, то используется 258 токенов.
    • Если одно из измерений изображения больше 384 пикселей, то изображение обрезается на плитки. Размер каждой плитки по умолчанию равен наименьшему измерению (ширине или высоте), деленному на 1,5. При необходимости каждая плитка корректируется так, чтобы она была не меньше 256 пикселей и не больше 768 пикселей. Затем каждая плитка изменяется до размера 768x768 и использует 258 токенов.

Изображения: Лучшие практики

При использовании изображений для достижения наилучших результатов используйте следующие рекомендации и информацию:

  • Если вы хотите обнаружить текст на изображении, используйте подсказки с одним изображением — это даст лучшие результаты, чем подсказки с несколькими изображениями.
  • Если ваш запрос содержит одно изображение, поместите изображение перед текстовым запросом.
  • Если ваш запрос содержит несколько изображений и вы хотите ссылаться на них позже в запросе или чтобы модель ссылалась на них в ответе модели, может быть полезно указать индекс для каждого изображения перед изображением. Используйте a b c или image 1 image 2 image 3 для вашего индекса. Ниже приведен пример использования индексированных изображений в приглашении:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Используйте изображения с более высоким разрешением; они дают лучшие результаты.
  • Включите в подсказку несколько примеров.
  • Прежде чем добавлять изображения в подсказку, поверните их в нужную ориентацию.
  • Избегайте размытых изображений.

Изображения: Ограничения

Хотя мультимодальные модели Gemini эффективны во многих мультимодальных сценариях использования, важно понимать ограничения моделей:

  • Модерация контента : Модели отказываются давать ответы на изображения, которые нарушают нашу политику безопасности.
  • Пространственное мышление : модели неточны в определении местоположения текста или объектов на изображениях. Они могут возвращать только приблизительное количество объектов.
  • Медицинское применение : модели не подходят для интерпретации медицинских изображений (например, рентгеновских снимков и КТ) или предоставления медицинских консультаций.
  • Распознавание людей : модели не предназначены для использования с целью распознавания людей, не являющихся знаменитостями на изображениях.
  • Точность : Модели могут галлюцинировать или делать ошибки при интерпретации изображений низкого качества, повернуты или с очень низким разрешением. Модели также могут галлюцинировать при интерпретации рукописного текста в документах изображений.



Видео : Требования, передовой опыт и ограничения

Видео: Требования

В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на один запрос видео.

Поддерживаемые типы MIME

Мультимодальные модели Gemini поддерживают следующие типы видео MIME:

Видео MIME-тип Близнецы 2.0 Флэш Gemini 2.0 Flash‑Lite
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

Лимиты на запрос

Вот максимальное количество видеофайлов, разрешенных в запросе:

  • Gemini 2.0 Flash и Gemini 2.0 Flash‑Lite : 10 видеофайлов

Видео: Токенизация

Вот как рассчитываются токены за видео:

  • Gemini 2.0 Flash и Gemini 2.0 Flash‑Lite : звуковая дорожка кодируется видеокадрами. Звуковая дорожка также разбивается на 1-секундные транки , каждый из которых составляет 32 токена. Видеокадр и аудиотокены чередуются вместе с их временными метками. Временные метки представлены в виде 7 токенов.
  • Все модели Gemini multimodal : Видео записывается с частотой 1 кадр в секунду (fps) . Каждый видеокадр составляет 258 токенов.

Видео: Лучшие практики

При использовании видео для достижения наилучших результатов используйте следующие рекомендации и информацию:

  • Если ваша подсказка содержит одно видео, разместите видео перед текстовой подсказкой.
  • Если вам нужна локализация временной метки в видео со звуком, попросите модель сгенерировать временные метки в формате MM:SS где первые две цифры представляют минуты, а последние две цифры представляют секунды. Используйте тот же формат для вопросов, в которых задается временная метка.

Видео: Ограничения

Хотя мультимодальные модели Gemini эффективны во многих мультимодальных сценариях использования, важно понимать ограничения моделей:

  • Модерация контента : Модели отказываются давать ответы на видео, которые нарушают нашу политику безопасности.
  • Распознавание неречевых звуков : модели, поддерживающие аудио, могут ошибаться при распознавании звуков, не являющихся речью.
  • Высокоскоростное движение : модели могут ошибаться при распознавании высокоскоростного движения на видео из-за фиксированной частоты дискретизации 1 кадр в секунду (fps) .



Аудио : Требования и ограничения

Аудио: Требования

В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос аудио.

Поддерживаемые типы MIME

Мультимодальные модели Gemini поддерживают следующие типы аудио MIME:

Тип аудио MIME Близнецы 2.0 Флэш Gemini 2.0 Flash‑Lite
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

Лимиты на запрос

В запрос на подсказку можно включить не более 1 аудиофайла .

Аудио: Ограничения

Хотя мультимодальные модели Gemini эффективны во многих мультимодальных сценариях использования, важно понимать ограничения моделей:

  • Распознавание неречевых звуков : модели, поддерживающие аудио, могут ошибаться при распознавании звуков, не являющихся речью.
  • Временные метки только для аудиофайлов : для точной генерации временных меток для файлов, содержащих только аудиофайлы, необходимо настроить параметр audio_timestamp в generation_config .



Документы (например, PDF-файлы) : требования, передовой опыт и ограничения

Документы: Требования

В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос документов (например, PDF-файлов).

Поддерживаемые типы MIME

Мультимодальные модели Gemini поддерживают следующие типы MIME документов:

Тип документа MIME Близнецы 2.0 Флэш Gemini 2.0 Flash‑Lite
PDF - application/pdf
Текст - text/plain

Лимиты на запрос

PDF-файлы обрабатываются как изображения, поэтому одна страница PDF-файла обрабатывается как одно изображение. Количество страниц, разрешенных в подсказке, ограничено количеством изображений, которые может поддерживать модель:

  • Gemini 2.0 Flash и Gemini 2.0 Flash‑Lite :
    • Максимальное количество файлов на запрос: 3000
    • Максимальное количество страниц в файле: 1000
    • Максимальный размер файла: 50 МБ

Документы: Токенизация

PDF-токенизация

PDF-файлы обрабатываются как изображения, поэтому каждая страница PDF-файла токенизируется так же, как и изображение.

Кроме того, стоимость PDF-файлов соответствует ценам на изображения Gemini . Например, если вы включаете двухстраничный PDF-файл в вызов API Gemini , вы несете плату за входные данные обработки двух изображений.

Документы: Лучшие практики

При использовании PDF-файлов для достижения наилучших результатов используйте следующие рекомендации и информацию:

  • Если ваш запрос содержит один PDF-файл, поместите PDF-файл перед текстовым запросом в вашем запросе.
  • Если у вас длинный документ, рассмотрите возможность его разделения на несколько PDF-файлов для обработки.
  • Используйте PDF-файлы, созданные с текстом, отрисованным как текст, вместо использования текста в отсканированных изображениях. Этот формат обеспечивает машинное считывание текста, что упрощает редактирование, поиск и обработку модели по сравнению с PDF-файлами отсканированных изображений. Такая практика обеспечивает оптимальные результаты при работе с документами, насыщенными текстом, такими как контракты.

Документы: Ограничения

Хотя мультимодальные модели Gemini эффективны во многих мультимодальных сценариях использования, важно понимать ограничения моделей:

  • Пространственное рассуждение : Модели неточны в определении местоположения текста или объектов в PDF-файлах. Они могут возвращать только приблизительное количество объектов.
  • Точность : Модели могут галлюцинировать при интерпретации рукописного текста в PDF-документах.