Эта страница переведена с помощью Cloud Translation API.

Анализируйте документы (например, PDF-файлы) с помощью Gemini API.

Вы можете попросить модель Gemini проанализировать файлы документов (например, PDF-файлы и файлы с обычным текстом), которые вы предоставляете либо в виде встроенных файлов (в кодировке base64), либо через URL. При использовании Firebase AI Logic вы можете сделать этот запрос непосредственно из своего приложения.

Благодаря этой возможности вы можете делать следующее:

Анализируйте диаграммы, графики и таблицы внутри документов
Извлечение информации в структурированные выходные форматы
Ответьте на вопросы о визуальном и текстовом содержании документов
Обобщение документов
Транскрибировать содержимое документа (например, в HTML), сохраняя макеты и форматирование, для использования в последующих приложениях (например, в конвейерах RAG)

Перейти к примерам кода Перейти к коду для потоковых ответов

Дополнительные возможности работы с документами (например, PDF-файлами) см. в других руководствах.
Генерация структурированного вывода Многопоточный чат

Прежде чем начать

Щелкните своего поставщика API Gemini , чтобы просмотреть специфичный для этого поставщика контент и код на этой странице.

Если вы еще этого не сделали, ознакомьтесь с руководством по началу работы , в котором описывается, как настроить проект Firebase, подключить приложение к Firebase, добавить SDK, инициализировать внутреннюю службу для выбранного поставщика API Gemini и создать экземпляр GenerativeModel .

Для тестирования и итерации ваших подсказок и даже получения сгенерированного фрагмента кода мы рекомендуем использовать Google AI Studio .

Нужен образец PDF-файла?

Вы можете использовать этот общедоступный файл с MIME-типом application/pdf ( просмотреть или загрузить файл ). https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf

Генерация текста из PDF-файлов (в кодировке base64)

Прежде чем приступить к работе с этим примером, выполните действия, описанные в разделе «Перед началом работы» данного руководства, чтобы настроить свой проект и приложение.
В этом разделе вы также нажмете кнопку для выбранного вами поставщика API Gemini , чтобы увидеть на этой странице контент, специфичный для этого поставщика .

Вы можете попросить модель Gemini сгенерировать текст, задавая подсказки с текстом и PDF-файлами, предоставляя mimeType каждого входного файла и сам файл. Требования и рекомендации для входных файлов вы найдете далее на этой странице.