Cette page a été traduite par l'API Cloud Translation.

Analyser des documents (comme des PDF) à l'aide de l'API Gemini

Vous pouvez demander à un modèle Gemini d'analyser les fichiers de documents (comme les fichiers PDF et en texte brut) que vous fournissez de manière intégrée (encodés en base64) ou via une URL. Lorsque vous utilisez Firebase AI Logic, vous pouvez effectuer cette demande directement depuis votre application.

Cette fonctionnalité vous permet, entre autres, de :

Analyser des diagrammes, des graphiques et des tableaux dans des documents
Extraire des informations dans des formats de sortie structurés
Répondre à des questions sur le contenu visuel et textuel des documents
Résumer des documents
Transcrire le contenu d'un document (par exemple, au format HTML), en conservant la mise en page et la mise en forme, pour l'utiliser dans des applications en aval (par exemple, dans des pipelines RAG)

Accéder aux exemples de code Accéder au code pour les réponses en flux continu

Consultez d'autres guides pour découvrir d'autres options permettant de travailler avec des documents (comme des PDF).
Générer une sortie structurée Chat en plusieurs tours

Avant de commencer

Cliquez sur votre fournisseur Gemini API pour afficher le contenu et le code spécifiques à ce fournisseur sur cette page.

Si ce n'est pas déjà fait, suivez le guide de démarrage, qui décrit comment configurer votre projet Firebase, associer votre application à Firebase, ajouter le SDK, initialiser le service de backend pour le fournisseur Gemini API de votre choix et créer une instance GenerativeModel.

Pour tester et effectuer des itérations de vos requêtes, et même obtenir un extrait de code généré, nous vous recommandons d'utiliser Google AI Studio.

Vous avez besoin d'un exemple de fichier PDF ?

Vous pouvez utiliser ce fichier accessible au public avec un type MIME application/pdf (afficher ou télécharger le fichier). https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf

Générer du texte à partir de fichiers PDF (encodés en base64)

Avant d'essayer cet exemple, suivez la section Avant de commencer de ce guide pour configurer votre projet et votre application.
Dans cette section, vous devez également cliquer sur un bouton pour le fournisseur Gemini API de votre choix afin d'afficher le contenu spécifique à ce fournisseur sur cette page.

Vous pouvez demander à un modèle Gemini de générer du texte en fournissant du texte et des PDF comme requêtes, en indiquant le mimeType de chaque fichier d'entrée et le fichier lui-même. Vous trouverez les exigences et les recommandations concernant les fichiers d'entrée plus loin sur cette page.