The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

All Imagen models will shut down as early as June 30, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Unterstützte Eingabedateien und Anforderungen

Wenn Sie die Gemini API über ein Firebase AI Logic SDK aus Ihrer App aufrufen, können Sie das Gemini Modell auffordern, Text basierend auf einer multimodalen Eingabe wie Bildern, Videos, Audiodateien und Dokumenten (z. B. PDFs) zu generieren.

Sie müssen unterstützte Dateitypen verwenden, einen unterstützten MIME-Typ angeben und darauf achten, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und den Best Practices entsprechen.

Diese Seite bezieht sich speziell auf die Verwendung eines GenerativeModel und beschreibt Folgendes:

Optionen zum Bereitstellen von Dateien in Ihrer Anfrage
Details zu den unterstützten MIME-Typen, Best Practices und Einschränkungen für die folgenden Dateieingaben:
Bilder | Video | Audio | Dokumente (z. B. PDFs).

Optionen zum Bereitstellen von Dateien in multimodalen Anfragen

Wählen Sie Ihren Gemini API-Anbieter aus, um anbieterspezifische Inhalte auf dieser Seite zu sehen

In jeder multimodalen Anfrage müssen Sie immer Folgendes angeben:

Den mimeType der Datei Die unterstützten MIME-Typen für jede Eingabedatei finden Sie im entsprechenden Abschnitt auf dieser Seite.
Die Datei Sie können die Datei entweder als Inline-Daten bereitstellen oder die Datei über ihre URL bereitstellen.

Die Größe und Anzahl der Dateien, die Sie in der Anfrage angeben können, hängt vom Typ der Eingabedatei, der Art der Bereitstellung und dem verwendeten Modell ab. Weitere Informationen finden Sie im Abschnitt für den jeweiligen Eingabedateityp auf dieser Seite.

Option 1: Datei als Inline-Daten bereitstellen

Beachten Sie bei Dateien, die als Inline-Daten bereitgestellt werden, Folgendes:

Nur kleine Dateien können als Inline-Daten gesendet werden, da die Gesamtgröße der Anfrage auf 20 MB begrenzt ist.
Die Datei wird während der Übertragung in Base64 codiert, wodurch die Dateigröße zunimmt.

Ein Beispiel für das Einbinden einer Datei als Inline-Daten finden Sie unter Text aus Text- und Dateieingabe (multimodal) generieren. Die SDKs für Android- und Apple-Plattformen können Inline-Bilder in Anfragen verarbeiten, ohne dass der MIME-Typ angegeben werden muss. Weitere Informationen

Option 2: Datei über eine URL bereitstellen

Hier sind die zulässigen URL-Typen bei Verwendung der Gemini Developer API:

YouTube-Video-URL: Das YouTube-Video muss öffentlich oder nicht gelistet sein.

Sie können pro Anfrage eine YouTube-Video-URL angeben.

Bilder: Anforderungen, Best Practices und Einschränkungen

Bilder: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Bilder.

Unterstützte MIME-Typen

Gemini Modelle für multimodale Eingaben unterstützen die folgenden Bild-MIME-Typen:

PNG – image/png
JPEG – image/jpeg
WebP – image/webp

Limits pro Anfrage

Es gibt kein spezifisches Limit für die Anzahl der Pixel in einem Bild. Größere Bilder werden jedoch herunterskaliert und auf eine maximale Auflösung von 3072 × 3072 aufgefüllt, wobei ihr ursprüngliches Seitenverhältnis beibehalten wird.

Maximale Anzahl von Dateien pro Anfrage: 3.000 Bilddateien

Bilder: Tokenisierung

So werden Tokens für Bilder berechnet:

Wenn beide Dimensionen eines Bildes kleiner oder gleich 384 Pixel sind, werden 258 Tokens verwendet.
Wenn eine Dimension eines Bildes größer als 384 Pixel ist, wird das Bild in Kacheln unterteilt. Die Standardgröße jeder Kachel ist die kleinste Dimension (Breite oder Höhe) geteilt durch 1,5. Bei Bedarf wird jede Kachel so angepasst, dass sie nicht kleiner als 256 Pixel und nicht größer als 768 Pixel ist. Jede Kachel wird dann auf 768 × 768 Pixel skaliert und verwendet 258 Tokens.

Bilder: Best Practices

Beachten Sie bei der Verwendung von Bildern die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

Wenn Sie Text in einem Bild erkennen möchten, verwenden Sie Prompts mit einem einzelnen Bild. So erzielen Sie bessere Ergebnisse als mit Prompts mit mehreren Bildern.
Wenn Ihr Prompt ein einzelnes Bild enthält, platzieren Sie das Bild in Ihrer Anfrage vor dem Text Prompt.
Wenn Ihr Prompt mehrere Bilder enthält und Sie später im Prompt auf sie verweisen möchten oder das Modell in der Antwort auf sie verweisen soll, kann es hilfreich sein, jedem Bild vor dem Bild einen Index zu geben. Verwenden Sie a b c oder image 1 image 2 image 3 für den Index. Hier ein Beispiel für die Verwendung von indexierten Bildern in einem Prompt:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Verwenden Sie Bilder mit höherer Auflösung. Sie liefern bessere Ergebnisse.
Fügen Sie einige Beispiele in den Prompt ein.
Drehen Sie Bilder in die richtige Ausrichtung, bevor Sie sie dem Prompt hinzufügen.
Vermeiden Sie unscharfe Bilder.

Bilder: Einschränkungen

Gemini Modelle für multimodale Eingaben sind zwar in vielen multimodalen Anwendungs fällen leistungsstark, aber es ist wichtig, die Einschränkungen der Modelle zu kennen:

Inhaltsmoderation: Die Modelle geben keine Antworten auf Bilder, die gegen unsere Sicherheitsrichtlinien verstoßen.
Räumliches Denken: Die Modelle können Text oder Objekte in Bildern nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
Medizinische Verwendung: Die Modelle sind nicht geeignet, medizinische Bilder (z. B. Röntgenaufnahmen und CT-Scans) zu interpretieren oder medizinische Ratschläge zu geben.
Personenerkennung: Die Modelle sind nicht dazu gedacht, Personen zu identifizieren, die keine Prominenten sind.
Genauigkeit: Die Modelle können halluzinieren oder Fehler machen wenn sie Bilder mit niedriger Qualität, gedrehte Bilder oder Bilder mit extrem niedriger Auflösung interpretieren. Die Modelle können auch halluzinieren, wenn sie handgeschriebenen Text in Bildern interpretieren.

Video: Anforderungen, Best Practices und Einschränkungen

Video: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Videos.

Unterstützte MIME-Typen

Gemini Modelle für multimodale Eingaben unterstützen die folgenden Video-MIME-Typen:

FLV – video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP – video/3gpp

Limits pro Anfrage

Maximale Anzahl von Dateien pro Anfrage: 10 Videodateien

Video: Tokenisierung

So werden Tokens für Videos berechnet:

Der Audiotrack wird mit Videoframes codiert. Der Audiotrack wird ebenfalls in 1-Sekunden-Blöcke unterteilt, die jeweils 32 Tokens enthalten. Die Video-Frame- und Audio-Tokens werden mit ihren Zeitstempeln verschachtelt. Die Zeitstempel werden als 5 Tokens dargestellt.
Bei Videos, die mit einer Rate von maximal 1 Frame pro Sekunde (fps) gesampelt werden, werden die Zeitstempel für die erste Stunde des Videos als 5 Tokens pro Video-Frame dargestellt. Die restlichen Zeitstempel werden als 7 Tokens pro Video-Frame dargestellt.
Bei Videos, die mit einer Rate von mehr als 1 Frame pro Sekunde (fps) gesampelt werden, werden die Zeitstempel für die erste Stunde des Videos als 9 Tokens pro Video-Frame dargestellt. Die restlichen Zeitstempel werden als 11 Tokens pro Video-Frame dargestellt.

Video: Best Practices

Beachten Sie bei der Verwendung von Videos die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

Wenn Ihr Prompt ein einzelnes Video enthält, platzieren Sie das Video vor dem Text Prompt.
Wenn Sie eine Zeitstempellokalisierung in einem Video mit Audio benötigen, fordern Sie das Modell auf, Zeitstempel im Format zu generieren, das unter "Zeitstempel format" beschrieben ist.

Video: Einschränkungen

Gemini Modelle für multimodale Eingaben sind zwar in vielen multimodalen Anwendungs fällen leistungsstark, aber es ist wichtig, die Einschränkungen der Modelle zu kennen:

Inhaltsmoderation: Die Modelle geben keine Antworten auf Videos, die gegen unsere Sicherheitsrichtlinien verstoßen.
Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.

Audio: Anforderungen und Einschränkungen

Audio: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Audio.

Unterstützte MIME-Typen

Gemini Modelle für multimodale Eingaben unterstützen die folgenden Audio-MIME-Typen:

AAC – audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM – audio/webm

Limits pro Anfrage

Maximale Anzahl von Dateien pro Anfrage: 1 Audiodatei

Audio: Einschränkungen

Gemini Modelle für multimodale Eingaben sind zwar in vielen multimodalen Anwendungs fällen leistungsstark, aber es ist wichtig, die Einschränkungen der Modelle zu kennen:

Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
Zeitstempel nur für Audio: Wenn Sie genaue Zeitstempel für reine Audiodateien generieren möchten, müssen Sie den audio_timestamp Parameter in generation_config konfigurieren.

Dokumente (z. B. PDFs): Anforderungen, Best Practices und Einschränkungen

Dokumente: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Dokumente (z. B. PDFs).

Unterstützte MIME-Typen

Gemini Modelle für multimodale Eingaben unterstützen die folgenden Dokument-MIME-Typen:

PDF – application/pdf
Text – text/plain

Limits pro Anfrage

PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein einzelnes Bild behandelt wird. Die Anzahl der Seiten, die in einem Prompt zulässig sind, ist auf die Anzahl der Bilder begrenzt, die von den Gemini Modellen für multimodale Eingaben unterstützt werden.

Maximale Anzahl von Dateien pro Anfrage: 3.000 Dateien
Maximale Anzahl von Seiten pro Datei: 1.000 Seiten pro Datei
Maximale Größe pro Datei: 50 MB pro Datei

Dokumente: Tokenisierung

PDF-Tokenisierung

PDFs werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf dieselbe Weise wie ein Bild tokenisiert wird.

Außerdem richten sich die Kosten für PDFs nach Gemini Bildpreisgestaltung. Wenn Sie beispielsweise eine zweiseitige PDF-Datei in einen Gemini API-Aufruf einbeziehen, fallen Eingabegebühren für die Verarbeitung von zwei Bildern an.

Dokumente: Best Practices

Beachten Sie bei der Verwendung von PDFs die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.
Verwenden Sie PDFs, die mit Text entwickelt wurden, der als Text statt als Bilder gerendert wird. Dieses Format sorgt dafür, dass Text maschinenlesbar ist, damit das Modell im Vergleich zu gescannten Bild-PDFs einfacher bearbeiten, suchen und ändern kann. Dies liefert optimale Ergebnisse bei der Arbeit mit textintensiven Dokumenten wie Verträgen.

Dokumente: Einschränkungen

Gemini Modelle für multimodale Eingaben sind zwar in vielen multimodalen Anwendungs fällen leistungsstark, aber es ist wichtig, die Einschränkungen der Modelle zu kennen:

Räumliches Denken: Die Modelle können Text oder Objekte in PDFs nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
Genauigkeit: Die Modelle können bei der Interpretation von handgeschriebenem Text in PDF-Dokumenten halluzinieren.

Unterstützte Eingabedateien und Anforderungen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Optionen zum Bereitstellen von Dateien in multimodalen Anfragen

Option 1: Datei als Inline-Daten bereitstellen

Option 2: Datei über eine URL bereitstellen

Bilder: Anforderungen, Best Practices und Einschränkungen

Bilder: Anforderungen

Unterstützte MIME-Typen

Limits pro Anfrage

Bilder: Tokenisierung

Bilder: Best Practices

Bilder: Einschränkungen

Video: Anforderungen, Best Practices und Einschränkungen

Video: Anforderungen

Unterstützte MIME-Typen

Limits pro Anfrage

Video: Tokenisierung

Video: Best Practices

Video: Einschränkungen

Audio: Anforderungen und Einschränkungen

Audio: Anforderungen

Unterstützte MIME-Typen

Limits pro Anfrage

Audio: Einschränkungen

Dokumente (z. B. PDFs): Anforderungen, Best Practices und Einschränkungen

Dokumente: Anforderungen

Unterstützte MIME-Typen

Limits pro Anfrage

Dokumente: Tokenisierung

Dokumente: Best Practices

Dokumente: Einschränkungen

Unterstützte Eingabedateien und Anforderungen