Wenn Sie die Gemini API über Ihre App mit einem Firebase AI Logic SDK aufrufen, können Sie das Gemini-Modell auffordern, Text basierend auf einer multimodalen Eingabe wie Bildern, Videos, Audio und Dokumenten (z. B. PDFs) zu generieren.
Sie müssen unterstützte Dateitypen verwenden, einen unterstützten MIME-Typ angeben und darauf achten, dass Ihre Dateien und multimodalen Anfragen den Anforderungen entsprechen und den Best Practices folgen.
Diese Seite bezieht sich speziell auf die Verwendung eines GenerativeModel
und beschreibt Folgendes:
Details zu den unterstützten MIME-Typen, Best Practices und Einschränkungen für die folgenden Dateieingaben:
Bilder | Video | Audio | Dokumente (z. B. PDFs).
Optionen zum Bereitstellen von Dateien in multimodalen Anfragen
Gemini API-Anbieter auswählen, um anbieterspezifische Inhalte auf dieser Seite aufzurufen |
In jeder multimodalen Anfrage müssen Sie immer Folgendes angeben:
Die
mimeType
der Datei. Die unterstützten MIME-Typen für die einzelnen Eingabedateien finden Sie im entsprechenden Abschnitt auf dieser Seite.Die Datei. Sie können die Datei entweder als Inline-Daten bereitstellen oder über die URL.
Die Größe und Anzahl der Dateien, die Sie in der Anfrage angeben können, hängt vom Eingabedateityp, der Art der Bereitstellung der Datei und dem verwendeten Modell ab. Weitere Informationen finden Sie im Abschnitt für den jeweiligen Eingabedateityp auf dieser Seite.
Option 1: Datei als Inlinedaten bereitstellen
Beachten Sie Folgendes zu Dateien, die als Inlinedaten bereitgestellt werden:
Nur kleine Dateien können als Inline-Daten gesendet werden, da die Gesamtgröße der Anfrage auf 20 MB begrenzt ist.
Die Datei wird während der Übertragung mit Base64 codiert, was die Dateigröße erhöht.
Ein Beispiel dafür, wie Sie eine Datei als Inlinedaten einfügen, finden Sie unter Text aus multimodaler Eingabe (Text und Datei) generieren. Hinweis: Die SDKs für Android- und Apple-Plattformen können Inline-Bilder in Anfragen verarbeiten, ohne dass der MIME-Typ angegeben werden muss. Weitere Informationen
Option 2: Datei über eine URL bereitstellen
Hier sind die akzeptablen URL-Typen bei Verwendung von Gemini Developer API:
YouTube-Video-URL: Das YouTube-Video muss öffentlich oder nicht gelistet sein.
Pro Anfrage können Sie eine YouTube-Video-URL angeben.
Bilder: Anforderungen, Best Practices und Einschränkungen
Bilder: Anforderungen
In diesem Abschnitt finden Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Bilder.
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden Bild-MIME-Typen:
MIME-Typ für Bild | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG - image/png |
||
JPEG - image/jpeg |
||
WebP – image/webp |
Limits pro Anfrage
Es gibt keine bestimmte Beschränkung für die Anzahl der Pixel in einem Bild. Größere Bilder werden jedoch herunterskaliert und auf eine maximale Auflösung von 3072 × 3072 aufgefüllt, wobei ihr ursprüngliches Seitenverhältnis beibehalten wird.
Hier ist die maximale Anzahl von Bilddateien, die in einer Prompt-Anfrage zulässig sind:
- Gemini 2.0 Flash und Gemini 2.0 Flash‑Lite: 3.000 Bilder
Bilder: Tokenisierung
So werden Tokens für Bilder berechnet:
- Gemini 2.0 Flash und Gemini 2.0 Flash‑Lite:
- Wenn beide Dimensionen eines Bildes kleiner oder gleich 384 Pixel sind, werden 258 Tokens verwendet.
- Wenn eine Dimension eines Bildes größer als 384 Pixel ist, wird das Bild in Kacheln zugeschnitten. Die Standardgröße für jede Kachel ist die kleinste Dimension (Breite oder Höhe) geteilt durch 1,5. Bei Bedarf wird jede Kachel so angepasst, dass sie nicht kleiner als 256 Pixel und nicht größer als 768 Pixel ist. Jede Kachel wird dann auf 768 × 768 Pixel skaliert und verwendet 258 Tokens.
Bilder: Best Practices
Beachten Sie bei der Verwendung von Bildern die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:
- Wenn Sie Text in einem Bild erkennen möchten, verwenden Sie Prompts mit einem einzelnen Bild, um bessere Ergebnisse zu erzielen als Prompts mit mehreren Bildern.
- Wenn Ihr Prompt ein einzelnes Bild enthält, platzieren Sie das Bild in Ihrer Anfrage vor dem Text-Prompt.
- Wenn Ihr Prompt mehrere Bilder enthält und Sie später in Ihrem Prompt darauf verweisen möchten oder das Modell in der Modellantwort auf sie verweisen soll, kann es hilfreich sein, jedem Bild einen Index vor dem Bild zu geben. Verwenden Sie
odera
b
c
für Ihren Index. Das folgende Beispiel zeigt die Verwendung indexierter Bilder in einem Prompt:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Verwenden Sie Bilder mit einer höheren Auflösung, da diese bessere Ergebnisse liefern.
- Fügen Sie einige Beispiele in den Prompt ein.
- Drehen Sie die Bilder in der richtigen Ausrichtung, bevor Sie sie dem Prompt hinzufügen.
- Vermeiden Sie unscharfe Bilder.
Bilder: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Inhaltsmoderation: Die Modelle weigern sich, Antworten auf Bilder zu geben, die gegen unsere Sicherheitsrichtlinien verstoßen.
- Räumliches Denken: Die Modelle können Text oder Objekte in Bildern nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
- Medizinische Anwendungen: Die Modelle sind nicht für die Interpretation medizinischer Bilder (z. B. Röntgen- und CT-Scans) oder die Bereitstellung von medizinischem Rat geeignet.
- Personenerkennung: Die Modelle sind nicht dafür vorgesehen, Personen zu identifizieren, die keine Prominenten sind.
- Genauigkeit: Die Modelle können bei der Interpretation von gedrehten Bildern sowie Bildern mit niedriger Qualität oder sehr niedrigen Auflösungen halluzinieren oder Fehler machen. Die Modelle können auch bei der Interpretation von handgeschriebenem Text in Bilddokumenten halluzinieren.
Video: Anforderungen, Best Practices und Einschränkungen
Video: Anforderungen
In diesem Abschnitt finden Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Videos.
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden Video-MIME-Typen:
Video-MIME-Typ | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV - video/x-flv |
||
MOV - video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS - video/mpegps |
||
MPG - video/mpg |
||
MP4 - video/mp4 |
||
WEBM - video/webm |
||
WMV - video/wmv |
||
3GPP - video/3gpp |
Limits pro Anfrage
Das ist die maximale Anzahl von Videodateien, die in einer Prompt-Anfrage zulässig sind:
- Gemini 2.0 Flash und Gemini 2.0 Flash‑Lite: 10 Videodateien
Video: Tokenisierung
So werden Tokens für Videos berechnet:
-
Gemini 2.5 Pro,
Gemini 2.0 Flash und
Gemini 2.0 Flash‑Lite: Der Audiotrack ist
mit Videoframes codiert. Der Audiotrack wird ebenfalls in
1-Sekunden-Blöcke unterteilt, die jeweils 32 Tokens enthalten. Die Video-Frame- und Audio-Tokens werden zusammen mit ihren Zeitstempeln verschachtelt. Die Zeitstempel werden als 5 Tokens dargestellt. - Alle multimodalen Gemini-Modelle: Videos werden mit einer Rate von
1 Bild pro Sekunde (fps) abgetastet. Jedes Videobild berücksichtigt 258 Tokens.
Video: Best Practices
Beachten Sie bei der Verwendung von Videos die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:
- Wenn Ihr Prompt ein einzelnes Video enthält, platzieren Sie das Video vor dem Text-Prompt.
- Wenn Sie eine Zeitstempellokalisierung in einem Video mit Audio benötigen, bitten Sie das Modell, Zeitstempel im Format
MM:SS
zu generieren, wobei die ersten beiden Ziffern Minuten und die letzten beiden Ziffern Sekunden darstellen. Verwenden Sie dasselbe Format für Fragen, in denen nach einem Zeitstempel gefragt wird.
Video: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Inhaltsmoderation: Die Modelle weigern sich, Antworten auf Videos zu geben, die gegen unsere Sicherheitsrichtlinien verstoßen.
- Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
- Hochgeschwindigkeitsbewegungen: Aufgrund der festen Abtastrate von
1 Bild pro Sekunde (fps) können die Modelle beim Interpretieren von Hochgeschwindigkeitsbewegungen in Videos Fehler machen.
Audio: Anforderungen und Einschränkungen
Audio: Anforderungen
In diesem Abschnitt finden Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Audio.
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden Audio-MIME-Typen:
Audio-MIME-Typ | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
Limits pro Anfrage
Sie können in einer Prompt-Anfrage maximal
Audio: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
- Zeitstempel nur für Audio: Damit Zeitstempel für Dateien, die nur Audio enthalten, genau generiert werden, müssen Sie den Parameter
audio_timestamp
ingeneration_config
konfigurieren.
Dokumente (z. B. PDFs): Anforderungen, Best Practices und Einschränkungen
Dokumente: Anforderungen
In diesem Abschnitt finden Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Dokumente wie PDFs.
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Dokumenttypen:
MIME-Typ für das Dokument | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PDF – application/pdf |
||
Text - text/plain |
Limits pro Anfrage
PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein einzelnes Bild behandelt wird. Die Anzahl der Seiten in einem Prompt ist auf die Anzahl der Bilder beschränkt, die das Modell unterstützen kann:
- Gemini 2.0 Flash und Gemini 2.0 Flash‑Lite:
- Maximale Anzahl an Dateien pro Anfrage: 3.000
- Maximale Seitenzahl pro Datei: 1.000
- Maximale Größe pro Datei: 50 MB
Dokumente: Tokenisierung
PDF-Tokenisierung
PDFs werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf die gleiche Weise wie ein Bild tokenisiert wird.
Außerdem entsprechen die Kosten für PDFs den Gemini-Bildpreisen. Wenn Sie beispielsweise eine zweiseitige PDF in einen Gemini API-Aufruf einfügen, wird Ihnen eine Eingabegebühr für die Verarbeitung von zwei Bildern berechnet.
Dokumente: Best Practices
Beachten Sie bei der Verwendung von PDFs die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen.
- Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
- Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.
- Verwenden Sie PDFs, die mit Text entwickelt wurden, der als Text statt als Bilder gerendert wird. Dieses Format sorgt dafür, dass Text maschinenlesbar ist, damit das Modell im Vergleich zu gescannten Bild-PDFs einfacher bearbeiten, suchen und ändern kann. Dies liefert optimale Ergebnisse bei der Arbeit mit textintensiven Dokumenten wie Verträgen.
Dokumente: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Räumliches Denken: Die Modelle können Text oder Objekte in PDFs nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
- Genauigkeit: Die Modelle können bei der Interpretation von handgeschriebenem Text in PDF-Dokumenten halluzinieren.