Unterstützte Eingabedateien und Anforderungen

Wenn Sie die Gemini API über ein Firebase AI Logic SDK aus Ihrer App aufrufen, können Sie das Gemini Modell auffordern, Text basierend auf einer multimodalen Eingabe wie Bildern, Videos, Audiodateien und Dokumenten (z. B. PDFs) zu generieren.

Sie müssen unterstützte Dateitypen verwenden, einen unterstützten MIME-Typ angeben und darauf achten, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und den Best Practices entsprechen.

Diese Seite bezieht sich speziell auf die Verwendung eines GenerativeModel und beschreibt Folgendes:

Optionen zum Bereitstellen von Dateien in multimodalen Anfragen

Wählen Sie Ihren Gemini API-Anbieter aus, um anbieterspezifische Inhalte auf dieser Seite zu sehen

In jeder multimodalen Anfrage müssen Sie immer Folgendes angeben:

Die Größe und Anzahl der Dateien, die Sie in der Anfrage angeben können, hängt vom Typ der Eingabedatei, der Art der Bereitstellung und dem verwendeten Modell ab. Weitere Informationen finden Sie im Abschnitt für den jeweiligen Eingabedateityp auf dieser Seite.

Option 1: Datei als Inline-Daten bereitstellen

Beachten Sie bei Dateien, die als Inline-Daten bereitgestellt werden, Folgendes:

  • Es können nur kleine Dateien als Inline-Daten gesendet werden, da das Limit für die Gesamtgröße der Anfrage 20 MB beträgt.

  • Die Datei wird während der Übertragung in Base64 codiert, wodurch die Dateigröße zunimmt.

Ein Beispiel für das Einbinden einer Datei als Inline-Daten finden Sie unter Text aus Text- und Dateieingabe (multimodal) generieren. Die SDKs für Android- und Apple-Plattformen können Inline-Bilder in Anfragen verarbeiten, ohne dass der MIME-Typ angegeben werden muss. Weitere Informationen

Option 2: Datei über eine URL bereitstellen

Hier sind die zulässigen URL-Typen bei Verwendung der Gemini Developer API:



Bilder: Anforderungen, Best Practices und Einschränkungen

Bilder: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Bilder.

Unterstützte MIME-Typen

Gemini Modelle für multimodale Anfragen unterstützen die folgenden Bild-MIME-Typen:

  • PNG – image/png
  • JPEG – image/jpeg
  • WebP – image/webp

Limits pro Anfrage

Es gibt kein spezifisches Limit für die Anzahl der Pixel in einem Bild. Größere Bilder werden jedoch herunterskaliert und auf eine maximale Auflösung von 3072 × 3072 aufgefüllt, wobei ihr ursprüngliches Seitenverhältnis beibehalten wird.

Maximale Anzahl von Dateien pro Anfrage: 3.000 Bilddateien

Bilder: Tokenisierung

So werden Tokens für Bilder berechnet:

  • Wenn beide Dimensionen eines Bildes kleiner oder gleich 384 Pixel sind, werden 258 Tokens verwendet.
  • Wenn eine Dimension eines Bildes größer als 384 Pixel ist, wird das Bild in Kacheln unterteilt. Die Standardgröße jeder Kachel ist die kleinste Dimension (Breite oder Höhe) geteilt durch 1,5. Bei Bedarf wird jede Kachel so angepasst, dass sie nicht kleiner als 256 Pixel und nicht größer als 768 Pixel ist. Jede Kachel wird dann auf 768 × 768 Pixel skaliert und verwendet 258 Tokens.

Bilder: Best Practices

Beachten Sie bei der Verwendung von Bildern die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

  • Wenn Sie Text in einem Bild erkennen möchten, verwenden Sie Prompts mit einem einzelnen Bild. So erzielen Sie bessere Ergebnisse als mit Prompts mit mehreren Bildern.
  • Wenn Ihr Prompt ein einzelnes Bild enthält, platzieren Sie das Bild in Ihrer Anfrage vor dem Text Prompt.
  • Wenn Ihr Prompt mehrere Bilder enthält und Sie später in Ihrem Prompt auf sie verweisen möchten oder das Modell in der Antwort auf sie verweisen soll, kann es hilfreich sein, jedem Bild vor dem Bild einen Index zu geben. Verwenden Sie a b c oder image 1 image 2 image 3 für Ihren Index. Im Folgenden finden Sie ein Beispiel für die Verwendung von indexierten Bildern in einem Prompt:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Verwenden Sie Bilder mit höherer Auflösung. Sie liefern bessere Ergebnisse.
  • Fügen Sie einige Beispiele in den Prompt ein.
  • Drehen Sie Bilder in die richtige Ausrichtung, bevor Sie sie dem Prompt hinzufügen.
  • Vermeiden Sie unscharfe Bilder.

Bilder: Einschränkungen

Gemini multimodale Modelle sind in vielen multimodalen Anwendungs fällen leistungsstark. Es ist jedoch wichtig, die Einschränkungen der Modelle zu kennen:

  • Inhaltsmoderation: Die Modelle geben keine Antworten auf Bilder, die gegen unsere Sicherheitsrichtlinien verstoßen.
  • Räumliches Denken: Die Modelle können Text oder Objekte in Bildern nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
  • Medizinische Verwendung: Die Modelle sind nicht geeignet, medizinische Bilder (z. B. Röntgenaufnahmen und CT-Scans) zu interpretieren oder medizinische Ratschläge zu geben.
  • Personenerkennung: Die Modelle sind nicht dazu gedacht, Personen zu identifizieren, die keine Prominenten sind.
  • Genauigkeit: Die Modelle können bei der Interpretation von Bildern mit niedriger Qualität, gedrehten Bildern oder Bildern mit extrem niedriger Auflösung halluzinieren oder Fehler machen. Die Modelle können auch bei der Interpretation von handgeschriebenem Text in Bilddokumenten halluzinieren.



Video: Anforderungen, Best Practices und Einschränkungen

Video: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Videos.

Unterstützte MIME-Typen

Gemini Modelle für multimodale Anfragen unterstützen die folgenden Video-MIME-Typen:

  • FLV – video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • MPG - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP – video/3gpp

Limits pro Anfrage

Maximale Anzahl von Dateien pro Anfrage: 10 Videodateien

Video: Tokenisierung

So werden Tokens für Videos berechnet:

  • Der Audiotrack wird mit Videoframes codiert. Der Audiotrack wird ebenfalls in 1-Sekunden-Blöcke unterteilt, die jeweils 32 Tokens enthalten. Die Videoframe- und Audio-Tokens werden mit ihren Zeitstempeln verschachtelt. Die Zeitstempel werden als 5 Tokens dargestellt.
  • Bei Videos, die mit einer Rate von 1 Frame pro Sekunde (fps) oder weniger gesampelt werden, werden die Zeitstempel für die erste Stunde des Videos als 5 Tokens pro Videoframe dargestellt. Die restlichen Zeitstempel werden als 7 Tokens pro Videoframe dargestellt.
  • Bei Videos, die mit einer Rate von mehr als 1 Frame pro Sekunde (fps) gesampelt werden, werden die Zeitstempel für die erste Stunde des Videos als 9 Tokens pro Videoframe dargestellt. Die restlichen Zeitstempel werden als 11 Tokens pro Videoframe dargestellt.

Video: Best Practices

Beachten Sie bei der Verwendung von Videos die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

  • Wenn Ihr Prompt ein einzelnes Video enthält, platzieren Sie das Video vor dem Text Prompt.
  • Wenn Sie eine Zeitstempellokalisierung in einem Video mit Audio benötigen, fordern Sie das Modell auf, Zeitstempel im Format zu generieren, das unter "Zeitstempel format" beschrieben ist.

Video: Einschränkungen

Gemini multimodale Modelle sind in vielen multimodalen Anwendungs fällen leistungsstark. Es ist jedoch wichtig, die Einschränkungen der Modelle zu kennen:

  • Inhaltsmoderation: Die Modelle geben keine Antworten auf Videos, die gegen unsere Sicherheitsrichtlinien verstoßen.
  • Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.



Audio: Anforderungen und Einschränkungen

Audio: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Audio.

Unterstützte MIME-Typen

Gemini Modelle für multimodale Anfragen unterstützen die folgenden Audio-MIME-Typen:

  • AAC – audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • MPA - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • OPUS - audio/opus
  • PCM - audio/pcm
  • WAV - audio/wav
  • WEBM – audio/webm

Limits pro Anfrage

Maximale Anzahl von Dateien pro Anfrage: 1 Audiodatei

Audio: Einschränkungen

Gemini multimodale Modelle sind in vielen multimodalen Anwendungs fällen leistungsstark. Es ist jedoch wichtig, die Einschränkungen der Modelle zu kennen:

  • Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
  • Zeitstempel nur für Audio: Wenn Sie genaue Zeitstempel für reine Audiodateien generieren möchten, müssen Sie den audio_timestamp Parameter in generation_config konfigurieren.



Dokumente (z. B. PDFs): Anforderungen, Best Practices und Einschränkungen

Dokumente: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Dokumente (z. B. PDFs).

Unterstützte MIME-Typen

Gemini Modelle für multimodale Anfragen unterstützen die folgenden Dokument-MIME-Typen:

  • PDF – application/pdf
  • Text – text/plain

Limits pro Anfrage

PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein einzelnes Bild behandelt wird. Die Anzahl der Seiten, die in einem Prompt zulässig sind, ist auf die Anzahl der Bilder beschränkt, die von den Gemini Modellen für multimodale Anfragen unterstützt werden.

  • Maximale Anzahl von Dateien pro Anfrage: 3.000 Dateien
  • Maximale Anzahl von Seiten pro Datei: 1.000 Seiten pro Datei
  • Maximale Größe pro Datei: 50 MB pro Datei

Dokumente: Tokenisierung

PDF-Tokenisierung

PDFs werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf die gleiche Weise wie ein Bild tokenisiert wird.

Außerdem richten sich die Kosten für PDFs nach Gemini Bildpreisgestaltung. Wenn Sie beispielsweise eine zweiseitige PDF-Datei in einen Gemini API-Aufruf einfügen, fallen Ihnen Eingabegebühren für die Verarbeitung von zwei Bildern an.

Dokumente: Best Practices

Beachten Sie bei der Verwendung von PDFs die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

  • Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
  • Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.
  • Verwenden Sie PDFs, die mit Text entwickelt wurden, der als Text statt als Bilder gerendert wird. Dieses Format sorgt dafür, dass Text maschinenlesbar ist, damit das Modell im Vergleich zu gescannten Bild-PDFs einfacher bearbeiten, suchen und ändern kann. Dies liefert optimale Ergebnisse bei der Arbeit mit textintensiven Dokumenten wie Verträgen.

Dokumente: Einschränkungen

Gemini multimodale Modelle sind in vielen multimodalen Anwendungs fällen leistungsstark. Es ist jedoch wichtig, die Einschränkungen der Modelle zu kennen:

  • Räumliches Denken: Die Modelle können Text oder Objekte in PDFs nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
  • Genauigkeit: Die Modelle können bei der Interpretation von handgeschriebenem Text in PDF-Dokumenten halluzinieren.