Mit den Firebase AI Logic SDKs können Sie für mobile und Web-Apps direkt über Ihre App mit den unterstützten Gemini-Modellen und Imagen 3-Modellen interagieren.
Gemini-Modelle gelten als multimodal, da sie mehrere Modalitäten verarbeiten und sogar generieren können, darunter Text, Code, PDFs, Bilder, Video und Audio. Imagen 3-Modelle können mit Text zum Generieren von Bildern aufgefordert werden.
Die folgende Tabelle bietet einen kurzen Überblick über die unterstützten Modelle für Firebase AI Logic und ihre neuesten stabilen Modellnamen. In dieser Tabelle sind auch Vorabversionen und experimentelle Modelle aufgeführt, die für Prototyping-Anwendungsfälle verfügbar sind.
Modell | Eingabe | Ausgabe | Beschreibung |
---|---|---|---|
Gemini-Modelle mit stabilen Versionen | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
Text, Code, PDFs, Bilder, Video, Audio | Text, Code, JSON (Bilder und Audio bald verfügbar) |
Unser multimodales Modell mit Funktionen der nächsten Generation und verbesserten Funktionen, darunter eine höhere Geschwindigkeit, die Verwendung integrierter Tools und ein Kontextfenster von 1 Million Tokens (demnächst multimodale Generation) |
Gemini 2.0 Flash‑Litegemini-2.0-flash-lite-001
|
Text, Code, PDFs, Bilder, Video, Audio | Text, Code, JSON | Unser schnellstes und kostengünstigstes Flash-Modell. Es ist ein Upgrade-Pfad für Nutzer von 1.5 Flash, die bei gleicher Geschwindigkeit und Preis eine bessere Qualität wünschen. |
Gemini-Modelle mit nur Vorab- und experimentellen Versionen (nur für Prototyping-Anwendungsfälle empfohlen) | |||
Gemini 2.5 Progemini-2.5-pro-preview-05-06
|
Text, Code, PDFs, Bilder, Video, Audio | Text, Code, JSON | Unser fortschrittlichstes Logikmodell, das komplexe Probleme lösen kann. |
Gemini 2.5 Flashgemini-2.5-flash-preview-04-17
|
Text, Code, PDFs, Bilder, Video, Audio | Text, Code, JSON | Unser Thinking-Modell bietet hervorragende, vielseitige Funktionen. Sie bieten ein ausgewogenes Preis-Leistungs-Verhältnis. |
Gemini 2.0 Flash‑Live 1gemini-2.0-flash-live-preview-04-09
|
Text (Streaming), Audio (Streaming) |
Text (Streaming), Audio (Streaming) |
Unser multimodales Modell, das das Echtzeit-Streaming von multimodalen Eingaben und Ausgaben mit geringer Latenz unterstützt. |
Imagen 3-Modelle (bei Verwendung mit Firebase AI Logic) | |||
Imagen 3imagen-3.0-generate-002 |
Text | Bilder | Er generiert realistische, hochwertige Bilder aus Textprompts in natürlicher Sprache. |
Imagen 3 Fast 2imagen-3.0-fast-generate-001
|
Text | Bilder | Er generiert Bilder für Prototyping oder Anwendungsfälle mit niedriger Latenz. |
1 Nicht unterstützt, wenn das Gemini Developer API mit Firebase AI Logic-SDKs verwendet wird.
2 Von der Gemini Developer API unabhängig davon, wie Sie auf die API zugreifen.
Weitere Informationen zu den von Firebase AI Logic unterstützten und nicht unterstützten Modellen findest du in unseren häufig gestellten Fragen.
Der Rest dieser Seite enthält detaillierte Informationen zu den von Firebase AI Logic unterstützten Modellen.
-
- Unterstützte Eingabe und Ausgabe
- Grober Vergleich der unterstützten Funktionen
- Spezifikationen und Einschränkungen, z. B. maximale Eingabetokens oder maximale Länge des Eingabevideos
Beschreibung der Versionierung von Modellen, insbesondere der stabilen, automatisch aktualisierten, Vorabversionen und experimentellen Versionen
Listen mit verfügbaren Modellnamen, die bei der Initialisierung in Ihren Code aufgenommen werden sollen
Listen der unterstützten Sprachen für die Modelle
Unten auf dieser Seite finden Sie detaillierte Informationen zu älteren Modellen.
Modelle vergleichen
Jedes Modell hat unterschiedliche Funktionen, die verschiedene Anwendungsfälle unterstützen. In den Tabellen in diesem Abschnitt wird jedes Modell bei Verwendung mit Firebase AI Logic beschrieben. Jedes Modell kann zusätzliche Funktionen haben, die bei der Verwendung unserer SDKs nicht verfügbar sind.
Wenn Sie die gewünschten Informationen in den folgenden Unterabschnitten nicht finden, finden Sie weitere Informationen in der Dokumentation des von Ihnen ausgewählten API-Anbieters:
Gemini Developer API: Gemini-Modelle und Imagen-Modelle
Vertex AI Gemini API: Gemini-Modelle und Imagen-Modelle
Unterstützte Eingabe und Ausgabe
Die folgenden Eingabe- und Ausgabetypen werden unterstützt, wenn Sie die einzelnen Modelle mit Firebase AI Logic verwenden:
<span="notranslate">Gemini 2.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|||
---|---|---|---|---|---|---|---|---|
Eingabetypen | ||||||||
Text | ||||||||
Text (Streaming) | ||||||||
Code | ||||||||
Dokumente (PDFs oder Nur-Text) |
||||||||
Bilder | ||||||||
Video | ||||||||
Audio | ||||||||
Audio (Streaming) | ||||||||
Ausgabetypen | ||||||||
Text | ||||||||
Text (Streaming) | ||||||||
Code | ||||||||
Strukturierte Ausgabe (z. B. JSON) |
||||||||
Bilder | Demnächst verfügbar | |||||||
Audio | Demnächst verfügbar | |||||||
Audio (Streaming) |
Informationen zu unterstützten Dateitypen finden Sie unter Unterstützte Eingabedateien und Anforderungen.
Unterstützte Funktionen
Die folgenden Funktionen werden unterstützt, wenn Sie die einzelnen Modelle mit Firebase AI Logic verwenden:
<span="notranslate">Gemini 2.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|
---|---|---|---|---|---|---|
Text aus Nur-Text- oder multimodalen Eingaben generieren | nur Streaming | |||||
Bilder generieren (Imagen 3) |
Demnächst verfügbar | |||||
Audio generieren | Demnächst verfügbar | nur Streaming | ||||
Strukturierte Ausgabe generieren
(z. B. JSON) |
||||||
Dokumente analysieren
(PDFs oder Nur-Text) |
||||||
Bilder analysieren (Vision) | ||||||
Videos analysieren (Vision) | ||||||
Audio analysieren | nur Streaming | |||||
Wechselseitiger Chat | ||||||
Funktionsaufrufe (Tools) | ||||||
Tokens zählen | ||||||
Systemanweisungen | ||||||
Bidirektionales multimodales Streaming |
Spezifikationen und Einschränkungen
Die folgenden Spezifikationen und Einschränkungen gelten für die Verwendung der einzelnen Modelle mit Firebase AI Logic:
Attribut |
<span="notranslate">Gemini 2.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|
---|---|---|---|---|---|---|---|
Kontextfenster * Gesamttokenlimit (Eingabe + Ausgabe) |
1.048.576 Tokens | 1.048.576 Tokens | 1.048.576 Tokens | 1.048.576 Tokens | 32.768 Tokens | 480 Tokens | |
Ausgabetokenlimit * | 65.536 Tokens | 65.536 Tokens | 8.192 Tokens | 8.192 Tokens | --- | --- | |
Wissensstichtag | Januar 2025 | Januar 2025 | Juni 2024 | Juni 2024 | August 2024 | --- | |
PDFs (auf Anfrage) | |||||||
Maximale Anzahl von Eingabe-PDF-Dateien ** |
3.000 Dateien | 3.000 Dateien | 3.000 Dateien | 3.000 Dateien | --- | --- | |
Maximale Anzahl von Seiten pro Eingabe-PDF-Datei ** |
1.000 Seiten | 1.000 Seiten | 1.000 Seiten | 1.000 Seiten | --- | --- | |
Maximale Größe pro Eingabe-PDF-Datei |
50 MB | 50 MB | 50 MB | 50 MB | --- | --- | |
Bilder (pro Anfrage) | |||||||
Maximale Anzahl von Eingabebildern |
3.000 Bilder | 3.000 Bilder | 3.000 Bilder | 3.000 Bilder | --- | --- | |
Maximale Anzahl von Ausgabebildern |
--- | --- | Demnächst verfügbar | --- | --- | 4 Bilder | |
Maximale Größe pro Eingabe mit base64-codiertem Bild |
7 MB | 7 MB | 7 MB | 7 MB | --- | --- | |
Video (auf Anfrage) | |||||||
Maximale Anzahl von Eingabevideodateien |
10 Dateien | 10 Dateien | 10 Dateien | 10 Dateien | --- | --- | |
Maximale Länge des gesamten Eingabevideos (nur Frames) |
~ 60 Minuten | ~ 60 Minuten | ~ 60 Minuten | ~ 60 Minuten | --- | --- | |
Maximale Länge des gesamten Eingabevideos (Frames + Audio) |
ca. 45 Minuten | ca. 45 Minuten | ca. 45 Minuten | ca. 45 Minuten | --- | --- | |
Audio (auf Anfrage) | |||||||
Maximale Anzahl von Eingabe-Audiodateien |
1 Datei | 1 Datei | 1 Datei | 1 Datei | --- | --- | |
Maximale Anzahl von Ausgabe-Audiodateien |
--- | --- | Demnächst verfügbar | --- | --- | --- | |
Maximale Länge aller Eingabe-Audioinhalte |
~ 8,4 Stunden | ~ 8,4 Stunden | ~ 8,4 Stunden | ~ 8,4 Stunden | --- | --- | |
Maximale Länge aller Audioinhalte |
--- | --- | Demnächst verfügbar | --- | --- | --- |
*
Bei allen Gemini-Modellen entspricht ein Token etwa 4 Zeichen. 100 Tokens entsprechen also etwa 60–80 englischen Wörtern. Bei Gemini-Modellen können Sie die Gesamtzahl der Tokens in Ihren Anfragen mit countTokens
ermitteln.
** PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein einzelnes Bild behandelt wird. Die Anzahl der Seiten in einer Anfrage ist auf die Anzahl der Bilder beschränkt, die das Modell unterstützen kann.
Weitere Informationen
Kontingente und Preise variieren je nach Modell. Die Preise hängen auch von Eingabe und Ausgabe ab.
Informationen zu unterstützten Eingabedateitypen, zum Angeben des MIME-Typs und dazu, wie Sie dafür sorgen, dass Ihre Eingabedateien und multimodalen Anfragen die Anforderungen erfüllen und Best Practices einhalten, finden Sie unter Unterstützte Eingabedateien und Anforderungen.
Versions- und Benennungsmuster für Modelle
Modelle werden in stabilen, Vorabversionen und experimentellen Versionen angeboten. Aus praktischen Gründen werden Aliasse ohne explizite Versionswerte unterstützt.
Informationen zu den Modellnamen, die Sie in Ihrem Code verwenden können, finden Sie weiter unten auf dieser Seite im Abschnitt Verfügbare Modellnamen.
Versionstyp / Release-Phase |
Beschreibung | Muster für Modellnamen | |
---|---|---|---|
Stabil |
Stabile Versionen sind ab dem Veröffentlichungsdatum verfügbar und werden für die Produktion unterstützt.
Eine stabile Modellversion wird in der Regel mit einem Einstellungsdatum veröffentlicht, das den letzten Tag angibt, an dem das Modell verfügbar ist. Nach diesem Datum ist das Modell nicht mehr zugänglich und wird von Google nicht mehr unterstützt. |
An die Modellnamen stabiler Versionen wird eine bestimmte dreistellige Versionsnummer angehängt.
Beispiel: |
|
Automatisch aktualisierter stabiler Alias | Automatisch aktualisierte stabile Aliasse verweisen immer auf die aktuelle stabile Version dieses Modells. Wenn eine neue stabile Version veröffentlicht wird, verweist der Alias auto-updated automatisch auf diese neue stabile Version. |
Modellnamen von Aliassen haben keinen Zusatz
Beispiel: |
|
Vorschau |
Vorabversionen bieten neue Funktionen und gelten als nicht stabil.
Vorschauversionen verweisen immer auf die aktuelle Vorschauversion dieses Modells. Wenn eine neue Vorabversion veröffentlicht wird, verweist jede vorhandene Vorabversion automatisch auf diese neue Vorabversion. Diese Modelle werden nicht für die Produktion empfohlen, haben strengere Preislimits und können Abrechnungsanforderungen haben. |
An die Modellnamen von Vorschauversionen werden
Beispiel: |
|
Experimentell |
Experimentelle Versionen bieten neue Funktionen und gelten als nicht stabil.
Diese Modelle werden nicht für die Produktion empfohlen und unterliegen strengeren Ratenlimits. Experimentelle Modelle dienen dazu, Feedback zu sammeln und unsere neuesten Funktionen zu testen. |
An die Modellnamen von experimentellen Versionen werden
Beispiel: |
|
Rentner |
Eingestellte Versionen sind über das Einstellungsdatum hinaus und wurden endgültig deaktiviert.
Auf eingestellte Modelle kann nicht mehr zugegriffen werden und sie werden von Google nicht mehr unterstützt. Bei Anfragen, die auf eine eingestellte Modell-ID verweisen, wird in der Regel ein 404-Fehler zurückgegeben. |
--- |
Verfügbare Modellnamen
Modellnamen sind die expliziten Werte, die Sie in Ihren Code bei der Initialisierung des Modells aufnehmen.
Alle verfügbaren Modelle programmatisch auflisten
Sie können alle verfügbaren Modellnamen mithilfe der REST API auflisten:
Gemini Developer API:
models.list
-Endpunkt aufrufenVertex AI Gemini API:
publishers.models.list
-Endpunkt aufrufen
Hinweis: Diese Liste enthält alle Modelle, die von den API-Anbietern unterstützt werden. Firebase AI Logic unterstützt jedoch nur die auf dieser Seite beschriebenen Modelle Gemini und Imagen.
Automatisch aktualisierte Aliasse (z. B. gemini-2.0-flash
) sind nicht aufgeführt, da sie nur ein Alias für das Basismodell sind.
Gemini Modellnamen
Beispiele für die Initialisierung für Ihre Plattform finden Sie im Startleitfaden.
Details zu den Release-Phasen (insbesondere zu Anwendungsfällen und Abrechnung) finden Sie unter Versionierung und Benennung von Modellen.
Gemini 2.5 Pro Modellnamen
Modellname | Beschreibung | Release-Phase | Veröffentlicht | Einstellungsdatum |
---|---|---|---|---|
gemini-2.5-pro-preview-05-06 |
Vorabversion von Gemini 2.5 Pro | Vorschau | 2025-05-06 | Noch nicht bekannt |
gemini-2.5-pro-preview-03-25 |
Vorabversion, die auf gemini-2.5-pro-preview-05-06 verweist(aktuelle Vorabversion) |
Vorschau | 25.03.2025 | Noch nicht bekannt |
Gemini 2.5 Flash Modellnamen
Modellname | Beschreibung | Release-Phase | Veröffentlicht | Einstellungsdatum |
---|---|---|---|---|
gemini-2.5-flash-preview-04-17 |
Vorabversion von Gemini 2.5 Flash | Vorschau | 2025-04-17 | Noch nicht bekannt |
Gemini 2.0 Flash Modellnamen
Modellname | Beschreibung | Release-Phase | Veröffentlicht | Einstellungsdatum |
---|---|---|---|---|
gemini-2.0-flash-001 |
Neueste stabile Version von Gemini 2.0 Flash | Stabil | 2025-02-05 | Frühestens am 05.02.2026 |
gemini-2.0-flash |
Automatisch aktualisierter Alias, der auf die aktuellste stabile Version von 2.0 Flash verweist (aktuell gemini-2.0-flash-001 |
Stabil | 2025-02-10 | --- |
Gemini 2.0 Flash‑Lite Modellnamen
Modellname | Beschreibung | Release-Phase | Veröffentlicht | Einstellungsdatum |
---|---|---|---|---|
gemini-2.0-flash-lite-001 |
Neueste stabile Version von Gemini 2.0 Flash‑Lite | Stabil | 2025-02-25 | Frühestens am 25. Februar 2026 |
gemini-2.0-flash-lite |
Automatisch aktualisierter Alias, der auf die aktuelle stabile Version von 2.0 Flash-Lite verweist (aktuell gemini-2.0-flash-lite-001 |
Stabil | 2025-02-25 | --- |
Gemini 2.0 Flash‑Live Modellnamen
Nur verfügbar, wenn Vertex AI Gemini API als API-Anbieter verwendet wird. |
Modellname | Beschreibung | Release-Phase | Veröffentlicht | Einstellungsdatum |
---|---|---|---|---|
gemini-2.0-flash-live-preview-04-09 1 |
Vorabversion für Gemini 2.0 Flash‑Live | Vorschau | 2025-04-09 | Noch nicht bekannt |
1 Nicht unterstützt, wenn das Gemini Developer API mit Firebase AI Logic-SDKs verwendet wird.
Imagen Modellnamen
Beispiele für die Initialisierung für Ihre Plattform finden Sie im Leitfaden Bilder mit Imagen generieren.
Details zu den Release-Phasen (insbesondere zu Anwendungsfällen und Abrechnung) finden Sie unter Versionierung und Benennung von Modellen.
Imagen 3 Modellnamen
Modellname | Beschreibung | Release-Phase | Veröffentlicht | Einstellungsdatum |
---|---|---|---|---|
imagen-3.0-generate-002 |
Neueste stabile Version von Imagen 3 | Stabil | 2025-01-23 | Frühestens am 23.01.2026 |
imagen-3.0-generate-001 2 |
Erste stabile Version von Imagen 3 | Stabil | 2024-07-31 | Frühestens am 31. Juli 2025 |
Imagen 3 Fast Modellnamen
Modellname | Beschreibung | Release-Phase | Veröffentlicht | Einstellungsdatum |
---|---|---|---|---|
imagen-3.0-fast-generate-001 2 |
Erste stabile Version von Imagen 3 Fast | Stabil | 2024-07-31 | Frühestens am 31. Juli 2025 |
2 Von der Gemini Developer API unabhängig vom Zugriff auf die API nicht unterstützt.
Unterstützte Sprachen
Gemini
Alle Gemini-Modelle können die folgenden Sprachen verstehen und darauf antworten:
Arabisch (ar), Bengalisch (bn), Bulgarisch (bg), Chinesisch (vereinfacht und traditionell), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Deutsch (de), Griechisch (el), Hebräisch (iw), Hindi (hi), Ungarisch (hu), Indonesisch (id), Italienisch (it), Japanisch (ja), Koreanisch (ko), Lettisch (lv), Litauisch (lt), Norwegisch (no) ), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Russisch (ru), Serbisch (sr), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Swahili (sw), Schwedisch (sv), Thai (th), Türkisch (tr), Ukrainisch (uk), Vietnamesisch (vi).
Die Modelle Gemini 2.0 Flash, Gemini 1.5 Pro und Gemini 1.5 Flash können die folgenden zusätzlichen Sprachen verstehen und darauf antworten:
Afrikaans (af), Amharisch (am), Assamesisch (as), Aserbaidschanisch (az), Weißrussisch (be), Bosnisch (bs), Katalanisch (ca), Cebuano (ceb), Korsisch (co), Walisisch (cy), Divehi (dv), Esperanto (eo), Baskisch (eu), Persisch (fa), Filipino (Tagalog) (fil), Friesisch (fy), Irisch (ga), Schottisch-Gälisch (gd), Galicisch (gl), Gujarati (gu), Hausa (ha), Hawaiianisch (haw), Hmong (hmn), Haitianisch-Kreolisch (ht), Armenisch (hy), Igbo (ig), Isländisch (is), Javanisch (jv), Georgisch (ka), Kasachisch (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdisch (ku), Kirgisisch (ky), Lateinisch (la), Luxemburgisch (lb), Laotisch (lo), Malagasy (mg), Maori (mi), Mazedonisch (mk), Malayalam (ml), Mongolisch (mn), Meitei (Manipuri) (mni-Mtei), Marathi (mr), Malaysisch (ms), Maltesisch (mt), Myanmar (Burmesisch) (my), Nepalesisch (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Paschtu (ps), Sindhi (sd), Sinhala (Singhalesisch) (si), Samoanisch (sm), Shona (sn), Somali (so), Albanisch (sq), Sesotho (st), Sundanesisch (su), Tamil (ta), Telugu (te), Tadschikisch (tg), Uigurisch (ug), Urdu (ur), Usbekisch (uz), Xhosa (xh), Jiddisch (yi), Yoruba (yo), Zulu (zu)
Imagen
Allgemeine Verfügbarkeit: Englisch
Vorabversion: Chinesisch (vereinfacht), Chinesisch (traditionell), Hindi, Japanisch, Koreanisch, Portugiesisch, Spanisch
Informationen zu älteren Modellen
Firebase AI Logic unterstützt die älteren aktiven Gemini-Modelle (z. B. Gemini 1.5-Modelle).
Firebase AI Logic unterstützt nicht die älteren Imagen-Modelle (z. B. Imagen 2).
Modell | Eingabe | Ausgabe | Optimiert für |
---|---|---|---|
Gemini 1.5 Progemini-1.5-pro-002 |
Text, Code, PDFs, Bilder, Video, Audio | Text, Code, JSON | Unterstützt komplexe Aufgaben mit höherer Intelligenz; 2 Millionen Zeichen langer Kontext |
Gemini 1.5 Flashgemini-1.5-flash-002 |
Text, Code, PDFs, Bilder, Video, Audio | Text, Code, JSON | Bietet eine schnelle und vielseitige Leistung für eine Vielzahl von Aufgaben |
gemini-1.0-pro-vision-001 |
|
||
gemini-1.0-pro-002 |
|
Nächste Schritte
Funktionen des Gemini API testen
- Unterhaltungen in mehreren Runden (Chat) erstellen
- Text aus nur Text-Prompts generieren
- Sie können Text generieren, indem Sie verschiedene Dateitypen als Prompt verwenden, z. B. Bilder, PDFs, Videos und Audio.
- Sie können sowohl aus Text- als auch aus multimodalen Prompts strukturierte Ausgabe (z. B. JSON) generieren.
- Bilder aus Text-Prompts generieren
- Streame Eingabe und Ausgabe (einschließlich Audio) mit der Gemini Live API.
- Verwenden Sie Funktionsaufrufe, um generative Modelle mit externen Systemen und Informationen zu verbinden.