Gemini 3 Pro, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Diese Seite wurde von der Cloud Translation API übersetzt.

Tokens für Gemini-Modelle zählen

Gemini-Modelle verarbeiten Ein- und Ausgaben in Einheiten, die als Tokens bezeichnet werden.

Tokens können einzelne Zeichen wie z oder ganze Wörter wie cat sein. Lange Wörter werden in mehrere Tokens aufgeteilt. Die Menge aller vom Modell verwendeten Tokens wird als Vokabular bezeichnet. Der Vorgang, Text in Tokens aufzuteilen, wird als Tokenisierung bezeichnet.

Bei Gemini-Modellen entspricht ein Token etwa vier Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern im Englischen.

Jedes Modell hat eine maximale Anzahl von Tokens, die es in einem Prompt und einer Antwort verarbeiten kann. Wenn Sie die Anzahl der Tokens in Ihrem Prompt kennen, wissen Sie, ob Sie dieses Limit überschritten haben. Außerdem hängen die Kosten einer Anfrage zum Teil von der Anzahl der Eingabe- und Ausgabetokens ab. Es kann also hilfreich sein, zu wissen, wie Tokens gezählt werden.

:Wenn Sie die Anzahl der Tokens steuern möchten, die zum Generieren einer Antwort verwendet werden (und damit die Kosten), können Sie das Thinking-Budget (nur für 2.5-Modelle) und maxOutputTokens (alle Gemini-Modelle) in der Modellkonfiguration festlegen.

Bei den Modellen Gemini 1.0 und 1.5 wurde auch die Anzahl der „abrechenbaren Zeichen“ und die Preise unterstützt. Da diese Modelle jedoch alle entweder eingestellt wurden oder demnächst eingestellt werden, wird auf dieser Seite nichts über abrechenbare Zeichen beschrieben.

Unterstützte Modelle

gemini-3-pro-preview
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite
gemini-2.0-flash-001 (und der automatisch aktualisierte Alias gemini-2.0-flash)
gemini-2.0-flash-lite-001 (und der automatisch aktualisierte Alias gemini-2.0-flash-lite)
gemini-2.0-flash-preview-image-generation

Optionen zum Zählen von Tokens

Alle Ein- und Ausgaben für Gemini API werden tokenisiert, einschließlich Text, Bilddateien und anderen nicht textbasierten Modalitäten. Folgende Optionen sind verfügbar:

Prüfen Sie die Anzahl der Tokens nur für Ihre Anfragen, bevor Sie sie an das Modell senden.

Rufen Sie countTokens mit der Eingabe der Anfrage auf, bevor Sie sie an das Modell senden. Dadurch wird Folgendes zurückgegeben:

total_tokens: Anzahl der Tokens nur für die Eingabe

Prüfen Sie die Anzahl der Tokens sowohl für Ihre Anfragen als auch für die Antworten.

Verwenden Sie das Attribut usageMetadata für das Antwortobjekt. Dazu gehören:

prompt_token_count: Anzahl der Tokens nur für die Eingabe
candidates_token_count: Anzahl der Tokens der Ausgabe (ohne Denk-Tokens)
thoughts_token_count: Anzahl der Tokens für die Überlegungen, die zum Generieren der Antwort verwendet wurden
total_token_count: Gesamtzahl der Tokens für sowohl die Eingabe als auch die Ausgabe (einschließlich aller Denk-Tokens)

Bei der Streamingausgabe wird das Attribut usageMetadata nur im letzten Chunk des Streams angezeigt. Für Zwischenblöcke ist es nil.

Beachten Sie Folgendes zu den oben genannten Optionen:

Die Anzahl der Eingabebilder oder die Anzahl der Sekunden in Video- oder Audioeingabedateien werden nicht gezählt. Die Anzahl der Tokens für jede dieser Modalitäten korreliert jedoch mit diesen Werten.
Die Anzahl der Eingabetokens umfasst den Prompt (Text und alle Eingabedateien) sowie alle Systemanweisungen und Tools.
Die Anzahl der Ausgabetokens enthält keine Denk-Tokens. Diese werden in einem separaten Feld angegeben.
Zusätzliche Informationen zu den einzelnen Anfragetypen finden Sie weiter unten auf dieser Seite.

Preise für diese Optionen

Aufrufen von countTokens: Für den Aufruf von countTokens (Count Tokens API) fallen keine Gebühren an. Das maximale Kontingent für die Count Tokens API beträgt 3.000 Anfragen pro Minute.
usageMetadata-Attribut verwenden: Dieses Attribut wird immer als Teil der Antwort zurückgegeben und verursacht keine Tokens oder Kosten.

Weitere Informationen

Hier finden Sie zusätzliche Informationen für bestimmte Arten von Anfragen.

Tokens für Texteingabe zählen

Keine weiteren Informationen.

Tokens für wechselseitige Chats zählen

Beachten Sie beim Aufrufen von countTokens über den Chat Folgendes:

Wenn Sie countTokens mit dem Chatverlauf aufrufen, wird die Gesamtzahl der Tokens aus beiden Rollen im Chat zurückgegeben (total_tokens).
Um zu verstehen, wie groß der nächste Gesprächsbeitrag sein wird, müssen Sie ihn an den Verlauf anhängen, wenn Sie countTokens aufrufen.

Multimodale Eingabetokens zählen

Beachten Sie die folgenden Punkte zum Zählen von Tokens mit multimodaler Eingabe:

Sie können countTokens optional für den Text und die Datei separat aufrufen.
Bei beiden Optionen zum Zählen von Tokens erhalten Sie dieselbe Anzahl von Tokens, unabhängig davon, ob Sie die Datei als Inline-Daten oder über ihre URL angeben.

Eingabedateien für Bilder

Bild-Eingabedateien werden basierend auf ihren Abmessungen in Tokens umgewandelt:

Bildeingaben, bei denen beide Dimensionen kleiner oder gleich 384 Pixel sind: Jedes Bild wird als 258 Tokens gezählt.
Bildeingaben, die in einer oder beiden Dimensionen größer sind: Jedes Bild wird nach Bedarf in Kacheln mit 768 × 768 Pixeln zugeschnitten und skaliert. Jede Kachel wird dann als 258 Tokens gezählt.

Video- und Audioeingabedateien

Video- und Audioeingabedateien werden zu den folgenden festen Raten in Tokens umgewandelt:

Video: 263 Tokens pro Sekunde
Audio: 32 Tokens pro Sekunde

Eingabedateien für Dokumente (z. B. PDFs)

PDF-Eingabedateien werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf die gleiche Weise wie ein Bild tokenisiert wird.