The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

All Imagen models will shut down as early as June 30, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Zliczanie tokenów w modelach Gemini

Modele Gemini przetwarzają dane wejściowe i wyjściowe w jednostkach zwanych tokenami.

Tokeny mogą być pojedynczymi znakami, np. z, lub całymi słowami, np. cat. Długie słowa są dzielone na kilka tokenów. Zbiór wszystkich tokenów używanych przez model nazywa się słownikiem, a proces dzielenia tekstu na tokeny – tokenizacją.

W przypadku modeli Gemini token odpowiada około 4 znakom. 100 tokenów to około 60–80 słów w języku angielskim.

Każdy model ma a maksymalną liczbę tokenów które może obsłużyć w prompcie i odpowiedzi. Znając liczbę tokenów w prompcie, możesz sprawdzić, czy nie przekraczasz tego limitu. Ponadto koszt żądania jest częściowo określany przez liczbę tokenów wejściowych i wyjściowych, dlatego warto wiedzieć, jak je zliczać.

Obsługiwane modele

gemini-3.1-pro-preview
gemini-3.5-flash
gemini-3.1-flash-lite
gemini-3-pro-image
gemini-3.1-flash-image
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite

Opcje zliczania tokenów

Wszystkie dane wejściowe i wyjściowe w interfejsie Gemini API są tokenizowane, w tym tekst, pliki graficzne i inne formaty inne niż tekstowe. Oto opcje zliczania tokenów:

Sprawdź liczbę tokenów tylko w żądaniach (zanim wyślesz je do modelu).

Wywołaj countTokens z danymi wejściowymi żądania przed wysłaniem go do modelu. Zwraca to:

total_tokens: liczba tokenów tylko w danych wejściowych

Sprawdź liczbę tokenów zarówno w żądaniach, jak i odpowiedziach.

Uzyskaj dostęp do atrybutu usageMetadata w obiekcie odpowiedzi. Obejmuje to:

prompt_token_count: liczba tokenów tylko w danych wejściowych
candidates_token_count: liczba tokenów tylko w danych wyjściowych (nie obejmuje tokenów myślenia)
thoughts_token_count: liczba tokenów myślenia użytych do wygenerowania odpowiedzi
total_token_count: łączna liczba tokenów zarówno w danych wejściowych, jak i wyjściowych (obejmuje tokeny myślenia)

W przypadku strumieniowania danych wyjściowych atrybut usageMetadata pojawia się tylko w ostatnim fragmencie strumienia. W przypadku fragmentów pośrednich ma wartość nil.

Pamiętaj o tych kwestiach dotyczących opcji wymienionych powyżej:

Nie zliczą one liczby obrazów wejściowych ani liczby sekund w plikach wejściowych audio lub wideo. Liczba tokenów w przypadku każdego z tych formatów będzie jednak skorelowana z tymi wartościami.
Liczba tokenów wejściowych obejmuje prompt (tekst i wszystkie pliki wejściowe), a także instrukcje systemowe i narzędzia.
Liczba tokenów wyjściowych nie obejmuje tokenów myślenia. Są one podawane w osobnym polu.
Dodatkowe informacje dotyczące każdego typu żądania znajdziesz w dalszej części tej strony.
Modele Gemini Live API nie obsługują countTokens. Ponadto Firebase AI Logic nie obsługuje jeszcze atrybutu usageMetadata w odpowiedzi z Live API modeli, ale wkrótce się to zmieni.

Ceny tych opcji

Wywoływanie countTokens: wywoływanie countTokens (interfejsu Count Tokens API) jest bezpłatne. Maksymalny limit interfejsu Count Tokens API to 3000 żądań na minutę.
Używanie atrybutu usageMetadata: ten atrybut jest zawsze zwracany w ramach odpowiedzi i nie powoduje naliczania tokenów ani opłat.

Dodatkowe informacje

Oto dodatkowe informacje dotyczące pracy z określonymi typami żądań.

Zliczanie tokenów wejściowych tekstu

Brak dodatkowych informacji.

Zliczanie tokenów czatu wieloetapowego

Podczas wywoływania countTokens w przypadku czatu pamiętaj o tych kwestiach:

Jeśli wywołasz countTokens z historią czatu, zwróci ona łączną liczbę tokenów z obu ról w czacie (total_tokens).
Aby dowiedzieć się, jak duża będzie kolejna tura rozmowy, musisz dołączyć ją do historii, gdy wywołujesz countTokens.

Zliczanie tokenów wejściowych multimodalnych

Podczas zliczania tokenów z danymi wejściowymi multimodalnymi pamiętaj o tych kwestiach:

Możesz opcjonalnie wywołać countTokens osobno dla tekstu i pliku.
W przypadku obu opcji zliczania tokenów otrzymasz tę samą liczbę tokenów niezależnie od tego, czy podasz plik jako dane wbudowane, czy użyjesz jego adresu URL.

Pliki wejściowe graficzne

Pliki wejściowe graficzne są konwertowane na tokeny na podstawie ich wymiarów:

Dane wejściowe graficzne, których oba wymiary są mniejsze lub równe 384 piksele: każdy obraz jest liczony jako 258 tokenów.
Dane wejściowe graficzne, które są większe w jednym lub obu wymiarach: każdy obraz jest przycinany i skalowany w razie potrzeby do kafelków o wymiarach 768 x 768 pikseli, a następnie każdy kafelek jest liczony jako 258 tokenów.

Pliki wejściowe audio i wideo

Pliki wejściowe audio i wideo są konwertowane na tokeny według tych stałych stawek:

Wideo: 263 tokeny na sekundę
Audio: 32 tokeny na sekundę

Pliki wejściowe dokumentów (np. PDF)

Pliki wejściowe PDF są traktowane jako obrazy, więc każda strona PDF jest tokenizowana w taki sam sposób jak obraz.