Informacje o obsługiwanych modelach

W przypadku aplikacji mobilnych i internetowych pakiety SDK Firebase AI Logic umożliwiają interakcję z obsługiwanymi modelami GeminiImagen 3 bezpośrednio z aplikacji.

Modele Gemini są uważane za multimodalne, ponieważ potrafią przetwarzać i nawet generować różne rodzaje danych, w tym tekst, kod, pliki PDF, obrazy, filmy i dźwięk. Modele Imagen 3 mogą być wywoływane za pomocą tekstu w celu generowania obrazów.

W tabeli poniżej znajdziesz krótki przegląd obsługiwanych modeli Firebase AI Logic oraz ich najnowszych stabilnych nazw. Tabela zawiera też modele w wersji zapoznawczej i eksperymentalnej, które są dostępne do tworzenia prototypów.

Model Dane wejściowe Wyniki Opis
Gemini modeli ze stabilnymi wersjami
Gemini 2.0 Flash
gemini-2.0-flash-001
tekst, kod, pliki PDF, obrazy, filmy, dźwięk tekst, kod, JSON
(obrazy i dźwięk wkrótce!)
Nasz multimodalny model z funkcjami nowej generacji i ulepszonymi możliwościami, w tym większą szybkością, wbudowanym narzędziem i oknem kontekstu z milionem tokenów (wkrótce udostępnimy generowanie multimodalne)
Gemini 2.0 Flash‑Lite
gemini-2.0-flash-lite-001
tekst, kod, pliki PDF, obrazy, filmy, dźwięk tekst, kod, JSON Nasz najszybszy i najbardziej ekonomiczny model Flash. Jest to ścieżka uaktualnienia dla użytkowników Gemini 1.5 Flash, którzy chcą uzyskać lepszą jakość przy tej samej cenie i szybkości.
Geminimodele z tylko wersjami podglądu i eksperymentalnymi (zalecane tylko do tworzenia prototypów)
Gemini 2.5 Pro
gemini-2.5-pro-preview-05-06
tekst, kod, pliki PDF, obrazy, filmy, dźwięk tekst, kod, JSON Nasz najbardziej zaawansowany model rozumujący, który potrafi rozwiązywać złożone problemy.
Gemini 2.5 Flash
gemini-2.5-flash-preview-04-17
tekst, kod, pliki PDF, obrazy, filmy, dźwięk tekst, kod, JSON Nasz model myślenia, który zapewnia świetne, wszechstronne możliwości. Został on zaprojektowany tak, aby zapewnić równowagę między ceną a wydajnością.
Gemini 2.0 Flash‑Live 1
gemini-2.0-flash-live-preview-04-09
tekst (strumieniowanie),
dźwięk (strumieniowanie).
tekst (strumieniowanie),
dźwięk (strumieniowanie).
Nasz model multimodalny, który obsługuje strumieniowanie w czasie rzeczywistym z minimalnym opóźnieniem multimodalnych danych wejściowych i wyjściowych.
Imagen 3 modeli (w przypadku korzystania z Firebase AI Logic)
Imagen 3
imagen-3.0-generate-002
tekst obrazy generuje realistyczne obrazy wysokiej jakości na podstawie promptów w języku naturalnym.
Imagen 3 Fast 2
imagen-3.0-fast-generate-001
tekst obrazy generuje obrazy do tworzenia prototypów lub do zastosowań wymagających niskiego opóźnienia;

1 Nieobsługiwane w przypadku używania pakietu Gemini Developer API z pakietami SDK Firebase AI Logic.
2 Nieobsługiwane przez Gemini Developer API niezależnie od sposobu uzyskiwania dostępu do interfejsu API.

Zapoznaj się też z najczęściej zadawanymi pytaniami dotyczącymi wszystkich modeli obsługiwanych i nieobsługiwanych przez Firebase AI Logic.


Pozostała część tej strony zawiera szczegółowe informacje o modelach obsługiwanych przez Firebase AI Logic.

  • Porównaj modele:

    • Obsługiwane urządzenia wejściowe i wyjściowe
    • Ogólne porównanie obsługiwanych funkcji
    • Specyfikacje i ograniczenia, np. maksymalna liczba tokenów wejściowych lub maksymalna długość filmu wejściowego
  • Opis wersji modeli, w szczególności ich wersji stabilnej, automatycznie aktualizowanej, podglądowejeksperymentalnej.

  • listy dostępnych nazw modeli do uwzględnienia w kodzie podczas inicjalizacji;

  • listy obsługiwanych języków dla modeli;

U dołu tej strony możesz wyświetlić szczegółowe informacje o starszych modelach.



Porównanie modeli

Każdy model ma inne możliwości, które umożliwiają obsługę różnych przypadków użycia. Pamiętaj, że każda tabela w tej sekcji opisuje poszczególne modele w połączeniu z użyciem funkcji Firebase AI Logic. Każdy model może mieć dodatkowe funkcje, które nie są dostępne podczas korzystania z naszych pakietów SDK.

Jeśli nie możesz znaleźć potrzebnych informacji w podrozdziałach poniżej, więcej informacji znajdziesz w dokumentacji wybranego dostawcy interfejsu API:

Obsługiwane urządzenia wejściowe i wyjściowe

Oto obsługiwane typy danych wejściowych i wyjściowych w przypadku każdego modelu z użyciem funkcji Firebase AI Logic:

<span="notranslate">Gemini
2.5 Pro </span="notranslate">
<span="notranslate">Gemini
2.5 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Lite </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Live </span="notranslate">
Imagen 3 /
Imagen 3 Fast
Typy danych wejściowych
Tekst
Tekst (streaming)
Kod
Dokumenty
(pliki PDF lub tekstowe)
Obrazy
Wideo
Audio
Dźwięk (strumieniowanie)
Typy danych wyjściowych
Tekst
Tekst (streaming)
Kod
uporządkowane dane wyjściowe
(np. w formacie JSON);
Obrazy wkrótce
Audio wkrótce
Dźwięk (strumieniowanie)

Więcej informacji o obsługiwanych typach plików znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania.

Obsługiwane funkcje i możliwości

Te funkcje są obsługiwane podczas korzystania z każdego modelu z użyciem Firebase AI Logic:

<span="notranslate">Gemini
2.5 Pro </span="notranslate">
<span="notranslate">Gemini
2.5 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Lite </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Live </span="notranslate">
Imagen 3 /
Imagen 3 Fast
generować tekst na podstawie danych wejściowych zawierających tylko tekst lub dane multimodalne; tylko strumieniowanie,
Generowanie obrazów
(Imagen 3)
wkrótce
Wygeneruj dźwięk wkrótce tylko strumieniowanie,
Generowanie uporządkowanych danych wyjściowych
(np. w formacie JSON)
Analizować dokumenty
(pliki PDF lub tekst)
analizować obrazy (systemy wizyjne);
Analiza wideo(wizja)
Analiza dźwięku tylko strumieniowanie,
Czat wieloetapowy
Wywoływanie funkcji (narzędzia)
Liczba tokenów
Instrukcje dotyczące systemu
Transmisja multimodalna w obu kierunkach

Specyfikacje i ograniczenia

Oto specyfikacje i ograniczenia w przypadku każdego modelu z parametrem Firebase AI Logic:

Właściwość <span="notranslate">Gemini
2.5 Pro </span="notranslate">
<span="notranslate">Gemini
2.5 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Lite </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Live </span="notranslate">
Imagen 3 /
Imagen 3 Fast
Okno kontekstu *
Łączny limit tokenów
(łączna liczba tokenów wejściowych i wyjściowych)
1 048 576 tokenów 1 048 576 tokenów 1 048 576 tokenów 1 048 576 tokenów 32 768 tokenów 480 tokenów
Limit tokenów wyjściowych * 65 536 tokenów 65 536 tokenów 8192 tokenów 8192 tokenów --- ---
Data granicy wiedzy Styczeń 2025 r. Styczeń 2025 r. Czerwiec 2024 r. Czerwiec 2024 r. Sierpień 2024 r. ---
pliki PDF (na żądanie),
Maksymalna liczba
pobranych plików PDF **
3000 plików 3000 plików 3000 plików 3000 plików --- ---
Maksymalna liczba
stron
na plik PDF wejściowy **
1000 stron 1000 stron 1000 stron 1000 stron --- ---
Maksymalny rozmiar
na plik PDF wejściowy
50 MB 50 MB 50 MB 50 MB --- ---
Obrazy (na żądanie)
Maksymalna liczba
obrazów wejściowych
3000 obrazów 3000 obrazów 3000 obrazów 3000 obrazów --- ---
Maksymalna liczba
obrazów
--- --- wkrótce --- --- 4 obrazy
Maksymalny rozmiar
na obraz zakodowany w formacie base64
7 MB 7 MB 7 MB 7 MB --- ---
Wideo (na żądanie)
Maksymalna liczba
wejściowych plików wideo
10 plików 10 plików 10 plików 10 plików --- ---
Maksymalna długość
wszystkich filmów wejściowych
(tylko ramki)
ok. 60 minut ok. 60 minut ok. 60 minut ok. 60 minut --- ---
Maksymalna długość
wszystkich filmów wejściowych
(ramki + dźwięk)
ok. 45 minut ok. 45 minut ok. 45 minut ok. 45 minut --- ---
Dźwięk (z uwzględnieniem żądań)
Maksymalna liczba
plików audio
1 plik 1 plik 1 plik 1 plik --- ---
Maksymalna liczba
pliku wyjściowego
--- --- wkrótce --- --- ---
Maksymalna długość
wszystkich wejść audio
ok.8,4 godziny ok.8,4 godziny ok.8,4 godziny ok.8,4 godziny --- ---
Maksymalna długość
wszystkich dźwięków wyjściowych
--- --- wkrótce --- --- ---

*W przypadku wszystkich modeli Gemini jeden token odpowiada około 4 znakom, a 100 tokenów to około 60–80 słów w języku angielskim. W przypadku modeli Gemini możesz określić łączną liczbę tokenów w żądaniach za pomocą countTokens.

** Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w żądaniu jest ograniczona do liczby obrazów, które może obsługiwać model.

Znajdowanie dodatkowych szczegółowych informacji

  • Limityopłaty są różne w zależności od modelu. Ceny zależą też od danych wejściowych i wyjściowych.

  • Dowiedz się więcej o obsługiwanych typach plików wejściowych, o tym, jak określić typ MIME, oraz o tym, jak sprawdzić, czy pliki wejściowe i zapytania multimodalne spełniają wymagania i czy są zgodne ze wskazówkami podanymi w artykule Obsługiwane pliki wejściowe i wymagania.



Wzorce nazewnictwa i wersji modeli

Modele są dostępne w wersjach stabilnej, testowejeksperymentalnej. Dla wygody obsługiwane są aliasy bez dokładnych wartości wersji.

Aby znaleźć konkretne nazwy modeli do użycia w kodzie, zapoznaj się z sekcją „dostępne nazwy modeli” dalej na tej stronie.

Typ wersji /
Etap wydania
Opis Wzorzec nazwy modelu
Stabilna Stabilne wersje są dostępne i obsługiwane w celu użytku produkcyjnego od daty premiery.

Stabilna wersja modelu jest zwykle udostępniana z datą wycofania, która wskazuje ostatni dzień, w którym model jest dostępny. Po tej dacie model nie będzie już dostępny ani obsługiwany przez Google.

nazwy modeli stabilnych wersji są uzupełniane o specyficzny 3-cyfrowy numer wersji.

Przykład: gemini-2.0-flash-001
Przykład: imagen-3.0-generate-002

Stały alias aktualizowany automatycznie Automatycznie aktualizowane aliasy wersji stabilnych zawsze wskazują najnowszą wersję stabilną danego modelu. Jeśli zostanie opublikowana nowa wersja stabilna, alias automatycznie aktualizowany automatycznie zacznie wskazywać nową wersję stabilną.

Nazwa modelu aliasu nie zawiera żadnych dodatkowych elementów.

Przykład: gemini-2.0-flash

Podgląd Wersje w obejściu mają nowe możliwości i są uważane za niestabilne.

Wersje podglądu zawsze odnoszą się do najnowszej wersji tego modelu. Jeśli zostanie opublikowana nowa wersja podglądu, wszystkie istniejące wersje podglądu będą automatycznie wskazywać nową wersję podglądu.

Te modele nie są zalecane do użytku w środowisku produkcyjnym. Mają one bardziej restrykcyjne limity stawek i mogą wymagać płatności.

Nazwy modeli wersji podglądu są uzupełniane o parametr -preview oraz datę wydania modelu (-MM-DD).

Przykład: gemini-2.5-flash-preview-04-17
(wydana 17 kwietnia 2025 r.)

eksperymentalna, Wersje eksperymentalne mają nowe funkcje i są uważane za niestabilne.

Te modele nie są zalecane do użytku w środowisku produkcyjnym i mają bardziej restrykcyjne limity szybkości. Modele eksperymentalne służą do zbierania opinii i testowania naszych najnowszych funkcji.

Nazwy modeli wersji eksperymentalnych są uzupełniane o parametr -exp oraz datę wydania modelu (-MM-DD).

Przykład: gemini-2.5-pro-exp-03-25
(wydana 25 marca 2025 r.)

Jestem na emeryturze Wycofane wersje są trwale dezaktywowane po upływie terminu ich wycofania.

Wycofane modele nie są już dostępne ani obsługiwane przez Google. Żądania odwołujące się do wycofanego identyfikatora modelu zwykle zwracają błąd 404.

---



Dostępne nazwy modeli

Nazwy modeli to wartości jawne, które uwzględniasz w kodzie podczas inicjalizacji modelu.

Wyświetlanie wszystkich dostępnych modeli za pomocą programowania

Listę wszystkich dostępnych nazw modeli możesz wyświetlić za pomocą interfejsu API REST:

Zwróć uwagę, że zwrócona lista będzie zawierać wszystkie modele obsługiwane przez dostawców interfejsów API, ale Firebase AI Logic obsługuje tylko modele GeminiImagen opisane na tej stronie. Pamiętaj też, że aliasy aktualizowane automatycznie (np. gemini-2.0-flash) nie są wyświetlane, ponieważ są to aliasy ułatwiające korzystanie z modelu podstawowego.

Gemini nazwy modeli

Przykłady inicjalizacji dla danej platformy znajdziesz w przewodniku dla początkujących.

Szczegółowe informacje o etapach wprowadzania (zwłaszcza o przypadkach użycia i fakturowaniu) znajdziesz w artykule Wzory wersji i nazwy modeli.

Gemini 2.5 Pro nazwy modeli

Nazwa modelu Opis Etap udostępniania Data premiery Data przejścia na emeryturę
gemini-2.5-pro-preview-05-06 Wersja podglądu: Gemini 2.5 Pro Podgląd 2025-05-06 Jeszcze nieznany
gemini-2.5-pro-preview-03-25 Wersja podglądu wskazująca gemini-2.5-pro-preview-05-06
(jest to najnowsza wersja podglądu)
Podgląd 2025-03-25 Jeszcze nieznany

Gemini 2.5 Flash nazwy modeli

Nazwa modelu Opis Etap udostępniania Data premiery Data przejścia na emeryturę
gemini-2.5-flash-preview-04-17 Wersja podglądu: Gemini 2.5 Flash Podgląd 2025-04-17 Jeszcze nieznany

Gemini 2.0 Flash nazwy modeli

Nazwa modelu Opis Etap udostępniania Data premiery Data przejścia na emeryturę
gemini-2.0-flash-001 najnowsza stabilna wersja aplikacji Gemini 2.0 Flash, Stabilny 2025-02-05 Nie wcześniej niż
2026-02-05
gemini-2.0-flash Automatycznie aktualizowany alias wskazujący najnowszą wersję stabilną modelu 2.0 Flash
(obecnie gemini-2.0-flash-001)
Stabilny 2025-02-10 ---

Gemini 2.0 Flash‑Lite nazwy modeli

Nazwa modelu Opis Etap udostępniania Data premiery Data przejścia na emeryturę
gemini-2.0-flash-lite-001 najnowsza stabilna wersja aplikacji Gemini 2.0 Flash‑Lite, Stabilny 2025-02-25 Nie wcześniej niż
2026-02-25
gemini-2.0-flash-lite Alias automatycznie aktualizowany do najnowszej stabilnej wersji 2.0 Flash-Lite
(obecnie gemini-2.0-flash-lite-001)
Stabilny 2025-02-25 ---

Gemini 2.0 Flash‑Live nazwy modeli

Dostępne tylko wtedy, gdy używasz interfejsu API od firmy Vertex AI Gemini API.

Nazwa modelu Opis Etap udostępniania Data premiery Data przejścia na emeryturę
gemini-2.0-flash-live-preview-04-09 1 Wersja podglądu: Gemini 2.0 Flash‑Live Podgląd 2025-04-09 Jeszcze nieznany

1 Nieobsługiwane w przypadku używania pakietu Gemini Developer API z pakietami SDK Firebase AI Logic.

Imagen nazwy modeli

Przykłady inicjalizacji dla danej platformy znajdziesz w przewodniku generowanie obrazów za pomocą Imagen.

Szczegółowe informacje o etapach wprowadzania (zwłaszcza o przypadkach użycia i fakturowaniu) znajdziesz w artykule Wzory wersji i nazwy modeli.

Imagen 3 nazwy modeli

Nazwa modelu Opis Etap udostępniania Data premiery Data przejścia na emeryturę
imagen-3.0-generate-002 najnowsza stabilna wersja aplikacji Imagen 3, Stabilny 2025-01-23 Nie wcześniej niż 23.01.2026
imagen-3.0-generate-001 2 Pierwsza stabilna wersja Imagen 3 Stabilny 2024-07-31 Nie wcześniej niż 31.07.2025

Imagen 3 Fast nazwy modeli

Nazwa modelu Opis Etap udostępniania Data premiery Data przejścia na emeryturę
imagen-3.0-fast-generate-001 2 Pierwsza stabilna wersja Imagen 3 Fast Stabilny 2024-07-31 Nie wcześniej niż 31.07.2025

2 Nieobsługiwane przez Gemini Developer API niezależnie od sposobu uzyskiwania dostępu do interfejsu API.



Obsługiwane języki

Gemini

  • Wszystkie modele Gemini mogą rozumieć i odpowiadać w tych językach:

    arabski (ar), bengalski (bn), bułgarski (bg), chiński uproszczony i tradycyjny (zh), chorwacki (hr), czeski (cs), duński (da), niderlandzki (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), indonezyjski (id), hiszpański (es), japoński (ja), koreański (ko), łaciński (la), litewski (lt), norweski (no), polski (pl), portugalski (pt), rumuński (ro), rosyjski (ru), serbski (sr), słowacki (sk), słoweński (sl), szwedzki (sv), swahili (sw), tajski (th), turecki (tr), ukraiński (uk), wietnamski (vi)

  • Modele Gemini 2.0 Flash, Gemini 1.5 ProGemini 1.5 Flash rozumieją i odpowiadają w tych dodatkowych językach:

    Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)

Imagen

  • Ogólna dostępność: angielski

  • Podgląd: chiński (uproszczony), chiński (tradycyjny), hindi, japoński, koreański, portugalski, hiszpański



Informacje o starszych modelach

Firebase AI Logic obsługuje starsze aktywne modele Gemini (np. modele Gemini 1.5).

Firebase AI Logic nie obsługuje starszych modeli Imagen (takich jak Imagen 2).

Model Dane wejściowe Wyniki Zoptymalizowany dla
Gemini 1.5 Pro
gemini-1.5-pro-002
tekst, kod, pliki PDF, obrazy, filmy, dźwięk tekst, kod, JSON Obsługuje złożone zadania wymagające większej inteligencji; 2 mln tokenów w kontekście
Gemini 1.5 Flash
gemini-1.5-flash-002
tekst, kod, pliki PDF, obrazy, filmy, dźwięk tekst, kod, JSON Zapewnia szybkie i wszechstronne działanie w różnych zastosowaniach
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision-001
tekst, kod, pliki PDF, obrazy, filmy (tylko klatki) text, code Obsługuje tekst, obrazy i filmy w przypadku odpowiedzi tekstowych lub kodu. Nie można ich używać do czatu.
Gemini 1.0 Pro
gemini-1.0-pro-002
text, code text, code Zdania w języku naturalnym, rozmowy tekstowe i dotyczące kodu oraz generowanie kodu



Dalsze kroki

Poznaj możliwości Gemini API