Per le app mobile e web, gli SDK Firebase AI Logic ti consentono di interagire con i modelli Gemini e Imagen 3 supportati direttamente dalla tua app.
I modelli Gemini sono considerati multimodali perché sono in grado di elaborare e persino generare più modalità, tra cui testo, codice, PDF, immagini, video e audio. I modelli Imagen 3 possono essere attivati con del testo per generare immagini.
La tabella seguente è una breve panoramica dei modelli supportati perFirebase AI Logic e dei relativi nomi dei modelli stabili più recenti. Questa tabella elenca anche i modelli di anteprima e sperimentali disponibili per la prototipazione dei casi d'uso.
Modello | Input | Output | Descrizione |
---|---|---|---|
Modelli Gemini con versioni stabili | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
testo, codice, PDF, immagini, video, audio | testo, codice, JSON (immagini e audio disponibili a breve) |
Il nostro modello multimodale con funzionalità di nuova generazione e funzionalità migliorate, tra cui velocità superiore, utilizzo di strumenti integrati e una finestra contestuale da 1 milione di token (generazione multimodale disponibile a breve!) |
Gemini 2.0 Flash‑Litegemini-2.0-flash-lite-001
|
testo, codice, PDF, immagini, video, audio | testo, codice, JSON | Il nostro modello Flash più veloce ed economico. Si tratta di un percorso di upgrade per gli utenti di Flash 1.5 che vogliono una qualità migliore allo stesso prezzo e con la stessa velocità. |
Modelli Gemini con solo versioni sperimentali e di anteprima (consigliate solo per casi d'uso di prototipazione) | |||
Gemini 2.5 Progemini-2.5-pro-preview-05-06
|
testo, codice, PDF, immagini, video, audio | testo, codice, JSON | Il nostro modello di ragionamento più avanzato, in grado di risolvere problemi complessi. |
Gemini 2.5 Flashgemini-2.5-flash-preview-04-17
|
testo, codice, PDF, immagini, video, audio | testo, codice, JSON | Il nostro modello di pensiero che offre funzionalità complete e straordinarie. È progettato per offrire un equilibrio tra prezzo e prestazioni. |
Gemini 2.0 Flash‑Live 1gemini-2.0-flash-live-preview-04-09
|
testo (streaming), audio (streaming) |
testo (streaming), audio (streaming) |
Il nostro modello multimodale che supporta lo streaming in tempo reale con latenza ridotta di input e output multimodali. |
Modelli Imagen 3 (se utilizzati con Firebase AI Logic) | |||
Imagen 3imagen-3.0-generate-002 |
testo | immagini | Genera immagini realistiche e di alta qualità da prompt di testo in linguaggio naturale |
Imagen 3 Fast 2imagen-3.0-fast-generate-001
|
testo | immagini | Genera immagini per la prototipazione o per casi d'uso a bassa latenza |
1 Non supportato se si utilizza Gemini Developer API con gli SDK Firebase AI Logic.
2 Non supportato da Gemini Developer API indipendentemente dal modo in cui accedi all'API.
Consulta anche le nostre Domande frequenti su tutti i modelli supportati e non supportati da Firebase AI Logic.
Il resto di questa pagina fornisce informazioni dettagliate sui modelli supportati da Firebase AI Logic.
-
- Input e output supportati
- Confronto di alto livello delle funzionalità supportate
- Specifiche e limitazioni, ad esempio token di input massimi o durata massima del video di input
Descrizione di come vengono versionati i modelli, in particolare le versioni stabili, con aggiornamento automatico, di anteprima ed sperimentali
Elenchi di nomi di modelli disponibili da includere nel codice durante l'inizializzazione
Elenchi delle lingue supportate per i modelli
Nella parte inferiore di questa pagina puoi visualizzare informazioni dettagliate sui modelli precedenti.
Confronta i modelli
Ogni modello ha funzionalità diverse per supportare vari casi d'uso. Tieni presente che ciascuna delle tabelle in questa sezione descrive ogni modello se utilizzato con Firebase AI Logic. Ogni modello potrebbe avere funzionalità aggiuntive non disponibili quando utilizzi i nostri SDK.
Se non riesci a trovare le informazioni che cerchi nelle seguenti sezioni secondarie, puoi trovare ulteriori informazioni nella documentazione del fornitore di API scelto:
Gemini Developer API: modelli Gemini e modelli Imagen
Vertex AI Gemini API: modelli Gemini e modelli Imagen
Input e output supportati
Questi sono i tipi di input e output supportati quando utilizzi ciascun modello con Firebase AI Logic:
<span="notranslate">Gemini 2.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|||
---|---|---|---|---|---|---|---|---|
Tipi di input | ||||||||
Testo | ||||||||
Testo (streaming) | ||||||||
Codice | ||||||||
Documenti (PDF o testo normale) |
||||||||
Immagini | ||||||||
Video | ||||||||
Audio | ||||||||
Audio (streaming) | ||||||||
Tipi di output | ||||||||
Testo | ||||||||
Testo (streaming) | ||||||||
Codice | ||||||||
Output strutturato (ad es. JSON) |
||||||||
Immagini | disponibile a breve | |||||||
Audio | disponibile a breve | |||||||
Audio (streaming) |
Per informazioni sui tipi di file supportati, consulta Requisiti e file di input supportati.
Funzionalità e capacità supportate
Di seguito sono riportate le funzionalità e le capacità supportate quando si utilizza ciascun modello con Firebase AI Logic:
<span="notranslate">Gemini 2.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|
---|---|---|---|---|---|---|
Genera testo da input di testo o multimodali | Solo streaming | |||||
Genera immagini (Imagen 3) |
disponibile a breve | |||||
Genera audio | disponibile a breve | Solo streaming | ||||
Genera
output strutturato
(ad es. JSON) |
||||||
Analizza i documenti
(PDF o testo normale) |
||||||
Analizzare le immagini (visione) | ||||||
Analisi video (visione) | ||||||
Analizzare l'audio | Solo streaming | |||||
Chat a più turni | ||||||
Chiamata di funzioni (strumenti) | ||||||
Conteggio token | ||||||
Istruzioni di sistema | ||||||
Streaming multimodale bidirezionale |
Specifiche e limitazioni
Di seguito sono riportate le specifiche e le limitazioni relative all'utilizzo di ciascun modello con Firebase AI Logic:
Proprietà |
<span="notranslate">Gemini 2.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|
---|---|---|---|---|---|---|---|
Finestra contestuale * Limite di token totale (input+output combinati) |
1.048.576 token | 1.048.576 token | 1.048.576 token | 1.048.576 token | 32.768 token | 480 token | |
Limite di token di output * | 65.536 token | 65.536 token | 8192 token | 8192 token | --- | --- | |
Data di knowledge cutoff | Gennaio 2025 | Gennaio 2025 | Giugno 2024 | Giugno 2024 | Agosto 2024 | --- | |
PDF (su richiesta) | |||||||
Numero massimo di file PDF di input ** |
3000 file | 3000 file | 3000 file | 3000 file | --- | --- | |
Numero massimo di pagine per file PDF di input ** |
1000 pagine | 1000 pagine | 1000 pagine | 1000 pagine | --- | --- | |
Dimensioni massime per file PDF di input |
50 MB | 50 MB | 50 MB | 50 MB | --- | --- | |
Immagini (per richiesta) | |||||||
Numero massimo di immagini di input |
3000 immagini | 3000 immagini | 3000 immagini | 3000 immagini | --- | --- | |
Numero massimo di immagini di output |
--- | --- | disponibile a breve | --- | --- | 4 immagini | |
Dimensioni massime per immagine di input con codifica Base64 |
7 MB | 7 MB | 7 MB | 7 MB | --- | --- | |
Video (su richiesta) | |||||||
Numero massimo di file video di input |
10 file | 10 file | 10 file | 10 file | --- | --- | |
Lunghezza massima di tutti i video di input (solo frame) |
60 minuti circa | 60 minuti circa | 60 minuti circa | 60 minuti circa | --- | --- | |
Lunghezza massima di tutti i video di input (fotogrammi + audio) |
45 minuti circa | 45 minuti circa | 45 minuti circa | 45 minuti circa | --- | --- | |
Audio (su richiesta) | |||||||
Numero massimo di file audio di input |
1 file | 1 file | 1 file | 1 file | --- | --- | |
Numero massimo di file audio di output |
--- | --- | disponibile a breve | --- | --- | --- | |
Lunghezza massima di tutto l'audio di input |
~8,4 ore | ~8,4 ore | ~8,4 ore | ~8,4 ore | --- | --- | |
Lunghezza massima di tutto l'audio in uscita |
--- | --- | disponibile a breve | --- | --- | --- |
*
Per tutti i modelli Gemini, un token equivale a circa 4 caratteri, quindi 100 token corrispondono a circa 60-80 parole in inglese. Per i modelli Gemini, puoi determinare il numero totale di token nelle richieste utilizzando countTokens
.
** I PDF vengono trattati come immagini, quindi una singola pagina di un PDF viene considerata come un'immagine. Il numero di pagine consentite in una richiesta è limitato al numero di immagini supportate dal modello.
Trovare ulteriori informazioni dettagliate
Le quote e i prezzi sono diversi per ogni modello. I prezzi dipendono anche da input e output.
Scopri i tipi di file di input supportati, come specificare il tipo MIME e come assicurarti che i file di input e le richieste multimodali soddisfino i requisiti e seguano le best practice in File di input e requisiti supportati.
Versionamento e pattern di denominazione dei modelli
I modelli sono disponibili nelle versioni stabili, di anteprima e sperimentali. Per comodità, sono supportati gli alias senza valori di versione espliciti.
Per trovare nomi di modelli specifici da utilizzare nel codice, consulta la sezione "Nomi dei modelli disponibili" di questa pagina.
Tipo di versione / Fase di rilascio |
Descrizione | Pattern del nome del modello | |
---|---|---|---|
Stabile |
Le versioni stabili sono disponibili e supportate per l'uso in produzione a partire dalla data di rilascio.
In genere, una versione stabile del modello viene rilasciata con una data di ritiro, che indica l'ultimo giorno in cui il modello è disponibile. Dopo questa data, il modello non è più accessibile o supportato da Google. |
Ai nomi dei modelli delle versioni stabili viene aggiunto un numero di versione specifico di tre cifre
Esempio: |
|
Alias stabile aggiornato automaticamente | Gli alias stabili con aggiornamento automatico rimandano sempre alla versione stabile più recente del modello. Se viene rilasciata una nuova versione stabile, l'alias con aggiornamento automatico inizia automaticamente a puntare alla nuova versione stabile. |
I nomi dei modelli degli alias non hanno appendici
Esempio: |
|
Anteprima |
Le versioni di anteprima includono nuove funzionalità e
sono considerate non stabili.
Le versioni di anteprima rimandano sempre alla versione di anteprima più recente del modello. Se viene rilasciata una nuova versione di anteprima, qualsiasi versione di anteprima esistente inizia automaticamente a puntare a questa nuova versione. Questi modelli non sono consigliati per l'uso in produzione, hanno limiti di frequenza più restrittivi e potrebbero avere requisiti di fatturazione. |
I nomi dei modelli delle versioni di anteprima sono aggiunti con
Esempio: |
|
Sperimentale |
Le versioni sperimentali hanno nuove funzionalità
e sono considerate non stabili.
Questi modelli non sono consigliati per l'uso in produzione e prevedono limiti di frequenza più restrittivi. I modelli sperimentali sono pensati per raccogliere feedback e consentire la sperimentazione delle nostre funzionalità più recenti. |
I nomi dei modelli delle versioni sperimentali sono aggiunti con
Esempio: |
|
In pensione |
Le versioni ritirate sono oltre la data di ritiro
e sono state disattivate definitivamente.
I modelli ritirati non sono più accessibili o supportati da Google. Le richieste che fanno riferimento a un ID modello ritirato in genere restituiscono un errore 404. |
--- |
Nomi dei modelli disponibili
I nomi dei modelli sono i valori espliciti che includi nel codice durante l'inizializzazione del modello.
Elenca in modo programmatico tutti i modelli disponibili
Puoi elencare tutti i nomi dei modelli disponibili utilizzando l'API REST:
Gemini Developer API: chiama l'endpoint
models.list
Vertex AI Gemini API: chiama l'endpoint
publishers.models.list
Tieni presente che questo elenco restituito includerà tutti i modelli supportati dai fornitori di API, ma Firebase AI Logic supporta solo i modelli Gemini e Imagen descritti in questa pagina.
Tieni inoltre presente che gli alias aggiornati automaticamente (ad es. gemini-2.0-flash
) non sono elencati perché sono un alias pratico per il modello di base.
Gemini nomi dei modelli
Per esempi di inizializzazione per la tua piattaforma, consulta la guida introduttiva.
Per informazioni dettagliate sulle fasi di rilascio (in particolare per i casi d'uso e la fatturazione), consulta model versioning and naming patterns.
Gemini 2.5 Pro nomi dei modelli
Nome modello | Descrizione | Fase di rilascio | Data di uscita | Data del ritiro |
---|---|---|---|---|
gemini-2.5-pro-preview-05-06 |
Versione di anteprima di Gemini 2.5 Pro | Anteprima | 2025-05-06 | Da stabilire |
gemini-2.5-pro-preview-03-25 |
Versione di anteprima che rimanda a gemini-2.5-pro-preview-05-06 (ovvero la versione di anteprima più recente) |
Anteprima | 25/03/2025 | Da stabilire |
Gemini 2.5 Flash nomi dei modelli
Nome modello | Descrizione | Fase di rilascio | Data di uscita | Data del ritiro |
---|---|---|---|---|
gemini-2.5-flash-preview-04-17 |
Versione di anteprima di Gemini 2.5 Flash | Anteprima | 2025-04-17 | Da stabilire |
Gemini 2.0 Flash nomi dei modelli
Nome modello | Descrizione | Fase di rilascio | Data di uscita | Data del ritiro |
---|---|---|---|---|
gemini-2.0-flash-001 |
Ultima versione stabile di Gemini 2.0 Flash | Stabile | 2025-02-05 | Non prima del giorno 05-02-2026 |
gemini-2.0-flash |
Alias aggiornato automaticamente che rimanda alla versione stabile più recente di 2.0 Flash (attualmente gemini-2.0-flash-001 |
Stabile | 2025-02-10 | --- |
Gemini 2.0 Flash‑Lite nomi dei modelli
Nome modello | Descrizione | Fase di rilascio | Data di uscita | Data del ritiro |
---|---|---|---|---|
gemini-2.0-flash-lite-001 |
Ultima versione stabile di Gemini 2.0 Flash‑Lite | Stabile | 2025-02-25 | Non prima del giorno 25-02-2026 |
gemini-2.0-flash-lite |
Alias aggiornato automaticamente che rimanda alla versione stabile più recente di 2.0 Flash-Lite (attualmente gemini-2.0-flash-lite-001 |
Stabile | 2025-02-25 | --- |
Gemini 2.0 Flash‑Live nomi dei modelli
Disponibile solo se utilizzi Vertex AI Gemini API come fornitore di API. |
Nome modello | Descrizione | Fase di rilascio | Data di uscita | Data del ritiro |
---|---|---|---|---|
gemini-2.0-flash-live-preview-04-09 1 |
Versione di anteprima per Gemini 2.0 Flash‑Live | Anteprima | 2025-04-09 | Da stabilire |
1 Non supportato se si utilizza Gemini Developer API con gli SDK Firebase AI Logic.
Imagen nomi dei modelli
Per esempi di inizializzazione per la tua piattaforma, consulta la guida alla generazione di immagini con Imagen.
Per informazioni dettagliate sulle fasi di rilascio (in particolare per i casi d'uso e la fatturazione), consulta model versioning and naming patterns.
Imagen 3 nomi dei modelli
Nome modello | Descrizione | Fase di rilascio | Data di uscita | Data del ritiro |
---|---|---|---|---|
imagen-3.0-generate-002 |
Ultima versione stabile di Imagen 3 | Stabile | 2025-01-23 | Non prima del 23/01/2026 |
imagen-3.0-generate-001 2 |
Versione stabile iniziale di Imagen 3 | Stabile | 2024-07-31 | Non prima del 31-07-2025 |
Imagen 3 Fast nomi dei modelli
Nome modello | Descrizione | Fase di rilascio | Data di uscita | Data del ritiro |
---|---|---|---|---|
imagen-3.0-fast-generate-001 2 |
Versione stabile iniziale di Imagen 3 Fast | Stabile | 2024-07-31 | Non prima del 31-07-2025 |
2 Non supportato dal Gemini Developer API indipendentemente dal modo in cui accedi all'API.
Lingue supportate
Gemini
Tutti i modelli Gemini possono comprendere e rispondere nelle seguenti lingue:
Arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), estone (et), finlandese (fi), francese (fr), tedesco (de), greco (el), ebraico (iw), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), lituano (lt), norvegese (no), polacco (pl), portoghese (pt), rumeno (ro), russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), swahili (sw), svedese (sv), thailandese (th), turco (tr), ucraino (uk), vietnamita (vi)
I modelli Gemini 2.0 Flash, Gemini 1.5 Pro e Gemini 1.5 Flash possono comprendere e rispondere nelle seguenti lingue aggiuntive:
Afrikaans (af), amarico (am), assamese (as), azero (az), bielorusso (be), bosniaco (bs), catalano (ca), cebuano (ceb), corso (co), gallese (cy), divehi (dv), esperanto (eo), basco (eu), persiano (fa), filippino (Tagalog) (fil), frisone (fy), irlandese (ga), gaelico scozzese (gd), galiziano (gl), gujarati (gu), hausa (ha), hawaiano (haw), hmong (hmn), creolo haitiano (ht), armeno (hy), igbo (ig), islandese (is), giavanese (jv), georgiano (ka), kazako (kk), khmer (km), kannada (kn), krio (kri), curdo (ku), kirghizo (ky), latino (la), lussemburghese (lb), lao (lo), malgache (mg), maori (mi), macedone (mk), malayalam (ml), mongolo (mn), meiteilon (manipuri) (mni-Mtei), marathi (mr), malese (ms), maltese (mt), birmano (birmano) (my), nepalese (ne), nyanja (chichewa) (ny), odia (oriya) (or), punjabi (pa), pashto (ps), sindhi (sd), singalese (singalese) (si), samoano (sm), shona (sn), somalo (so), albanese (sq), sesotho (st), sundanese (su), tamil (ta), telugu (te), tagico (tg), uiguro (ug), urdu (ur), uzbeko (uz), xhosa (xh), yiddish (yi), yoruba (yo), zulu (zu)
Imagen
Disponibilità generale: inglese
Anteprima: cinese (semplificato), cinese (tradizionale), hindi, giapponese, coreano, portoghese, spagnolo
Informazioni sui modelli precedenti
Firebase AI Logic supporta i modelli Gemini attivi meno recenti (ad esempio i modelli Gemini 1.5).
Firebase AI Logic non supporta i modelli Imagen precedenti (come Imagen 2).
Modello | Input | Output | Ottimizzato per |
---|---|---|---|
Gemini 1.5 Progemini-1.5-pro-002 |
testo, codice, PDF, immagini, video, audio | testo, codice, JSON | Supporta attività di ragionamento complesse che richiedono più intelligenza; contesto lungo di 2 milioni di token |
Gemini 1.5 Flashgemini-1.5-flash-002 |
testo, codice, PDF, immagini, video, audio | testo, codice, JSON | Offre prestazioni rapide e versatili per una vasta gamma di attività |
gemini-1.0-pro-vision-001 |
|
||
gemini-1.0-pro-002 |
|
Passaggi successivi
Prova le funzionalità di Gemini API
- Crea conversazioni a più turni (chat).
- Genera testo da prompt di solo testo.
- Genera testo tramite prompt con vari tipi di file, come immagini, PDF, video e audio.
- Genera output strutturato (come JSON) da prompt di testo e multimodali.
- Genera immagini da prompt di testo.
- Esegui lo streaming di input e output (incluso l'audio) utilizzando Gemini Live API.
- Utilizza le chiamate di funzione per collegare i modelli generativi a sistemi e informazioni esterni.