File di input supportati e requisiti

Quando chiami Gemini API dalla tua app utilizzando un SDK Firebase AI Logic, puoi chiedere al modello Gemini di generare testo in base a un input multimodale, come immagini, video e audio, e documenti (come PDF).

Devi utilizzare tipi di file supportati, specificare un tipo MIME supportato e assicurarti che i tuoi file e le richieste multimodali soddisfino i requisiti e seguano le best practice.

Questa pagina è specifica per l'utilizzo di un GenerativeModel e descrive quanto segue:

Opzioni per fornire file nelle richieste multimodali

Seleziona il tuo fornitore dell'API Gemini per visualizzare i contenuti specifici del fornitore in questa pagina

In ogni richiesta multimodale devi sempre fornire:

Le dimensioni e il numero di file che puoi fornire nella richiesta sono determinati da tipo di file di input, modalità di fornitura del file e modello utilizzato (per i dettagli, consulta la sezione di ciascun tipo di file di input in questa pagina).

Opzione 1: fornisci il file come dati in linea

Tieni presente quanto segue in merito ai file forniti come dati in linea:

  • Solo i file di piccole dimensioni possono essere inviati come dati incorporati perché il limite di dimensioni totali della richiesta è di 20 MB.

  • Il file viene codificato in base64 durante il trasferimento (il che aumenta la dimensione del file).

Per un esempio che mostra come includere un file come dati incorporati, vedi Generare testo da input di testo e file (multimodale). Tieni presente che gli SDK per le piattaforme Android e Apple possono gestire le immagini in linea nelle richieste senza la necessità di specificare il tipo MIME. Scopri di più.

Opzione 2: fornisci il file utilizzando un URL

Di seguito sono riportati i tipi di URL accettabili quando utilizzi Gemini Developer API:

  • URL del video di YouTube: il video di YouTube deve essere pubblico o non in elenco.

    Puoi specificare un URL di video YouTube per richiesta.



Immagini: requisiti, best practice e limitazioni

Immagini: requisiti

In questa sezione, scopri i tipi MIME supportati e i limiti per richiesta per le immagini.

Tipi MIME supportati

Gemini I modelli multimodali supportano i seguenti tipi MIME di immagini:

Tipo MIME immagine Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

Limiti per richiesta

Non esiste un limite specifico al numero di pixel in un'immagine. Tuttavia, le immagini più grandi vengono ridimensionate e riempite per adattarsi a una risoluzione massima di 3072 x 3072 mantenendo le proporzioni originali.

Ecco il numero massimo di file immagine consentiti in una richiesta di prompt:

  • Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite: 3000 immagini

Immagini: tokenizzazione

Ecco come vengono calcolati i token per le immagini:

  • Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite:
    • Se entrambe le dimensioni di un'immagine sono inferiori o uguali a 384 pixel, vengono utilizzati 258 token.
    • Se una dimensione di un'immagine è superiore a 384 pixel, l'immagine viene ritagliata in riquadri. Per impostazione predefinita, ogni dimensione del riquadro è pari alla dimensione più piccola (larghezza o altezza) divisa per 1,5. Se necessario, ogni riquadro viene modificato in modo che non sia inferiore a 256 pixel e non superiore a 768 pixel. Ogni riquadro viene quindi ridimensionato a 768x768 e utilizza 258 token.

Immagini: best practice

Quando utilizzi le immagini, segui queste best practice e informazioni per ottenere i risultati migliori:

  • Se vuoi rilevare il testo in un'immagine, utilizza prompt con una singola immagine per ottenere risultati migliori rispetto ai prompt con più immagini.
  • Se il prompt contiene una sola immagine, inseriscila prima del prompt di testo nella richiesta.
  • Se il prompt contiene più immagini e vuoi farvi riferimento in un secondo momento nel prompt o vuoi che il modello vi faccia riferimento nella risposta, può essere utile assegnare a ogni immagine un indice prima dell'immagine. Utilizza a b c o image 1 image 2 image 3 per l'indice. Di seguito è riportato un esempio di utilizzo di immagini indicizzate in un prompt:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Utilizza immagini con una risoluzione più elevata, in quanto producono risultati migliori.
  • Includi alcuni esempi nel prompt.
  • Ruota le immagini nell'orientamento corretto prima di aggiungerle al prompt.
  • Evita immagini sfocate.

Immagini: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:

  • Moderazione dei contenuti: i modelli si rifiutano di fornire risposte su immagini che violano le nostre norme di sicurezza.
  • Ragionamento spaziale: i modelli non sono precisi nell'individuazione di testo o oggetti nelle immagini. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
  • Usi medici: i modelli non sono adatti per interpretare immagini mediche (ad esempio radiografie e tomografie) o per fornire consulenza medica.
  • Riconoscimento delle persone: i modelli non sono pensati per identificare persone non famose nelle immagini.
  • Precisione: i modelli potrebbero avere allucinazioni o commettere errori quando interpretano immagini di bassa qualità, ruotate o a risoluzione estremamente bassa. I modelli potrebbero anche avere allucinazioni quando interpretano il testo scritto a mano in documenti di immagini.



Video: requisiti, best practice e limitazioni

Video: requisiti

In questa sezione, scopri i tipi MIME supportati e i limiti per richiesta per i video.

Tipi MIME supportati

I modelli multimodali Gemini supportano i seguenti tipi MIME video:

Tipo MIME video Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

Limiti per richiesta

Ecco il numero massimo di file video consentiti in una richiesta di prompt:

  • Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite: 10 file video

Video: tokenizzazione

Ecco come vengono calcolati i token per i video:

  • Gemini 2.5 Pro, Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite: la traccia audio è codificata con i fotogrammi video. La traccia audio è suddivisa in segmenti di 1 secondo, ognuno dei quali contiene 32 token. I token audio e video sono intervallati tra loro con i relativi timestamp. I timestamp sono rappresentati come 5 token.
  • Tutti i modelli multimodali Gemini: i video vengono campionati a 1 frame al secondo (fps). Ogni frame video conta 258 token.

Video: best practice

Quando utilizzi i video, segui queste best practice e informazioni per ottenere i risultati migliori:

  • Se il prompt contiene un solo video, posizionalo prima del prompt di testo.
  • Se hai bisogno della localizzazione dei timestamp in un video con audio, chiedi al modello di generare timestamp nel formato MM:SS, dove le prime due cifre rappresentano i minuti e le ultime due i secondi. Utilizza lo stesso formato per le domande che riguardano un timestamp.

Video: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:

  • Moderazione dei contenuti: i modelli si rifiutano di fornire risposte su video che violano le nostre norme di sicurezza.
  • Riconoscimento di suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscimento di suoni non vocali.
  • Movimento ad alta velocità: i modelli potrebbero commettere errori nella comprensione del movimento ad alta velocità nei video a causa della frequenza di campionamento fissa di 1 frame al secondo (fps).



Audio: requisiti e limitazioni

Audio: requisiti

In questa sezione, scopri i tipi MIME supportati e i limiti per richiesta per l'audio.

Tipi MIME supportati

I modelli multimodali Gemini supportano i seguenti tipi MIME audio:

Tipo MIME audio Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

Limiti per richiesta

Puoi includere un massimo di un file audio in una richiesta di prompt.

Audio: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:

  • Riconoscimento di suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscimento di suoni non vocali.
  • Timestamp solo audio: per generare con precisione i timestamp per i file solo audio, devi configurare il parametro audio_timestamp in generation_config.



Documenti (ad esempio PDF): requisiti, best practice e limitazioni

Documenti: requisiti

In questa sezione, scopri i tipi MIME supportati e i limiti per richiesta per i documenti (come i PDF).

Tipi MIME supportati

Gemini i modelli multimodali supportano i seguenti tipi MIME di documenti:

Tipo MIME del documento Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PDF - application/pdf
Testo - text/plain

Limiti per richiesta

I PDF vengono trattati come immagini, quindi una singola pagina di un PDF viene trattata come un'unica immagine. Il numero di pagine consentite in un prompt è limitato al numero di immagini supportate dal modello:

  • Gemini 2.0 Flash e Gemini 2.0 Flash‑Lite:
    • Numero massimo di file per richiesta: 3000
    • Numero massimo di pagine per file: 1000
    • Dimensioni massime per file: 50 MB

Documenti: tokenizzazione

Tokenizzazione PDF

I PDF vengono trattati come immagini, quindi ogni pagina di un PDF viene tokenizzata nello stesso modo di un'immagine.

Inoltre, il costo dei PDF segue i prezzi delle immagini Gemini. Ad esempio, se includi un PDF di due pagine in una chiamata API Gemini, ti viene addebitata una tariffa di input per l'elaborazione di due immagini.

Documenti: best practice

Quando utilizzi i PDF, segui queste best practice e utilizza le seguenti informazioni per ottenere i risultati migliori:

  • Se il prompt contiene un singolo PDF, inseriscilo prima del prompt di testo nella richiesta.
  • Se hai un documento lungo, valuta la possibilità di suddividerlo in più PDF per elaborarlo.
  • Utilizza i PDF creati con il testo visualizzato come testo anziché utilizzare il testo nelle immagini scansionate. Questo formato garantisce che il testo sia leggibile dalla macchina, in modo che sia più facile per il modello modificare, cercare e manipolare rispetto ai PDF di immagini scansionate. Questa pratica fornisce risultati ottimali quando si lavora con documenti con molto testo, come i contratti.

Documenti: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:

  • Ragionamento spaziale: i modelli non sono precisi nell'individuazione di testo o oggetti nei PDF. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
  • Accuratezza: i modelli potrebbero generare allucinazioni durante l'interpretazione del testo scritto a mano nei documenti PDF.