Más información sobre los modelos compatibles

En el caso de las apps para dispositivos móviles y la Web, los SDK de Firebase AI Logic te permiten interactuar con los modelos Gemini y los modelos Imagen 3 compatibles directamente desde tu app.

Los modelos Gemini se consideran multimodales porque son capaces de procesar e incluso generar varias modalidades, como texto, código, archivos PDF, imágenes, video y audio. Se puede solicitar a los modelos Imagen 3 que generen imágenes con texto.

La siguiente tabla es una descripción general breve de los modelos compatibles con Firebase AI Logic y sus nombres de modelos estables más recientes. En esta tabla, también se enumeran los modelos experimentales y de vista previa que están disponibles para crear prototipos de casos de uso.

Modelo Entrada Salida Descripción
Modelos Gemini con versiones estables
Gemini 2.0 Flash
gemini-2.0-flash-001
texto, código, PDF, imágenes, video y audio texto, código, JSON
(próximamente imágenes y audio)
Nuestro modelo multimodal con funciones de nueva generación y capacidades mejoradas, como velocidad superior, uso de herramientas integradas y una ventana de contexto de 1 millón de tokens (próximamente, generación multimodal)
Gemini 2.0 Flash‑Lite
gemini-2.0-flash-lite-001
texto, código, PDF, imágenes, video y audio texto, código, JSON Nuestro modelo de Flash más rápido y rentable. Es una ruta de actualización para los usuarios de 1.5 Flash que desean obtener una mejor calidad por el mismo precio y velocidad.
Modelos Gemini con solo versiones experimentales y de vista previa (recomendado solo para casos de uso de prototipado)
Gemini 2.5 Pro
gemini-2.5-pro-preview-05-06
texto, código, PDF, imágenes, video y audio texto, código, JSON Nuestro modelo de razonamiento más avanzado, capaz de resolver problemas complejos.
Gemini 2.5 Flash
gemini-2.5-flash-preview-04-17
texto, código, PDF, imágenes, video y audio texto, código, JSON Nuestro modelo de pensamiento que ofrece capacidades excelentes y bien definidas. Está diseñado para ofrecer un equilibrio entre precio y rendimiento.
Gemini 2.0 Flash‑Live 1
gemini-2.0-flash-live-preview-04-09
texto (transmisión),
audio (transmisión)
texto (transmisión),
audio (transmisión)
Nuestro modelo multimodal que admite la transmisión en tiempo real de baja latencia de entradas y salidas multimodales
Modelos Imagen 3 (cuando se usan con Firebase AI Logic)
Imagen 3
imagen-3.0-generate-002
texto imágenes Genera imágenes realistas y de alta calidad a partir de instrucciones de texto de lenguaje natural.
Imagen 3 Fast 2
imagen-3.0-fast-generate-001
texto imágenes Genera imágenes para el prototipado o casos de uso de baja latencia.

1 No se admite cuando se usa Gemini Developer API con los SDK de Firebase AI Logic.
2 No es compatible con Gemini Developer API, independientemente de cómo accedas a la API.

Además, consulta nuestras Preguntas frecuentes sobre todos los modelos que Firebase AI Logic admite y no admite.


En el resto de esta página, se proporciona información detallada sobre los modelos que admite Firebase AI Logic.

  • Comparar modelos:

    • Entradas y salidas compatibles
    • Comparación de alto nivel de las funciones compatibles
    • Especificaciones y limitaciones, por ejemplo, la cantidad máxima de tokens de entrada o la duración máxima del video de entrada
  • Descripción de cómo se crean versiones de los modelos, en particular, sus versiones estables, actualizadas automáticamente, preliminares y experimentales

  • Listas de nombres de modelos disponibles para incluir en tu código durante la inicialización

  • Listas de idiomas compatibles para los modelos

En la parte inferior de esta página, puedes ver información detallada sobre los modelos más antiguos.



Comparar modelos

Cada modelo tiene diferentes capacidades para admitir varios casos de uso. Ten en cuenta que cada una de las tablas de esta sección describe cada modelo cuando se usa con Firebase AI Logic. Cada modelo puede tener capacidades adicionales que no están disponibles cuando se usan nuestros SDKs.

Si no encuentras la información que buscas en las siguientes sub secciones, puedes encontrar aún más información en la documentación del proveedor de la API que elegiste:

Entradas y salidas compatibles

Estos son los tipos de entrada y salida compatibles cuando se usa cada modelo con Firebase AI Logic:

<span="notranslate">Gemini
2.5 Pro </span="notranslate">
<span="notranslate">Gemini
2.5 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Lite </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Live </span="notranslate">
Imagen 3 /
Imagen 3 Fast
Tipos de entrada
Texto
Texto (transmisión)
Código
Documentos
(PDF o texto sin formato)
Imágenes
Video
Audio
Audio (transmisión)
Tipos de salida
Texto
Texto (transmisión)
Código
Salida estructurada
(como JSON)
Imágenes próximamente
Audio próximamente
Audio (transmisión)

Para obtener información sobre los tipos de archivo admitidos, consulta Archivos de entrada y requisitos compatibles.

Funciones y capacidades compatibles

Estas son las funciones y capacidades compatibles cuando se usa cada modelo con Firebase AI Logic:

<span="notranslate">Gemini
2.5 Pro </span="notranslate">
<span="notranslate">Gemini
2.5 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Lite </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Live </span="notranslate">
Imagen 3 /
Imagen 3 Fast
Generar texto a partir de entradas multimodales o de solo texto solo transmisión
Generar imágenes
(Imagen 3)
próximamente
Generar audio próximamente solo transmisión
Genera un resultado estructurado
(como JSON).
Analizar documentos
(archivos PDF o texto sin formato)
Analiza imágenes (visión)
Analizar videos (visión)
Cómo analizar audio solo transmisión
Chat de varios turnos
Llamadas a función (herramientas)
Cómo contar tokens
Instrucciones del sistema
Transmisión multimodal bidireccional

Especificaciones y limitaciones

Estas son las especificaciones y limitaciones cuando se usa cada modelo con Firebase AI Logic:

Propiedad <span="notranslate">Gemini
2.5 Pro </span="notranslate">
<span="notranslate">Gemini
2.5 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Lite </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Live </span="notranslate">
Imagen 3 /
Imagen 3 Fast
Ventana de contexto *
Límite total de tokens
(entrada y salida combinadas)
1,048,576 tokens 1,048,576 tokens 1,048,576 tokens 1,048,576 tokens 32,768 tokens 480 tokens
Límite de tokens de salida * 65,536 tokens 65,536 tokens 8,192 tokens 8,192 tokens --- ---
Fecha límite de conocimiento Enero de 2025 Enero de 2025 Junio de 2024 Junio de 2024 Agosto de 2024 ---
PDF (si se solicita)
Cantidad máxima
de archivos PDF de entrada **
3,000 archivos 3,000 archivos 3,000 archivos 3,000 archivos --- ---
Cantidad máxima
de páginas
por archivo PDF de entrada **
1,000 páginas 1,000 páginas 1,000 páginas 1,000 páginas --- ---
Tamaño máximo
por archivo PDF de entrada
50 MB 50 MB 50 MB 50 MB --- ---
Imágenes (por solicitud)
Cantidad máxima
de imágenes de entrada
3,000 imágenes 3,000 imágenes 3,000 imágenes 3,000 imágenes --- ---
Cantidad máxima
de imágenes de salida
--- --- próximamente --- --- 4 imágenes
Tamaño máximo
por imagen de entrada codificada en base64
7 MB 7 MB 7 MB 7 MB --- ---
Video (por solicitud)
Cantidad máxima
de archivos de video de entrada
10 archivos 10 archivos 10 archivos 10 archivos --- ---
Es la duración máxima
de todo el video de entrada
(solo fotogramas).
Aproximadamente 60 minutos Aproximadamente 60 minutos Aproximadamente 60 minutos Aproximadamente 60 minutos --- ---
Es la duración máxima
de todo el video de entrada
(fotogramas y audio).
45 minutos aprox. 45 minutos aprox. 45 minutos aprox. 45 minutos aprox. --- ---
Audio (a pedido)
Cantidad máxima
de archivos de audio de entrada
1 archivo 1 archivo 1 archivo 1 archivo --- ---
Cantidad máxima
de archivos de audio de salida
--- --- próximamente --- --- ---
Longitud máxima
de todo el audio de entrada
Aprox. 8.4 horas Aprox. 8.4 horas Aprox. 8.4 horas Aprox. 8.4 horas --- ---
Es la longitud máxima
de todo el audio de salida.
--- --- próximamente --- --- ---

* En todos los modelos Gemini, un token equivale a alrededor de 4 caracteres, así que 100 tokens son entre 60 y 80 palabras en inglés. En el caso de los modelos Gemini, puedes determinar el recuento total de tokens en tus solicitudes con countTokens.

** Los archivos PDF se tratan como imágenes, por lo que una sola página de un PDF se considera una sola imagen. La cantidad de páginas permitidas en una solicitud se limita a la cantidad de imágenes que el modelo puede admitir.

Obtén información detallada adicional



Patrones de nombres y control de versiones de modelos

Los modelos se ofrecen en versiones estables, experimentales y de versión preliminar. Para mayor comodidad, se admiten alias sin valores de versión explícitos.

Para encontrar nombres de modelos específicos que puedes usar en tu código, consulta la sección "Nombres de modelos disponibles" más adelante en esta página.

Tipo de versión /
Etapa de lanzamiento
Descripción Patrón de nombre del modelo
Estable Las versiones estables están disponibles y son compatibles con el uso en producción a partir de la fecha de lanzamiento.

Por lo general, una versión estable de un modelo se lanza con una fecha de baja, que indica el último día en que el modelo está disponible. Después de esa fecha, Google ya no podrá acceder al modelo ni brindar asistencia para él.

Los nombres de los modelos de las versiones estables se agregan con un número de versión de tres dígitos específico.

Ejemplo: gemini-2.0-flash-001
Ejemplo: imagen-3.0-generate-002

Alias estable actualizado automáticamente Los alias estables actualizados automáticamente siempre apuntan a la versión estable más reciente de ese modelo. Si se lanza una nueva versión estable, el alias actualizado automáticamente comienza a apuntar automáticamente a esa nueva versión estable.

Los nombres de los modelos de los alias no tienen ningún apéndice.

Ejemplo: gemini-2.0-flash

Vista previa Las versiones de vista previa tienen funciones nuevas y se consideran no estables.

Las versiones preliminares siempre apuntan a la versión más reciente de ese modelo. Si se lanza una nueva versión preliminar, cualquier versión preliminar existente comenzará a apuntar automáticamente a esa versión preliminar nueva.

Estos modelos no se recomiendan para el uso en producción, tienen límites de tarifas más restrictivos y pueden tener requisitos de facturación.

Los nombres de los modelos de las versiones preliminares se agregan con -preview junto con la fecha de lanzamiento del modelo (-MM-DD).

Ejemplo: gemini-2.5-flash-preview-04-17
(lanzado el 17 de abril de 2025)

Experimental Las versiones experimentales tienen funciones nuevas y se consideran no estables.

No se recomiendan estos modelos para el uso en producción y tienen límites de frecuencia más restrictivos. Los modelos experimentales se diseñaron para recopilar comentarios y permitir la experimentación con nuestras funciones más recientes.

Los nombres de los modelos de las versiones experimentales se agregan con -exp junto con la fecha de lanzamiento del modelo (-MM-DD).

Ejemplo: gemini-2.5-pro-exp-03-25
(lanzado el 25 de marzo de 2025)

Jubilado Las versiones retiras ya pasaron su fecha de retiro y se desactivaron de forma permanente.

Google ya no admite los modelos retirados ni permite acceder a ellos. Por lo general, las solicitudes que hacen referencia a un ID de modelo retirado muestran un error 404.

---



Nombres de modelos disponibles

Los nombres de los modelos son los valores explícitos que incluyes en tu código durante la inicialización del modelo.

Cómo mostrar de forma programática una lista de todos los modelos disponibles

Puedes enumerar todos los nombres de los modelos disponibles con la API de REST:

Ten en cuenta que esta lista que se muestra incluirá todos los modelos compatibles con los proveedores de la API, pero Firebase AI Logic solo admite los modelos Gemini y Imagen que se describen en esta página. Además, ten en cuenta que los alias actualizados automáticamente (por ejemplo, gemini-2.0-flash) no se enumeran porque son un alias conveniente para el modelo base.

Gemini nombres de modelos

Para ver ejemplos de inicialización para tu plataforma, consulta la guía de introducción.

Para obtener detalles sobre las etapas de lanzamiento (especialmente para casos de uso y facturación), consulta patrones de nombres y control de versiones de modelos.

Gemini 2.5 Pro nombres de modelos

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento Fecha de baja
gemini-2.5-pro-preview-05-06 Versión preliminar de Gemini 2.5 Pro Vista previa 2025-05-06 Sin establecer
gemini-2.5-pro-preview-03-25 Versión preliminar que apunta a gemini-2.5-pro-preview-05-06
(que es la versión más reciente de la vista previa)
Vista previa 25-03-2025 Sin establecer

Gemini 2.5 Flash nombres de modelos

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento Fecha de baja
gemini-2.5-flash-preview-04-17 Versión preliminar de Gemini 2.5 Flash Vista previa 2025-04-17 Sin establecer

Gemini 2.0 Flash nombres de modelos

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento Fecha de baja
gemini-2.0-flash-001 La versión estable más reciente de Gemini 2.0 Flash Estable 2025-02-05 A partir del
2026-02-05
gemini-2.0-flash Alias actualizado automáticamente que hace referencia a la versión estable más reciente de Flash 2.0
(actualmente, gemini-2.0-flash-001)
Estable 2025-02-10 ---

Gemini 2.0 Flash‑Lite nombres de modelos

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento Fecha de baja
gemini-2.0-flash-lite-001 La versión estable más reciente de Gemini 2.0 Flash‑Lite Estable 2025-02-25 No antes del
2026-02-25
gemini-2.0-flash-lite Es un alias actualizado automáticamente que apunta a la versión estable más reciente de 2.0 Flash-Lite
(actualmente, gemini-2.0-flash-lite-001).
Estable 2025-02-25 ---

Gemini 2.0 Flash‑Live nombres de modelos

Solo está disponible cuando usas Vertex AI Gemini API como proveedor de la API.

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento Fecha de baja
gemini-2.0-flash-live-preview-04-09 1 Versión preliminar de Gemini 2.0 Flash‑Live Vista previa 2025-04-09 Sin establecer

1 No se admite cuando se usa Gemini Developer API con los SDK de Firebase AI Logic.

Imagen nombres de modelos

Para ver ejemplos de inicialización para tu plataforma, consulta la guía para generar imágenes con Imagen.

Para obtener detalles sobre las etapas de lanzamiento (especialmente para casos de uso y facturación), consulta patrones de nombres y control de versiones de modelos.

Imagen 3 nombres de modelos

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento Fecha de baja
imagen-3.0-generate-002 La versión estable más reciente de Imagen 3 Estable 2025-01-23 A partir del 23/01/2026
imagen-3.0-generate-001 2 Versión estable inicial de Imagen 3 Estable 2024-07-31 A partir del 31/7/2025

Imagen 3 Fast nombres de modelos

Nombre del modelo Descripción Etapa de lanzamiento Fecha de lanzamiento Fecha de baja
imagen-3.0-fast-generate-001 2 Versión estable inicial de Imagen 3 Fast Estable 2024-07-31 A partir del 31/7/2025

2 Gemini Developer API no lo admite, independientemente de cómo accedas a la API.



Idiomas compatibles

Gemini

  • Todos los modelos de Gemini pueden entender y responder en los siguientes idiomas:

    Árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), neerlandés (nl), inglés (en), estonio (et), finlandés (fi), francés (fr), alemán (de), griego (el), hebreo (iw), hindi (hi), húngaro (hu), indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), lituano (lt), noruego (no), polaco (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), español (es), swahili (sw), sueco (sv), tailandés (th), turco (tr), ucraniano (uk) y vietnamita (vi)

  • Los modelos Gemini 2.0 Flash, Gemini 1.5 Pro y Gemini 1.5 Flash pueden comprender y responder en los siguientes idiomas adicionales:

    Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)

Imagen

  • Disponibilidad general: inglés

  • Versión preliminar: chino (simplificado), chino (tradicional), hindi, japonés, coreano, portugués y español



Información sobre modelos más antiguos

Firebase AI Logic admite los modelos Gemini activos más antiguos (como los modelos Gemini 1.5).

Firebase AI Logic no admite los modelos Imagen más antiguos (como Imagen 2).

Modelo Entrada Salida Optimizado para
Gemini 1.5 Pro
gemini-1.5-pro-002
texto, código, PDF, imágenes, video y audio texto, código, JSON Admite tareas de razonamiento complejas que requieren más inteligencia. Contexto largo de 2 millones
Gemini 1.5 Flash
gemini-1.5-flash-002
texto, código, PDF, imágenes, video y audio texto, código, JSON Ofrece un rendimiento rápido y versátil en una amplia variedad de tareas.
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision-001
texto, código, archivos PDF, imágenes y video (solo marcos) text, code Controla el texto, las imágenes y los videos para las respuestas de texto o código. No se puede usar para chatear.
Gemini 1.0 Pro
gemini-1.0-pro-002
text, code text, code Tareas de lenguaje natural, chat de código y texto de varios turnos, y generación de código



Próximos pasos

Prueba las funciones de Gemini API