En el caso de las apps para dispositivos móviles y la Web, los SDK de Firebase AI Logic te permiten interactuar con los modelos Gemini y los modelos Imagen 3 compatibles directamente desde tu app.
Los modelos Gemini se consideran multimodales porque son capaces de procesar e incluso generar varias modalidades, como texto, código, archivos PDF, imágenes, video y audio. Se puede solicitar a los modelos Imagen 3 que generen imágenes con texto.
La siguiente tabla es una descripción general breve de los modelos compatibles con Firebase AI Logic y sus nombres de modelos estables más recientes. En esta tabla, también se enumeran los modelos experimentales y de vista previa que están disponibles para crear prototipos de casos de uso.
Modelo | Entrada | Salida | Descripción |
---|---|---|---|
Modelos Gemini con versiones estables | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
texto, código, PDF, imágenes, video y audio | texto, código, JSON (próximamente imágenes y audio) |
Nuestro modelo multimodal con funciones de nueva generación y capacidades mejoradas, como velocidad superior, uso de herramientas integradas y una ventana de contexto de 1 millón de tokens (próximamente, generación multimodal) |
Gemini 2.0 Flash‑Litegemini-2.0-flash-lite-001
|
texto, código, PDF, imágenes, video y audio | texto, código, JSON | Nuestro modelo de Flash más rápido y rentable. Es una ruta de actualización para los usuarios de 1.5 Flash que desean obtener una mejor calidad por el mismo precio y velocidad. |
Modelos Gemini con solo versiones experimentales y de vista previa (recomendado solo para casos de uso de prototipado) | |||
Gemini 2.5 Progemini-2.5-pro-preview-05-06
|
texto, código, PDF, imágenes, video y audio | texto, código, JSON | Nuestro modelo de razonamiento más avanzado, capaz de resolver problemas complejos. |
Gemini 2.5 Flashgemini-2.5-flash-preview-04-17
|
texto, código, PDF, imágenes, video y audio | texto, código, JSON | Nuestro modelo de pensamiento que ofrece capacidades excelentes y bien definidas. Está diseñado para ofrecer un equilibrio entre precio y rendimiento. |
Gemini 2.0 Flash‑Live 1gemini-2.0-flash-live-preview-04-09
|
texto (transmisión), audio (transmisión) |
texto (transmisión), audio (transmisión) |
Nuestro modelo multimodal que admite la transmisión en tiempo real de baja latencia de entradas y salidas multimodales |
Modelos Imagen 3 (cuando se usan con Firebase AI Logic) | |||
Imagen 3imagen-3.0-generate-002 |
texto | imágenes | Genera imágenes realistas y de alta calidad a partir de instrucciones de texto de lenguaje natural. |
Imagen 3 Fast 2imagen-3.0-fast-generate-001
|
texto | imágenes | Genera imágenes para el prototipado o casos de uso de baja latencia. |
1 No se admite cuando se usa Gemini Developer API con los SDK de Firebase AI Logic.
2 No es compatible con Gemini Developer API, independientemente de cómo accedas a la API.
Además, consulta nuestras Preguntas frecuentes sobre todos los modelos que Firebase AI Logic admite y no admite.
En el resto de esta página, se proporciona información detallada sobre los modelos que admite Firebase AI Logic.
-
- Entradas y salidas compatibles
- Comparación de alto nivel de las funciones compatibles
- Especificaciones y limitaciones, por ejemplo, la cantidad máxima de tokens de entrada o la duración máxima del video de entrada
Descripción de cómo se crean versiones de los modelos, en particular, sus versiones estables, actualizadas automáticamente, preliminares y experimentales
Listas de nombres de modelos disponibles para incluir en tu código durante la inicialización
Listas de idiomas compatibles para los modelos
En la parte inferior de esta página, puedes ver información detallada sobre los modelos más antiguos.
Comparar modelos
Cada modelo tiene diferentes capacidades para admitir varios casos de uso. Ten en cuenta que cada una de las tablas de esta sección describe cada modelo cuando se usa con Firebase AI Logic. Cada modelo puede tener capacidades adicionales que no están disponibles cuando se usan nuestros SDKs.
Si no encuentras la información que buscas en las siguientes sub secciones, puedes encontrar aún más información en la documentación del proveedor de la API que elegiste:
Gemini Developer API: Modelos Gemini y Imagen
Vertex AI Gemini API: Modelos Gemini y Imagen
Entradas y salidas compatibles
Estos son los tipos de entrada y salida compatibles cuando se usa cada modelo con Firebase AI Logic:
<span="notranslate">Gemini 2.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|||
---|---|---|---|---|---|---|---|---|
Tipos de entrada | ||||||||
Texto | ||||||||
Texto (transmisión) | ||||||||
Código | ||||||||
Documentos (PDF o texto sin formato) |
||||||||
Imágenes | ||||||||
Video | ||||||||
Audio | ||||||||
Audio (transmisión) | ||||||||
Tipos de salida | ||||||||
Texto | ||||||||
Texto (transmisión) | ||||||||
Código | ||||||||
Salida estructurada (como JSON) |
||||||||
Imágenes | próximamente | |||||||
Audio | próximamente | |||||||
Audio (transmisión) |
Para obtener información sobre los tipos de archivo admitidos, consulta Archivos de entrada y requisitos compatibles.
Funciones y capacidades compatibles
Estas son las funciones y capacidades compatibles cuando se usa cada modelo con Firebase AI Logic:
<span="notranslate">Gemini 2.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|
---|---|---|---|---|---|---|
Generar texto a partir de entradas multimodales o de solo texto | solo transmisión | |||||
Generar imágenes (Imagen 3) |
próximamente | |||||
Generar audio | próximamente | solo transmisión | ||||
Genera un resultado estructurado
(como JSON). |
||||||
Analizar documentos
(archivos PDF o texto sin formato) |
||||||
Analiza imágenes (visión) | ||||||
Analizar videos (visión) | ||||||
Cómo analizar audio | solo transmisión | |||||
Chat de varios turnos | ||||||
Llamadas a función (herramientas) | ||||||
Cómo contar tokens | ||||||
Instrucciones del sistema | ||||||
Transmisión multimodal bidireccional |
Especificaciones y limitaciones
Estas son las especificaciones y limitaciones cuando se usa cada modelo con Firebase AI Logic:
Propiedad |
<span="notranslate">Gemini 2.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|
---|---|---|---|---|---|---|---|
Ventana de contexto * Límite total de tokens (entrada y salida combinadas) |
1,048,576 tokens | 1,048,576 tokens | 1,048,576 tokens | 1,048,576 tokens | 32,768 tokens | 480 tokens | |
Límite de tokens de salida * | 65,536 tokens | 65,536 tokens | 8,192 tokens | 8,192 tokens | --- | --- | |
Fecha límite de conocimiento | Enero de 2025 | Enero de 2025 | Junio de 2024 | Junio de 2024 | Agosto de 2024 | --- | |
PDF (si se solicita) | |||||||
Cantidad máxima de archivos PDF de entrada ** |
3,000 archivos | 3,000 archivos | 3,000 archivos | 3,000 archivos | --- | --- | |
Cantidad máxima de páginas por archivo PDF de entrada ** |
1,000 páginas | 1,000 páginas | 1,000 páginas | 1,000 páginas | --- | --- | |
Tamaño máximo por archivo PDF de entrada |
50 MB | 50 MB | 50 MB | 50 MB | --- | --- | |
Imágenes (por solicitud) | |||||||
Cantidad máxima de imágenes de entrada |
3,000 imágenes | 3,000 imágenes | 3,000 imágenes | 3,000 imágenes | --- | --- | |
Cantidad máxima de imágenes de salida |
--- | --- | próximamente | --- | --- | 4 imágenes | |
Tamaño máximo por imagen de entrada codificada en base64 |
7 MB | 7 MB | 7 MB | 7 MB | --- | --- | |
Video (por solicitud) | |||||||
Cantidad máxima de archivos de video de entrada |
10 archivos | 10 archivos | 10 archivos | 10 archivos | --- | --- | |
Es la duración máxima de todo el video de entrada (solo fotogramas). |
Aproximadamente 60 minutos | Aproximadamente 60 minutos | Aproximadamente 60 minutos | Aproximadamente 60 minutos | --- | --- | |
Es la duración máxima de todo el video de entrada (fotogramas y audio). |
45 minutos aprox. | 45 minutos aprox. | 45 minutos aprox. | 45 minutos aprox. | --- | --- | |
Audio (a pedido) | |||||||
Cantidad máxima de archivos de audio de entrada |
1 archivo | 1 archivo | 1 archivo | 1 archivo | --- | --- | |
Cantidad máxima de archivos de audio de salida |
--- | --- | próximamente | --- | --- | --- | |
Longitud máxima de todo el audio de entrada |
Aprox. 8.4 horas | Aprox. 8.4 horas | Aprox. 8.4 horas | Aprox. 8.4 horas | --- | --- | |
Es la longitud máxima de todo el audio de salida. |
--- | --- | próximamente | --- | --- | --- |
*
En todos los modelos Gemini, un token equivale a alrededor de 4 caracteres,
así que 100 tokens son entre 60 y 80 palabras en inglés. En el caso de los modelos Gemini, puedes determinar el recuento total de tokens en tus solicitudes con countTokens
.
** Los archivos PDF se tratan como imágenes, por lo que una sola página de un PDF se considera una sola imagen. La cantidad de páginas permitidas en una solicitud se limita a la cantidad de imágenes que el modelo puede admitir.
Obtén información detallada adicional
Las cuotas y los precios son diferentes para cada modelo. Los precios también dependen de las entradas y salidas.
Obtén información sobre los tipos de archivos de entrada admitidos, cómo especificar el tipo de MIME y cómo asegurarte de que tus archivos de entrada y solicitudes multimodales cumplan con los requisitos y sigan las prácticas recomendadas en Requisitos y tipos de archivos de entrada admitidos.
Patrones de nombres y control de versiones de modelos
Los modelos se ofrecen en versiones estables, experimentales y de versión preliminar. Para mayor comodidad, se admiten alias sin valores de versión explícitos.
Para encontrar nombres de modelos específicos que puedes usar en tu código, consulta la sección "Nombres de modelos disponibles" más adelante en esta página.
Tipo de versión / Etapa de lanzamiento |
Descripción | Patrón de nombre del modelo | |
---|---|---|---|
Estable |
Las versiones estables están disponibles y son compatibles con el uso en producción a partir de la fecha de lanzamiento.
Por lo general, una versión estable de un modelo se lanza con una fecha de baja, que indica el último día en que el modelo está disponible. Después de esa fecha, Google ya no podrá acceder al modelo ni brindar asistencia para él. |
Los nombres de los modelos de las versiones estables se agregan con un número de versión de tres dígitos específico.
Ejemplo: |
|
Alias estable actualizado automáticamente | Los alias estables actualizados automáticamente siempre apuntan a la versión estable más reciente de ese modelo. Si se lanza una nueva versión estable, el alias actualizado automáticamente comienza a apuntar automáticamente a esa nueva versión estable. |
Los nombres de los modelos de los alias no tienen ningún apéndice.
Ejemplo: |
|
Vista previa |
Las versiones de vista previa tienen funciones nuevas y se consideran no estables.
Las versiones preliminares siempre apuntan a la versión más reciente de ese modelo. Si se lanza una nueva versión preliminar, cualquier versión preliminar existente comenzará a apuntar automáticamente a esa versión preliminar nueva. Estos modelos no se recomiendan para el uso en producción, tienen límites de tarifas más restrictivos y pueden tener requisitos de facturación. |
Los nombres de los modelos de las versiones preliminares se agregan con
Ejemplo: |
|
Experimental |
Las versiones experimentales tienen funciones nuevas y se consideran no estables.
No se recomiendan estos modelos para el uso en producción y tienen límites de frecuencia más restrictivos. Los modelos experimentales se diseñaron para recopilar comentarios y permitir la experimentación con nuestras funciones más recientes. |
Los nombres de los modelos de las versiones experimentales se agregan con
Ejemplo: |
|
Jubilado |
Las versiones retiras ya pasaron su fecha de retiro y se desactivaron de forma permanente.
Google ya no admite los modelos retirados ni permite acceder a ellos. Por lo general, las solicitudes que hacen referencia a un ID de modelo retirado muestran un error 404. |
--- |
Nombres de modelos disponibles
Los nombres de los modelos son los valores explícitos que incluyes en tu código durante la inicialización del modelo.
Cómo mostrar de forma programática una lista de todos los modelos disponibles
Puedes enumerar todos los nombres de los modelos disponibles con la API de REST:
Gemini Developer API: Llama al extremo
models.list
.Vertex AI Gemini API: Llama al extremo
publishers.models.list
.
Ten en cuenta que esta lista que se muestra incluirá todos los modelos compatibles con los proveedores de la API, pero Firebase AI Logic solo admite los modelos Gemini y Imagen que se describen en esta página.
Además, ten en cuenta que los alias actualizados automáticamente (por ejemplo, gemini-2.0-flash
) no se enumeran porque son un alias conveniente para el modelo base.
Gemini nombres de modelos
Para ver ejemplos de inicialización para tu plataforma, consulta la guía de introducción.
Para obtener detalles sobre las etapas de lanzamiento (especialmente para casos de uso y facturación), consulta patrones de nombres y control de versiones de modelos.
Gemini 2.5 Pro nombres de modelos
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
---|---|---|---|---|
gemini-2.5-pro-preview-05-06 |
Versión preliminar de Gemini 2.5 Pro | Vista previa | 2025-05-06 | Sin establecer |
gemini-2.5-pro-preview-03-25 |
Versión preliminar que apunta a gemini-2.5-pro-preview-05-06 (que es la versión más reciente de la vista previa) |
Vista previa | 25-03-2025 | Sin establecer |
Gemini 2.5 Flash nombres de modelos
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
---|---|---|---|---|
gemini-2.5-flash-preview-04-17 |
Versión preliminar de Gemini 2.5 Flash | Vista previa | 2025-04-17 | Sin establecer |
Gemini 2.0 Flash nombres de modelos
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
---|---|---|---|---|
gemini-2.0-flash-001 |
La versión estable más reciente de Gemini 2.0 Flash | Estable | 2025-02-05 | A partir del 2026-02-05 |
gemini-2.0-flash |
Alias actualizado automáticamente que hace referencia a la versión estable más reciente de Flash 2.0 (actualmente, gemini-2.0-flash-001 |
Estable | 2025-02-10 | --- |
Gemini 2.0 Flash‑Lite nombres de modelos
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
---|---|---|---|---|
gemini-2.0-flash-lite-001 |
La versión estable más reciente de Gemini 2.0 Flash‑Lite | Estable | 2025-02-25 | No antes del 2026-02-25 |
gemini-2.0-flash-lite |
Es un alias actualizado automáticamente que apunta a la versión estable más reciente de 2.0 Flash-Lite (actualmente, gemini-2.0-flash-lite-001 |
Estable | 2025-02-25 | --- |
Gemini 2.0 Flash‑Live nombres de modelos
Solo está disponible cuando usas Vertex AI Gemini API como proveedor de la API. |
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
---|---|---|---|---|
gemini-2.0-flash-live-preview-04-09 1 |
Versión preliminar de Gemini 2.0 Flash‑Live | Vista previa | 2025-04-09 | Sin establecer |
1 No se admite cuando se usa Gemini Developer API con los SDK de Firebase AI Logic.
Imagen nombres de modelos
Para ver ejemplos de inicialización para tu plataforma, consulta la guía para generar imágenes con Imagen.
Para obtener detalles sobre las etapas de lanzamiento (especialmente para casos de uso y facturación), consulta patrones de nombres y control de versiones de modelos.
Imagen 3 nombres de modelos
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
---|---|---|---|---|
imagen-3.0-generate-002 |
La versión estable más reciente de Imagen 3 | Estable | 2025-01-23 | A partir del 23/01/2026 |
imagen-3.0-generate-001 2 |
Versión estable inicial de Imagen 3 | Estable | 2024-07-31 | A partir del 31/7/2025 |
Imagen 3 Fast nombres de modelos
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
---|---|---|---|---|
imagen-3.0-fast-generate-001 2 |
Versión estable inicial de Imagen 3 Fast | Estable | 2024-07-31 | A partir del 31/7/2025 |
2 Gemini Developer API no lo admite, independientemente de cómo accedas a la API.
Idiomas compatibles
Gemini
Todos los modelos de Gemini pueden entender y responder en los siguientes idiomas:
Árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), neerlandés (nl), inglés (en), estonio (et), finlandés (fi), francés (fr), alemán (de), griego (el), hebreo (iw), hindi (hi), húngaro (hu), indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), lituano (lt), noruego (no), polaco (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), español (es), swahili (sw), sueco (sv), tailandés (th), turco (tr), ucraniano (uk) y vietnamita (vi)
Los modelos Gemini 2.0 Flash, Gemini 1.5 Pro y Gemini 1.5 Flash pueden comprender y responder en los siguientes idiomas adicionales:
Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)
Imagen
Disponibilidad general: inglés
Versión preliminar: chino (simplificado), chino (tradicional), hindi, japonés, coreano, portugués y español
Información sobre modelos más antiguos
Firebase AI Logic admite los modelos Gemini activos más antiguos (como los modelos Gemini 1.5).
Firebase AI Logic no admite los modelos Imagen más antiguos (como Imagen 2).
Modelo | Entrada | Salida | Optimizado para |
---|---|---|---|
Gemini 1.5 Progemini-1.5-pro-002 |
texto, código, PDF, imágenes, video y audio | texto, código, JSON | Admite tareas de razonamiento complejas que requieren más inteligencia. Contexto largo de 2 millones |
Gemini 1.5 Flashgemini-1.5-flash-002 |
texto, código, PDF, imágenes, video y audio | texto, código, JSON | Ofrece un rendimiento rápido y versátil en una amplia variedad de tareas. |
gemini-1.0-pro-vision-001 |
|
||
gemini-1.0-pro-002 |
|
Próximos pasos
Prueba las funciones de Gemini API
- Crea conversaciones de varios turnos (chat).
- Generar texto a partir de instrucciones de solo texto
- Genera texto con instrucciones de varios tipos de archivos, como imágenes, PDF, video y audio.
- Genera resultados estructurados (como JSON) a partir de instrucciones multimodales y de texto.
- Genera imágenes a partir de instrucciones de texto.
- Transmite la entrada y la salida (incluido el audio) con Gemini Live API.
- Usa las llamadas a función para conectar los modelos generativos a sistemas y datos externos.