برای برنامههای موبایل و وب، Firebase AI Logic SDK به شما امکان میدهد با مدلهای پشتیبانیشده Gemini و مدلهای Imagen 3 مستقیماً از برنامه خود تعامل داشته باشید.
مدلهای جمینی چندوجهی در نظر گرفته میشوند زیرا قادر به پردازش و حتی تولید چندین حالت از جمله متن، کد، فایلهای PDF، تصاویر، ویدئو و صدا هستند. از مدل های Imagen 3 می توان با متن برای تولید تصاویر درخواست کرد.
جدول زیر مروری کوتاه بر مدل های پشتیبانی شده برای Firebase AI Logic و آخرین نام مدل های پایدار آنها است. این جدول همچنین مدلهای پیشنمایش و آزمایشی را که برای نمونهسازی موارد استفاده در دسترس هستند، فهرست میکند.
مدل | ورودی | خروجی | توضیحات |
---|---|---|---|
مدل های جمینی با نسخه های پایدار | |||
فلش جمینی 2.0gemini-2.0-flash-001 | متن، کد، فایل های PDF، تصاویر، ویدئو، صدا | متن، کد، JSON (تصاویر و صدا به زودی!) | مدل چندوجهی ما با ویژگیهای نسل بعدی و قابلیتهای بهبودیافته، از جمله سرعت برتر، استفاده از ابزار داخلی، و پنجره زمینه توکن 1M (نسل چندوجهی به زودی!) |
Gemini 2.0 Flash-Litegemini-2.0-flash-lite-001 | متن، کد، فایل های PDF، تصاویر، ویدئو، صدا | متن، کد، JSON | سریع ترین و مقرون به صرفه ترین مدل فلش ما. این یک مسیر ارتقاء برای کاربران فلش 1.5 است که کیفیت بهتری با همان قیمت و سرعت می خواهند. |
مدلهای Gemini فقط با نسخههای پیشنمایش و آزمایشی (فقط برای نمونهسازی موارد استفاده توصیه میشود) | |||
جمینی 2.5 پروgemini-2.5-pro-preview-05-06 | متن، کد، فایل های PDF، تصاویر، ویدئو، صدا | متن، کد، JSON | پیشرفته ترین مدل استدلال ما، قادر به حل مسائل پیچیده است. |
فلش جمینی 2.5gemini-2.5-flash-preview-04-17 | متن، کد، فایل های PDF، تصاویر، ویدئو، صدا | متن، کد، JSON | مدل تفکر ما که قابلیت های عالی و کاملی را ارائه می دهد. این برای ارائه تعادل بین قیمت و عملکرد طراحی شده است. |
Gemini 2.0 Flash-Live 1gemini-2.0-flash-live-preview-04-09 | متن (استریم)، صوتی (استریم) | متن (استریم)، صوتی (استریم) | مدل چندوجهی ما که از جریان بیدرنگ با تأخیر کم ورودی ها و خروجی های چندوجهی پشتیبانی می کند. |
مدل های Imagen 3 (هنگام استفاده با Firebase AI Logic ) | |||
تصویر 3imagen-3.0-generate-002 | متن | تصاویر | تصاویر واقعی و باکیفیت را از پیامهای متنی به زبان طبیعی ایجاد میکند |
Imagen 3 Fast 2imagen-3.0-fast-generate-001 | متن | تصاویر | تصاویر را برای نمونه سازی اولیه یا موارد استفاده با تأخیر کم تولید می کند |
1 هنگام استفاده از Gemini Developer API با Firebase AI Logic SDK پشتیبانی نمی شود.
2 بدون توجه به نحوه دسترسی شما به API توسط Gemini Developer API پشتیبانی نمی شود.
همچنین، سؤالات متداول ما را درباره همه مدلهایی که Firebase AI Logic پشتیبانی میکند و پشتیبانی نمیکند، مرور کنید.
در ادامه این صفحه اطلاعات دقیقی در مورد مدل های پشتیبانی شده توسط Firebase AI Logic ارائه می شود.
- ورودی و خروجی پشتیبانی شده
- مقایسه سطح بالایی از قابلیت های پشتیبانی شده
- مشخصات و محدودیتها، برای مثال حداکثر نشانههای ورودی یا حداکثر طول ویدیوی ورودی
شرح نحوه نسخهسازی مدلها ، بهویژه نسخههای پایدار ، بهروزرسانی خودکار ، پیشنمایش و نسخههای آزمایشی آنها
لیستی از نام مدل های موجود برای گنجاندن در کد خود در هنگام شروع اولیه
لیست زبان های پشتیبانی شده برای مدل ها
در پایین این صفحه، می توانید اطلاعات دقیق در مورد مدل های قدیمی را مشاهده کنید .
مقایسه مدل ها
هر مدل قابلیت های مختلفی برای پشتیبانی از موارد استفاده مختلف دارد. توجه داشته باشید که هر یک از جداول در این بخش هر مدل را در هنگام استفاده با Firebase AI Logic توصیف می کند. هر مدل ممکن است قابلیتهای بیشتری داشته باشد که هنگام استفاده از SDK ما در دسترس نباشد.
اگر نمی توانید اطلاعات مورد نظر خود را در بخش های فرعی زیر پیدا کنید، می توانید اطلاعات بیشتری را در اسناد ارائه دهنده API انتخابی خود بیابید:
Gemini Developer API : مدلهای Gemini و مدلهای Imagen
Vertex AI Gemini API : مدلهای Gemini و مدلهای Imagen
ورودی و خروجی پشتیبانی شده
اینها انواع ورودی و خروجی پشتیبانی شده هنگام استفاده از هر مدل با Firebase AI Logic هستند:
جوزا 2.5 حرفه ای | جوزا 2.5 فلش | جوزا 2.0 فلش | جوزا 2.0 Flash- ساده | جوزا 2.0 Flash- زندگی کنید | تصویر 3 / Imagen 3 سریع | |||
---|---|---|---|---|---|---|---|---|
انواع ورودی | ||||||||
متن | ||||||||
متن (استریم) | ||||||||
کد | ||||||||
اسناد (PDF یا متن ساده) | ||||||||
تصاویر | ||||||||
ویدئو | ||||||||
صوتی | ||||||||
صوتی (استریم) | ||||||||
انواع خروجی | ||||||||
متن | ||||||||
متن (استریم) | ||||||||
کد | ||||||||
خروجی ساختاریافته (مانند JSON) | ||||||||
تصاویر | به زودی! | |||||||
صوتی | به زودی! | |||||||
صوتی (استریم) |
برای آشنایی با انواع فایل های پشتیبانی شده، فایل های ورودی پشتیبانی شده و الزامات را ببینید.
قابلیت ها و ویژگی های پشتیبانی شده
اینها قابلیتها و ویژگیهای پشتیبانیشده هنگام استفاده از هر مدل با Firebase AI Logic هستند:
جوزا 2.5 حرفه ای | جوزا 2.5 فلش | جوزا 2.0 فلش | جوزا 2.0 Flash- ساده | جوزا 2.0 Flash- زندگی کنید | تصویر 3 / Imagen 3 سریع | |
---|---|---|---|---|---|---|
متن را از ورودی های متنی یا چند وجهی تولید کنید | فقط جریان | |||||
تولید تصاویر ( تصویر 3 ) | به زودی! | |||||
تولید صدا | به زودی! | فقط جریان | ||||
تولید خروجی ساختار یافته (مانند JSON) | ||||||
اسناد را تجزیه و تحلیل کنید (PDF یا متن ساده) | ||||||
تجزیه و تحلیل تصاویر (بینایی) | ||||||
تجزیه و تحلیل ویدئو (دید) | ||||||
آنالیز صدا | فقط جریان | |||||
چت چند نوبتی | ||||||
فراخوانی تابع (ابزار) | ||||||
توکن ها را بشمار | ||||||
دستورالعمل های سیستم | ||||||
جریان چندوجهی دو طرفه |
مشخصات و محدودیت ها
اینها مشخصات و محدودیتها هنگام استفاده از هر مدل با Firebase AI Logic هستند:
اموال | جوزا 2.5 حرفه ای | جوزا 2.5 فلش | جوزا 2.0 فلش | جوزا 2.0 Flash- ساده | جوزا 2.0 Flash- زندگی کنید | تصویر 3 / Imagen 3 سریع | |
---|---|---|---|---|---|---|---|
پنجره زمینه * حد توکن کل (ورودی + خروجی ترکیبی) | 1,048,576 توکن | 1,048,576 توکن | 1,048,576 توکن | 1,048,576 توکن | 32768 توکن | 480 توکن | |
محدودیت رمز خروجی * | 65536 توکن | 65536 توکن | 8192 توکن | 8192 توکن | --- | --- | |
تاریخ قطع دانش | ژانویه 2025 | ژانویه 2025 | ژوئن 2024 | ژوئن 2024 | آگوست 2024 | --- | |
فایل های PDF (در هر درخواست) | |||||||
حداکثر تعداد فایل های PDF ورودی ** | 3000 فایل | 3000 فایل | 3000 فایل | 3000 فایل | --- | --- | |
حداکثر تعداد از صفحات در هر فایل PDF ورودی ** | 1000 صفحه | 1000 صفحه | 1000 صفحه | 1000 صفحه | --- | --- | |
حداکثر اندازه در هر فایل PDF ورودی | 50 مگابایت | 50 مگابایت | 50 مگابایت | 50 مگابایت | --- | --- | |
تصاویر (در هر درخواست) | |||||||
حداکثر تعداد از تصاویر ورودی | 3000 عکس | 3000 عکس | 3000 عکس | 3000 عکس | --- | --- | |
حداکثر تعداد از تصاویر خروجی | --- | --- | به زودی! | --- | --- | 4 تصویر | |
حداکثر اندازه به ازای هر تصویر کدگذاری شده با پایه 64 ورودی | 7 مگابایت | 7 مگابایت | 7 مگابایت | 7 مگابایت | --- | --- | |
ویدئو (به ازای درخواست) | |||||||
حداکثر تعداد فایل های ویدئویی ورودی | 10 فایل | 10 فایل | 10 فایل | 10 فایل | --- | --- | |
حداکثر طول از تمام ویدیوهای ورودی (فقط قاب) | ~60 دقیقه | ~60 دقیقه | ~60 دقیقه | ~60 دقیقه | --- | --- | |
حداکثر طول از تمام ویدیوهای ورودی (قاب + صدا) | ~45 دقیقه | ~45 دقیقه | ~45 دقیقه | ~45 دقیقه | --- | --- | |
صوتی (به ازای درخواست) | |||||||
حداکثر تعداد فایل های صوتی ورودی | 1 فایل | 1 فایل | 1 فایل | 1 فایل | --- | --- | |
حداکثر تعداد از فایل های صوتی خروجی | --- | --- | به زودی! | --- | --- | --- | |
حداکثر طول از تمام صدای ورودی | 8.4 ساعت | 8.4 ساعت | 8.4 ساعت | 8.4 ساعت | --- | --- | |
حداکثر طول از تمام صدای خروجی | --- | --- | به زودی! | --- | --- | --- |
* برای تمام مدل های جمینی ، یک نشانه معادل حدود 4 کاراکتر است، بنابراین 100 توکن حدود 60-80 کلمه انگلیسی است. برای مدلهای Gemini ، میتوانید تعداد کل نشانهها را در درخواستهای خود با استفاده countTokens
تعیین کنید.
** فایل های PDF به عنوان تصویر در نظر گرفته می شوند، بنابراین یک صفحه از یک PDF به عنوان یک تصویر در نظر گرفته می شود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل می تواند پشتیبانی کند.
اطلاعات دقیق اضافی را بیابید
سهمیه و قیمت برای هر مدل متفاوت است. قیمت گذاری نیز به ورودی و خروجی بستگی دارد.
درباره انواع فایل های ورودی پشتیبانی شده، نحوه تعیین نوع MIME، و نحوه اطمینان از اینکه فایل های ورودی و درخواست های چندوجهی شما الزامات را برآورده می کنند و بهترین روش ها را در فایل های ورودی و الزامات پشتیبانی شده دنبال می کنند، بیاموزید.
مدل سازی و الگوهای نامگذاری
مدل ها در نسخه های پایدار ، پیش نمایش و آزمایشی ارائه می شوند. برای راحتی، نام مستعار بدون مقادیر نسخه صریح پشتیبانی می شود.
برای یافتن نامهای مدل خاص برای استفاده در کد خود، بخش «نام مدلهای موجود» را در ادامه این صفحه ببینید.
نوع نسخه / مرحله انتشار | توضیحات | الگوی نام مدل | |
---|---|---|---|
پایدار | نسخه های پایدار در دسترس هستند و برای استفاده تولید از تاریخ انتشار پشتیبانی می شوند. یک نسخه مدل پایدار معمولاً با تاریخ بازنشستگی منتشر می شود که نشان دهنده آخرین روز عرضه مدل است. پس از این تاریخ، مدل دیگر توسط Google قابل دسترسی یا پشتیبانی نیست. | نام مدل های نسخه های پایدار با یک شماره نسخه سه رقمی خاص اضافه شده است مثال: | |
نام مستعار پایدار بهروزرسانی خودکار | نام مستعار پایدار با به روز رسانی خودکار همیشه به آخرین نسخه پایدار آن مدل اشاره می کند. اگر یک نسخه پایدار جدید منتشر شود، نام مستعار به روز شده خودکار به طور خودکار به آن نسخه پایدار جدید اشاره می کند. | نام مدل های مستعار هیچ ضمیمه ای ندارد مثال: | |
پیش نمایش | نسخه های پیش نمایش دارای قابلیت های جدیدی هستند و ثابت نیستند . نسخه های پیش نمایش همیشه به آخرین نسخه پیش نمایش آن مدل اشاره می کنند. اگر یک نسخه پیشنمایش جدید منتشر شود، هر نسخه پیشنمایش موجود بهطور خودکار به آن نسخه پیشنمایش جدید اشاره میکند. این مدلها برای استفاده در تولید توصیه نمیشوند ، محدودیتهای نرخ محدودتری دارند و ممکن است الزامات صورتحساب داشته باشند. | نام مدل های نسخه های پیش نمایش به ضمیمه شده است مثال: | |
تجربی | نسخه های آزمایشی قابلیت های جدیدی دارند و پایدار نیستند . این مدلها برای استفاده در تولید توصیه نمیشوند و محدودیتهای نرخ محدودتری دارند. مدلهای آزمایشی برای جمعآوری بازخورد و فعال کردن آزمایش با آخرین ویژگیهای ما در نظر گرفته شدهاند. | نام مدل های نسخه های آزمایشی به ضمیمه می شود مثال: | |
بازنشسته | نسخه های بازنشسته تاریخ بازنشستگی خود را پشت سر گذاشته اند و برای همیشه غیرفعال شده اند. مدلهای بازنشسته دیگر توسط Google قابل دسترسی یا پشتیبانی نیستند. درخواست های ارجاع به شناسه مدل بازنشسته معمولاً خطای 404 را برمی گرداند. | --- |
نام مدل های موجود
نام مدل ها مقادیر صریحی هستند که در کد خود در هنگام شروع اولیه مدل وارد می کنید.
همه مدل های موجود را به صورت برنامه ای لیست کنید
می توانید با استفاده از REST API نام همه مدل های موجود را فهرست کنید:
Gemini Developer API : نقطه پایانی
models.list
را فراخوانی کنیدVertex AI Gemini API : با نقطه پایانی
publishers.models.list
تماس بگیرید
توجه داشته باشید که این لیست بازگشتی شامل همه مدلهای پشتیبانیشده توسط ارائهدهندگان API میشود، اما Firebase AI Logic فقط از مدلهای Gemini و Imagen که در این صفحه توضیح داده شدهاند پشتیبانی میکند. همچنین توجه داشته باشید که نام مستعار به روز شده خودکار (به عنوان مثال، gemini-2.0-flash
) در فهرست قرار نگرفته اند زیرا آنها نام مستعار راحتی برای مدل پایه هستند.
نام مدل های جمینی
برای مثالهای اولیه برای پلتفرم خود، راهنمای شروع کار را ببینید.
برای جزئیات در مورد مراحل انتشار (مخصوصاً برای موارد استفاده و صورتحساب)، نسخهسازی مدل و الگوهای نامگذاری را ببینید.
نام مدل های Gemini 2.5 Pro
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
gemini-2.5-pro-preview-05-06 | نسخه پیش نمایش Gemini 2.5 Pro | پیش نمایش | 06-05-2025 | تعیین شود |
gemini-2.5-pro-preview-03-25 | نسخه پیش نمایش با اشاره بهgemini-2.5-pro-preview-05-06 (که آخرین نسخه پیش نمایش است) | پیش نمایش | 2025-03-25 | تعیین شود |
اسم مدل های فلش Gemini 2.5
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
gemini-2.5-flash-preview-04-17 | نسخه پیش نمایش Gemini 2.5 Flash | پیش نمایش | 17-04-2025 | تعیین شود |
نام مدل های فلش Gemini 2.0
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
gemini-2.0-flash-001 | آخرین نسخه پایدار Gemini 2.0 Flash | پایدار | 05-02-2025 | نه زودتر از 05-02-2026 |
gemini-2.0-flash | نام مستعار بهروزرسانی خودکار که به آخرین نسخه پایدار 2.0 Flash اشاره دارد (در حال حاضر gemini-2.0-flash-001 ) | پایدار | 10-02-2025 | --- |
نام مدل های Gemini 2.0 Flash-Lite
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
gemini-2.0-flash-lite-001 | آخرین نسخه پایدار Gemini 2.0 Flash-Lite | پایدار | 2025-02-25 | نه زودتر از 25/02/2026 |
gemini-2.0-flash-lite | نام مستعار بهروزرسانی خودکار که به آخرین نسخه پایدار 2.0 Flash-Lite اشاره میکند (در حال حاضر gemini-2.0-flash-lite-001 ) | پایدار | 2025-02-25 | --- |
نام مدل های Gemini 2.0 Flash-Live
فقط در صورت استفاده از Vertex AI Gemini API به عنوان ارائهدهنده API در دسترس است. |
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
gemini-2.0-flash-live-preview-04-09 1 | نسخه پیش نمایش برای Gemini 2.0 Flash-Live | پیش نمایش | 09-04-2025 | تعیین شود |
1 هنگام استفاده از Gemini Developer API با Firebase AI Logic SDK پشتیبانی نمی شود.
نام مدل های Imagen
برای نمونه های اولیه سازی برای پلتفرم خود، به تولید تصاویر با راهنمای Imagen مراجعه کنید.
برای جزئیات در مورد مراحل انتشار (مخصوصاً برای موارد استفاده و صورتحساب)، نسخهسازی مدل و الگوهای نامگذاری را ببینید.
ایمیج 3 نام مدل
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
imagen-3.0-generate-002 | آخرین نسخه پایدار Imagen 3 | پایدار | 2025-01-23 | نه زودتر از 23/01/2026 |
imagen-3.0-generate-001 2 | نسخه پایدار اولیه Imagen 3 | پایدار | 2024-07-31 | نه زودتر از 31/07/2025 |
Imagen 3 نام مدل های سریع
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
imagen-3.0-fast-generate-001 2 | نسخه پایدار اولیه Imagen 3 Fast | پایدار | 2024-07-31 | نه زودتر از 31/07/2025 |
2 بدون توجه به نحوه دسترسی شما به API توسط Gemini Developer API پشتیبانی نمی شود.
زبان های پشتیبانی شده
جوزا
همه مدلهای Gemini میتوانند به زبانهای زیر بفهمند و پاسخ دهند:
عربی (ar)، بنگالی (bn)، بلغاری (bg)، چینی ساده و سنتی (zh)، کرواتی (hr)، چکی (cs)، دانمارکی (da)، هلندی (nl)، انگلیسی (en)، استونیایی (et)، فنلاندی (fi)، فرانسوی (fr)، آلمانی (de)، یونانی (el)، عبری (iw)، هندی (hi)، مجارستانی (hu)، اندونزیایی (id)، ایتالیایی (it)، ژاپنی (ja)، لهستانی (ja)، لیتوانیایی (ja) (pl)، پرتغالی (pt)، رومانیایی (ro)، روسی (ru)، صربی (sr)، اسلواکی (sk)، اسلوونیایی (sl)، اسپانیایی (es)، سواحیلی (sw)، سوئدی (sv)، تایلندی (th)، ترکی (tr)، اوکراینی (UK)، ویتنامی (vi)
مدلهای Gemini 2.0 Flash ، Gemini 1.5 Pro و Gemini 1.5 Flash میتوانند به زبانهای اضافی زیر بفهمند و پاسخ دهند:
آفریکانس (af)، آمهری (am)، آسامی (ع)، آذربایجانی (az)، بلاروسی (be)، بوسنیایی (bs)، کاتالان (ca)، سبوانو (ceb)، کورسی (co)، ولزی (cy)، Dhivehi (dv)، اسپرانتو (eo)، باسک (eu)، فارسی (fa)، فیلیپینی (تاگالوگ) (fil)، (fy)، ایرلندی (ga)، گالیکایی اسکاتلندی (ga)، گالیکایی گالاتی (ga)، اسکاتلندی (ga) (ha)، هاوایی (haw)، همونگ (hmn)، کریول هائیتی (ht)، ارمنی (hy)، ایگبو (ig)، ایسلندی (is)، جاوه ای (jv)، گرجی (ka)، قزاقستان (kk)، خمر (km)، کانادا (kn)، کریو (kri)، کردی (ku)، قرقیز (ky)، لاتین (la)، لوگزامبورگی (lb)، لائوس (lom)، مالاگازی (ml)، مالاگاسی (mn)، Meiteilon (Manipuri) (mni-Mtei)، مراتی (mr)، مالایی (ms)، مالتی (mt)، میانمار (برمه) (my)، نپالی (ne)، Nyanja (Chichewa) (ny)، Odia (Oriya) (یا)، پنجابی (pa)، پشتو (ps)، Sindhieshalaa (Sd) (sn)، سومالیایی (so)، آلبانیایی (sq)، سسوتو (st)، سوندانی (su)، تامیلی (ta)، تلوگو (te)، تاجیکی (tg)، اویغوری (ug)، اردو (ur)، ازبکی (uz)، Xhosa (xh)، ییدیش (yi)، یروبا (yo)، زولو (zu)
Imagen
در دسترس بودن عمومی : انگلیسی
پیش نمایش : چینی (ساده شده)، چینی (سنتی)، هندی، ژاپنی، کره ای، پرتغالی، اسپانیایی
اطلاعاتی در مورد مدل های قدیمی تر
Firebase AI Logic از مدل های قدیمی فعال Gemini (مانند مدل های Gemini 1.5 ) پشتیبانی می کند.
Firebase AI Logic از مدل های قدیمی Imagen (مانند Imagen 2 ) پشتیبانی نمی کند.
مدل | ورودی | خروجی | بهینه شده برای |
---|---|---|---|
جمینی 1.5 پروgemini-1.5-pro-002 | متن، کد، فایل های PDF، تصاویر، ویدئو، صدا | متن، کد، JSON | پشتیبانی از وظایف استدلالی پیچیده که نیاز به هوش بیشتری دارند. زمینه طولانی 2M |
فلش جمینی 1.5gemini-1.5-flash-002 | متن، کد، فایل های PDF، تصاویر، ویدئو، صدا | متن، کد، JSON | عملکرد سریع و همه کاره را در انواع مختلف وظایف ارائه می دهد |
gemini-1.0-pro-vision-001 | | | |
gemini-1.0-pro-002 | | | |
اینها انواع ورودی و خروجی هنگام استفاده از هر مدل با Firebase AI Logic هستند:
جمینی 1.5 پرو | فلش جمینی 1.5 | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||||
---|---|---|---|---|---|---|---|
انواع ورودی | |||||||
متن | |||||||
کد | |||||||
اسناد (PDF یا متن ساده) | |||||||
تصاویر | |||||||
ویدئو | |||||||
صوتی | |||||||
صوتی (استریم) | |||||||
انواع خروجی | |||||||
متن | |||||||
کد | |||||||
خروجی ساختاریافته (مانند JSON) | |||||||
تصاویر، ویدئو و صدا |
اینها قابلیتها و ویژگیهایی هستند که هنگام استفاده از هر مدل با Firebase AI Logic :
جمینی 1.5 پرو | فلش جمینی 1.5 | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
متن را از ورودی فقط متنی تولید کنید | ||||
تولید متن از ورودی چند وجهی | ||||
تولید تصاویر | ||||
تولید صدا | ||||
تولید خروجی ساختار یافته (مانند JSON) | ||||
اسناد را تجزیه و تحلیل کنید (PDF یا متن ساده) | ||||
تجزیه و تحلیل تصاویر (بینایی) | ||||
تجزیه و تحلیل ویدئو (دید) | ||||
آنالیز صدا | ||||
چت چند نوبتی | ||||
فراخوانی تابع (ابزار) | ||||
توکن ها و کاراکترهای قابل پرداخت را بشمارید | ||||
دستورالعمل های سیستم | ||||
جریان چندوجهی دو طرفه |
اینها مشخصات و محدودیتها هنگام استفاده از هر مدل با Firebase AI Logic هستند:
جمینی 1.5 پرو | فلش جمینی 1.5 | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||||
---|---|---|---|---|---|---|---|
پنجره زمینه * حد توکن کل (ورودی + خروجی ترکیبی) | 2,097,152 توکن | 1,048,576 توکن | 16384 توکن | 32760 توکن | |||
محدودیت رمز خروجی * | 8192 توکن | 8192 توکن | 2048 توکن | 8192 توکن | |||
تاریخ قطع دانش | می 2024 | می 2024 | فوریه 2023 | فوریه 2023 | |||
فایل های PDF (در هر درخواست) | |||||||
حداکثر تعداد فایل های PDF ورودی ** | 3000 فایل | 3000 فایل | 16 فایل | --- | |||
حداکثر تعداد تعداد صفحات در هر فایل PDF ورودی ** | 1000 صفحه | 1000 صفحه | 16 صفحه | --- | |||
حداکثر اندازه در هر فایل PDF ورودی | 50 مگابایت | 50 مگابایت | 50 مگابایت | --- | |||
تصاویر (در هر درخواست) | |||||||
حداکثر تعداد از تصاویر ورودی | 3000 عکس | 3000 عکس | 16 تصویر | --- | |||
حداکثر تعداد از تصاویر خروجی | --- | --- | --- | --- | |||
حداکثر اندازه به ازای هر تصویر کدگذاری شده با پایه 64 ورودی | 7 مگابایت | 7 مگابایت | 7 مگابایت | --- | |||
ویدئو (به ازای درخواست) | |||||||
حداکثر تعداد فایل های ویدئویی ورودی | 10 فایل | 10 فایل | 1 فایل | --- | |||
حداکثر طول از تمام ویدیوهای ورودی (فقط قاب) | ~60 دقیقه | ~60 دقیقه | 2 دقیقه | --- | |||
حداکثر طول از تمام ویدیوهای ورودی (قاب + صدا) | ~45 دقیقه | ~45 دقیقه | --- | --- | |||
صوتی (به ازای درخواست) | |||||||
حداکثر تعداد فایل های صوتی ورودی | 1 فایل | 1 فایل | --- | --- | |||
حداکثر تعداد از فایل های صوتی خروجی | --- | --- | --- | --- | |||
حداکثر طول از تمام صدای ورودی | 8.4 ساعت | 8.4 ساعت | --- | --- | |||
حداکثر طول از تمام صدای خروجی | --- | --- | --- | --- |
* برای تمام مدل های جمینی ، یک نشانه معادل حدود 4 کاراکتر است، بنابراین 100 توکن حدود 60-80 کلمه انگلیسی است. برای مدلهای Gemini ، میتوانید تعداد کل نشانهها را در درخواستهای خود با استفاده countTokens
تعیین کنید.
** فایل های PDF به عنوان تصویر در نظر گرفته می شوند، بنابراین یک صفحه از یک PDF به عنوان یک تصویر در نظر گرفته می شود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل می تواند پشتیبانی کند.
نام مدل ها مقادیر صریحی هستند که در کد خود در هنگام شروع اولیه مدل وارد می کنید.
نام مدل های Gemini 1.5 Pro
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.5-pro-002 | آخرین نسخه پایدار Gemini 1.5 Pro | بازنشستگی آینده | 2024-09-24 | 2025-09-24 |
gemini-1.5-pro-001 | نسخه پایدار اولیه Gemini 1.5 Pro | بازنشستگی آینده | 24-05-2024 | 2025-05-24 |
نام مستعار پایدار بهروزرسانی خودکار | ||||
gemini-1.5-pro | به آخرین نسخه پایدار 1.5 Pro اشاره می کند (در حال حاضر gemini-1.5-pro-002 ) | بازنشستگی آینده | 2024-09-24 | 2025-09-24 |
نام مدل های فلش Gemini 1.5
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.5-flash-002 | آخرین نسخه پایدار Gemini 1.5 Flash | بازنشستگی آینده | 2024-09-24 | 2025-09-24 |
gemini-1.5-flash-001 | نسخه پایدار اولیه Gemini 1.5 Flash | بازنشستگی آینده | 24-05-2024 | 2025-05-24 |
نام مستعار پایدار بهروزرسانی خودکار | ||||
gemini-1.5-flash | به آخرین نسخه پایدار 1.5 Flash اشاره می کند (در حال حاضر gemini-1.5-flash-002 ) | بازنشستگی آینده | 2024-09-24 | 2025-09-24 |
نام مدل های Gemini 1.0 Pro Vision
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.0-pro-vision-001 | آخرین نسخه پایدار Gemini 1.0 Pro Vision | بازنشسته | 15-02-2024 | 2025-04-21 |
نام مستعار پایدار بهروزرسانی خودکار | ||||
gemini-1.0-pro-vision | به آخرین نسخه پایدار 1.5 Pro Vision اشاره می کند (در حال حاضر gemini-1.5-pro-vision-001 ) | بازنشسته | 04-01-2024 | 2025-04-21 |
نام مدل های Gemini 1.0 Pro
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.0-pro-002 | آخرین نسخه پایدار Gemini 1.0 Pro | بازنشسته | 09-04-2024 | 2025-04-21 |
gemini-1.0-pro-001 | نسخه پایدار Gemini 1.0 Pro | بازنشسته | 15-02-2024 | 2025-04-21 |
نام مستعار پایدار بهروزرسانی خودکار | ||||
gemini-1.0-pro | به آخرین نسخه پایدار 1.0 Pro اشاره می کند (در حال حاضر gemini-1.0-pro-002 ) | بازنشسته | 15-02-2024 | 2025-04-21 |
مراحل بعدی
قابلیت های Gemini API را امتحان کنید
- مکالمات چند نوبتی (چت) بسازید.
- متن را از اعلانهای فقط متنی ایجاد کنید.
- با درخواست انواع فایلهای مختلف، مانند تصاویر ، فایلهای PDF ، ویدئو و صدا ، متن تولید کنید.
- خروجی ساختاریافته (مانند JSON) را هم از دستورات متنی و هم از چند وجهی ایجاد کنید.
- تولید تصاویر از پیام های متنی
- ورودی و خروجی (از جمله صدا) را با استفاده از Gemini Live API پخش کنید.
- از فراخوانی تابع برای اتصال مدل های مولد به سیستم ها و اطلاعات خارجی استفاده کنید.