هنگام فراخوانی Gemini API از برنامه خود با استفاده از Firebase AI Logic SDK، میتوانید از مدل Gemini بخواهید متنی را بر اساس ورودی چندوجهی، مانند تصاویر، ویدیو، و صدا، و اسناد (مانند PDF) تولید کند.
شما باید از انواع فایل های پشتیبانی شده استفاده کنید، نوع MIME پشتیبانی شده را مشخص کنید، و مطمئن شوید که فایل ها و درخواست های چندوجهی شما الزامات را برآورده می کنند و بهترین شیوه ها را دنبال می کنند.
این صفحه مخصوص استفاده از GenerativeModel
است و موارد زیر را شرح می دهد:
جزئیات مربوط به انواع MIME پشتیبانی شده، بهترین شیوه ها و محدودیت ها برای ورودی های فایل زیر:
تصاویر | ویدیو | صوتی | اسناد (مانند PDF) .
گزینه هایی برای ارائه فایل ها در درخواست های چندوجهی
ارائه دهنده API Gemini خود را برای مشاهده محتوای ارائه دهنده خاص در این صفحه انتخاب کنید |
در هر درخواست چند وجهی، همیشه باید موارد زیر را ارائه دهید:
mimeType
فایل. انواع MIME پشتیبانی شده هر فایل ورودی را در بخش مربوطه این صفحه ببینید.فایل. میتوانید فایل را بهعنوان داده درون خطی ارائه کنید یا با استفاده از URL آن فایل را ارائه دهید .
اندازه و تعداد فایلهایی که میتوانید در درخواست ارائه دهید، بر اساس نوع فایل ورودی، نحوه ارائه فایل، و مدل استفاده شده تعیین میشود (برای جزئیات، بخش هر نوع فایل ورودی را در این صفحه ببینید).
گزینه 1 : فایل را به عنوان داده درون خطی ارائه کنید
در مورد فایل های ارائه شده به عنوان داده های درون خطی به موارد زیر توجه کنید:
فقط فایل های کوچک را می توان به عنوان داده های درون خطی ارسال کرد زیرا محدودیت حجم کل درخواست 20 مگابایت است.
فایل در حال انتقال به base64 کدگذاری می شود (که باعث افزایش اندازه فایل می شود).
برای مثالی که نحوه گنجاندن یک فایل را به عنوان داده درون خطی نشان می دهد، به ایجاد متن از ورودی متن و فایل (چند وجهی) مراجعه کنید. توجه داشته باشید که SDK برای پلتفرمهای اندروید و اپل میتوانند بدون نیاز به تعیین نوع MIME، تصاویر درون خطی را در درخواستها مدیریت کنند. بیشتر بدانید.
گزینه 2 : فایل را با استفاده از URL ارائه کنید
در اینجا انواع URL های قابل قبول هنگام استفاده از Gemini Developer API آمده است:
URL ویدیوی YouTube : ویدیوی YouTube باید عمومی یا فهرست نشده باشد.
برای هر درخواست می توانید یک URL ویدیوی YouTube را مشخص کنید.
تصاویر : الزامات، بهترین شیوه ها، و محدودیت ها
تصاویر: نیازمندی ها
در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای تصاویر آشنا شوید.
پشتیبانی از انواع MIME
مدلهای چند وجهی Gemini از انواع MIME تصویر زیر پشتیبانی میکنند:
نوع MIME تصویر | فلش جمینی 2.0 | Gemini 2.0 Flash-Lite |
---|---|---|
PNG - image/png | ||
JPEG - image/jpeg | ||
WebP - image/webp |
محدودیت در هر درخواست
محدودیت خاصی برای تعداد پیکسل های یک تصویر وجود ندارد. با این حال، تصاویر بزرگتر کوچکتر میشوند و برای قرار دادن حداکثر وضوح 3072×3072 در حالی که نسبت تصویر اصلی خود را حفظ میکنند، بالشتک میشوند.
در اینجا حداکثر تعداد فایل های تصویری مجاز در یک درخواست فوری آمده است:
- Gemini 2.0 Flash و Gemini 2.0 Flash-Lite : 3000 تصویر
تصاویر: توکن سازی
در اینجا نحوه محاسبه نشانه ها برای تصاویر آمده است:
- Gemini 2.0 Flash و Gemini 2.0 Flash-Lite :
- اگر هر دو بعد یک تصویر کمتر یا مساوی 384 پیکسل باشد، از 258 توکن استفاده می شود.
- اگر یک بعد یک تصویر بزرگتر از 384 پیکسل باشد، آنگاه تصویر به کاشی برش داده می شود. هر اندازه کاشی به طور پیش فرض کوچکترین بعد (عرض یا ارتفاع) تقسیم بر 1.5 است. در صورت لزوم، هر کاشی طوری تنظیم می شود که کوچکتر از 256 پیکسل و بزرگتر از 768 پیکسل نباشد. سپس اندازه هر کاشی به 768x768 تغییر می کند و از 258 توکن استفاده می کند.
تصاویر: بهترین شیوه ها
هنگام استفاده از تصاویر، از بهترین شیوه ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:
- اگر میخواهید متن را در یک تصویر تشخیص دهید، از دستورات با یک تصویر استفاده کنید تا نتایج بهتری نسبت به پیامهای چند تصویری ایجاد کنید.
- اگر درخواست شما حاوی یک تصویر واحد است، تصویر را قبل از درخواست متنی در درخواست خود قرار دهید.
- اگر درخواست شما حاوی چندین تصویر است، و میخواهید بعداً در درخواست خود به آنها مراجعه کنید یا مدل را در پاسخ مدل به آنها ارجاع دهید، میتوانید به هر تصویر یک شاخص قبل از تصویر بدهید. استفاده کنید
a
b
c
یاimage 1
image 2
image 3
برای نمایه شما. مثال زیر نمونه ای از استفاده از تصاویر ایندکس شده در یک اعلان است:image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - استفاده از تصاویر با وضوح بالاتر. آنها نتایج بهتری می دهند.
- چند مثال را در اعلان قرار دهید.
- قبل از افزودن تصاویر به دستور، آنها را در جهت مناسب خود بچرخانید.
- از تصاویر تار خودداری کنید.
تصاویر: محدودیت ها
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- تعدیل محتوا : مدلها از ارائه پاسخ به تصاویری که خطمشیهای ایمنی ما را نقض میکنند، خودداری میکنند.
- استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در تصاویر دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
- کاربردهای پزشکی : مدل ها برای تفسیر تصاویر پزشکی (مثلاً اشعه ایکس و سی تی اسکن) یا ارائه توصیه های پزشکی مناسب نیستند.
- تشخیص افراد : این مدلها برای شناسایی افرادی که افراد مشهور نیستند در تصاویر استفاده نمیشوند.
- دقت : مدلها ممکن است هنگام تفسیر تصاویر با کیفیت پایین، چرخانده یا بسیار کم وضوح دچار توهم شوند یا اشتباه کنند. این مدل ها همچنین ممکن است هنگام تفسیر متن دست نویس در اسناد تصویری دچار توهم شوند.
ویدئو : الزامات، بهترین شیوهها و محدودیتها
ویدئو: الزامات
در این بخش، با انواع MIME پشتیبانی شده و محدودیتهای هر درخواست برای ویدیو آشنا شوید.
پشتیبانی از انواع MIME
مدلهای چندوجهی Gemini از انواع MIME ویدیویی زیر پشتیبانی میکنند:
نوع MIME ویدیویی | فلش جمینی 2.0 | Gemini 2.0 Flash-Lite |
---|---|---|
FLV - video/x-flv | ||
MOV - video/quicktime | ||
MPEG - video/mpeg | ||
MPEGPS - video/mpegps | ||
MPG - video/mpg | ||
MP4 - video/mp4 | ||
WEBM - video/webm | ||
WMV - video/wmv | ||
3GPP - video/3gpp |
محدودیت در هر درخواست
در اینجا حداکثر تعداد فایل های ویدئویی مجاز در یک درخواست فوری آمده است:
- Gemini 2.0 Flash و Gemini 2.0 Flash-Lite : 10 فایل ویدیویی
ویدئو: توکن سازی
در اینجا نحوه محاسبه توکن ها برای ویدیو آمده است:
- Gemini 2.0 Flash و Gemini 2.0 Flash-Lite : آهنگ صوتی با فریم های ویدئویی کدگذاری شده است. تراک صوتی نیز به
ترانک های 1 ثانیه ای تقسیم می شود که هر کدام 32 توکن را تشکیل می دهند. قاب های ویدئویی و نشانه های صوتی با مهرهای زمانی خود در هم آمیخته می شوند. مهرهای زمانی به صورت 7 توکن نشان داده می شوند. - همه مدلهای چند وجهی Gemini : ویدیوها با
سرعت 1 فریم در ثانیه (فریم در ثانیه) نمونهبرداری میشوند. هر فریم ویدئو 258 توکن را شامل می شود.
ویدئو: بهترین شیوه ها
هنگام استفاده از ویدئو، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:
- اگر درخواست شما حاوی یک ویدیو است، ویدیو را قبل از درخواست متنی قرار دهید.
- اگر به محلی سازی مهر زمانی در یک ویدیو با صدا نیاز دارید، از مدل بخواهید مهر زمانی را در قالب
MM:SS
ایجاد کند که در آن دو رقم اول نشان دهنده دقیقه و دو رقم آخر نشان دهنده ثانیه است. از همان قالب برای سؤالاتی که درباره مهر زمانی می پرسند استفاده کنید.
ویدئو: محدودیت ها
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- تعدیل محتوا : مدلها از ارائه پاسخ در مورد ویدیوهایی که خطمشیهای ایمنی ما را نقض میکنند، خودداری میکنند.
- تشخیص صدای غیرگفتاری : مدلهایی که از صدا پشتیبانی میکنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.
- حرکت با سرعت بالا : مدلها ممکن است در درک حرکت با سرعت بالا در ویدیو به دلیل نرخ نمونهگیری ثابت
1 فریم در ثانیه (fps) اشتباه کنند.
صدا : الزامات و محدودیت ها
صدا: الزامات
در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای صدا آشنا شوید.
پشتیبانی از انواع MIME
مدلهای چند وجهی Gemini از انواع MIME صوتی زیر پشتیبانی میکنند:
نوع MIME صوتی | فلش جمینی 2.0 | Gemini 2.0 Flash-Lite |
---|---|---|
AAC - audio/aac | ||
FLAC - audio/flac | ||
MP3 - audio/mp3 | ||
MPA - audio/m4a | ||
MPEG - audio/mpeg | ||
MPGA - audio/mpga | ||
MP4 - audio/mp4 | ||
OPUS - audio/opus | ||
PCM - audio/pcm | ||
WAV - audio/wav | ||
WEBM - audio/webm |
محدودیت در هر درخواست
شما می توانید حداکثرصدا: محدودیت ها
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- تشخیص صدای غیرگفتاری : مدلهایی که از صدا پشتیبانی میکنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.
- مهرهای زمانی فقط صوتی : برای ایجاد دقیق مهر زمانی برای فایلهای فقط صوتی، باید پارامتر
audio_timestamp
را درgeneration_config
پیکربندی کنید.
اسناد (مانند فایلهای PDF) : الزامات، بهترین شیوهها و محدودیتها
مدارک: الزامات
در این بخش، با انواع MIME پشتیبانی شده و محدودیتهای هر درخواست برای اسناد (مانند فایلهای PDF) آشنا شوید.
پشتیبانی از انواع MIME
مدلهای چندوجهی Gemini از انواع سند MIME زیر پشتیبانی میکنند:
نوع MIME سند | فلش جمینی 2.0 | Gemini 2.0 Flash-Lite |
---|---|---|
PDF - application/pdf | ||
متن - text/plain |
محدودیت در هر درخواست
PDFها به عنوان تصویر در نظر گرفته می شوند، بنابراین یک صفحه از یک PDF به عنوان یک تصویر در نظر گرفته می شود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل می تواند پشتیبانی کند:
- Gemini 2.0 Flash و Gemini 2.0 Flash-Lite :
- حداکثر تعداد فایل در هر درخواست: 3000
- حداکثر صفحه در هر فایل: 1000
- حداکثر حجم هر فایل: 50 مگابایت
اسناد: توکن سازی
توکن سازی PDF
فایلهای PDF بهعنوان تصویر در نظر گرفته میشوند، بنابراین هر صفحه از یک پیدیاف به روشی مشابه یک تصویر توکنسازی میشود.
همچنین، هزینه فایل های PDF از قیمت گذاری تصویر Gemini تبعیت می کند. به عنوان مثال، اگر یک PDF دو صفحه ای را در تماس Gemini API قرار دهید، هزینه ورودی پردازش دو تصویر را متحمل خواهید شد.
اسناد: بهترین شیوه ها
هنگام استفاده از PDF، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:
- اگر درخواست شما حاوی یک PDF واحد است، PDF را قبل از درخواست متنی در درخواست خود قرار دهید.
- اگر سند طولانی دارید، برای پردازش آن، آن را به چندین فایل PDF تقسیم کنید.
- به جای استفاده از متن در تصاویر اسکن شده از فایل های PDF ایجاد شده با متن ارائه شده به عنوان متن استفاده کنید. این قالب تضمین میکند متن قابل خواندن توسط ماشین است، بنابراین ویرایش، جستجو و دستکاری مدل در مقایسه با فایلهای PDF تصویر اسکن شده آسانتر است. این عمل هنگام کار با اسناد متن سنگین مانند قراردادها نتایج بهینه را ارائه می دهد.
اسناد: محدودیت ها
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در فایل های PDF دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
- دقت : ممکن است مدل ها هنگام تفسیر متن دست نویس در اسناد PDF دچار توهم شوند.