عند إرسال طلب إلى Gemini API من تطبيقك باستخدام حزمة تطوير البرامج (SDK) الخاصة بـ Firebase AI Logic، يمكنك أن تطلب من نموذج Gemini إنشاء نص استنادًا إلى إدخال متعدّد الوسائط، مثل الصور والفيديوهات والملفات الصوتية والمستندات (مثل ملفات PDF).
عليك استخدام أنواع ملفات متوافقة وتحديد نوع MIME متوافق والتأكّد من أنّ ملفاتك وطلباتك المتعددة الوسائط تستوفي المتطلبات وتتّبع أفضل الممارسات.
تتعلّق هذه الصفحة تحديدًا باستخدام GenerativeModel
وتوضّح ما يلي:
تفاصيل حول أنواع MIME المتوافقة وأفضل الممارسات والقيود المتعلقة بأنواع الملفات التالية:
الصور | الفيديو | الصوت | المستندات (مثل ملفات PDF)
خيارات تقديم الملفات في الطلبات المتعددة الوسائط
اختَر موفّر Gemini API لعرض المحتوى الخاص بالموفّر على هذه الصفحة |
في كل طلب متعدد الوسائط، يجب دائمًا تقديم ما يلي:
mimeType
الملف يمكنك الاطّلاع على أنواع MIME المتوافقة مع كل ملف إدخال في القسم ذي الصلة من هذه الصفحة.الملف يمكنك إما توفير الملف كبيانات مضمّنة أو توفير الملف باستخدام عنوان URL الخاص به.
يتم تحديد حجم وعدد الملفات التي يمكنك تقديمها في الطلب حسب نوع ملف الإدخال وطريقة تقديم الملف والنموذج المستخدَم (للحصول على التفاصيل، راجِع قسم كل نوع من أنواع ملفات الإدخال في هذه الصفحة).
الخيار 1: تقديم الملف كبيانات مضمّنة
يُرجى مراعاة ما يلي بشأن الملفات المقدَّمة كبيانات مضمّنة:
يمكن إرسال الملفات الصغيرة فقط كبيانات مضمّنة لأنّ الحد الأقصى لإجمالي حجم الطلب هو 20 ميغابايت.
يتم ترميز الملف إلى base64 أثناء النقل (ما يزيد من حجم الملف).
للاطّلاع على مثال يوضّح كيفية تضمين ملف كبيانات مضمّنة، يُرجى الاطّلاع على إنشاء نص من إدخال نصي وملف (متعدد الوسائط). يُرجى العِلم أنّ حِزم تطوير البرامج (SDK) لمنصتَي Android وApple يمكنها التعامل مع الصور المضمّنة في الطلبات بدون الحاجة إلى تحديد نوع MIME. مزيد من المعلومات
الخيار 2: تقديم الملف باستخدام عنوان URL
في ما يلي أنواع عناوين URL المقبولة عند استخدام Gemini Developer API:
عنوان URL لفيديو على YouTube: يجب أن يكون الفيديو على YouTube علنيًا أو غير مُدرَج.
يمكنك تحديد عنوان URL واحد لفيديو على YouTube لكل طلب.
الصور: المتطلبات وأفضل الممارسات والقيود
الصور: المتطلبات
في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود القصوى المسموح بها لكل طلب خاص بالصور.
أنواع MIME المتوافقة
تتوافق النماذج المتعدّدة الوسائط مع أنواع MIME التالية للصور:Gemini
نوع MIME للصورة | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG - image/png |
||
JPEG - image/jpeg |
||
WebP - image/webp |
الحدود القصوى لكل طلب
ليس هناك حدّ أقصى لعدد وحدات البكسل في الصورة. ومع ذلك، يتم تصغير حجم الصور الأكبر وإضافة مساحة فارغة إليها لتناسب دقة قصوى تبلغ 3072 × 3072 مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية.
في ما يلي الحد الأقصى لعدد ملفات الصور المسموح بها في طلب:
- Gemini 2.0 Flash وGemini 2.0 Flash‑Lite: 3000 صورة
الصور: إنشاء رموز مميّزة
في ما يلي كيفية احتساب الرموز المميزة للصور:
- Gemini 2.0 Flash وGemini 2.0 Flash‑Lite:
- إذا كان كلا بُعدَي الصورة أقل من أو يساوي 384 بكسل، سيتم استخدام 258 رمزًا مميزًا.
- إذا كان أحد أبعاد الصورة أكبر من 384 بكسل، سيتم تقسيم الصورة إلى مربّعات. يكون الحجم التلقائي لكل مربّع هو أصغر بُعد (العرض أو الارتفاع) مقسومًا على 1.5. إذا لزم الأمر، يتم تعديل كل مربّع بحيث لا يقل حجمه عن 256 بكسل ولا يزيد عن 768 بكسل. بعد ذلك، يتم تغيير حجم كل مربّع إلى 768x768 ويستخدم 258 رمزًا مميزًا.
الصور: أفضل الممارسات
عند استخدام الصور، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا أردت رصد نص في صورة، استخدِم طلبات تتضمّن صورة واحدة للحصول على نتائج أفضل من الطلبات التي تتضمّن صورًا متعددة.
- إذا كان طلبك يتضمّن صورة واحدة، ضَع الصورة قبل طلب النص في طلبك.
- إذا كان طلبك يتضمّن صورًا متعددة، وأردت الإشارة إليها لاحقًا في طلبك أو أن يشير إليها النموذج في رده، يمكنك إضافة فهرس قبل كل صورة. استخدِم
أوa
b
c
للفهرس. في ما يلي مثال على استخدام صور مفهرسة في طلب:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - استخدِم صورًا بدقة أعلى للحصول على نتائج أفضل.
- ضمِّن بعض الأمثلة في الطلب.
- دوِّر الصور إلى الاتجاه الصحيح قبل إضافتها إلى الطلب.
- تجنَّب استخدام الصور المموّهة.
الصور: القيود
على الرغم من أنّ Gemini النماذج المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود التي تفرضها هذه النماذج:
- الإشراف على المحتوى: ترفض النماذج تقديم إجابات على الصور التي تنتهك سياسات السلامة.
- الاستدلال المكاني: النماذج ليست دقيقة في تحديد موقع النص أو الكائنات في الصور. وقد تعرض فقط الأعداد التقريبية للعناصر.
- الاستخدامات الطبية: لا تناسب النماذج تفسير الصور الطبية (مثل صور الأشعة السينية والتصوير المقطعي المحوسب) أو تقديم نصائح طبية.
- التعرّف على الأشخاص: لا يُفترض استخدام النماذج للتعرّف على أشخاص غير مشهورين في الصور.
- الدقة: قد تُنتج النماذج معلومات غير صحيحة أو ترتكب أخطاءً عند تفسير الصور المنخفضة الجودة أو المدوّرة أو المنخفضة الدقة للغاية. قد تُظهر النماذج أيضًا معلومات غير صحيحة عند تفسير نص مكتوب بخط اليد في صور المستندات.
الفيديو: المتطلبات وأفضل الممارسات والقيود
الفيديو: المتطلبات
في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود المسموح بها لكل طلب فيديو.
أنواع MIME المتوافقة
تتوافق النماذج المتعدّدة الوسائط مع أنواع MIME التالية للفيديوهات: Gemini
نوع MIME للفيديو | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV - video/x-flv |
||
MOV - video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS - video/mpegps |
||
MPG - video/mpg |
||
MP4 - video/mp4 |
||
WEBM - video/webm |
||
WMV - video/wmv |
||
3GPP - video/3gpp |
الحدود القصوى لكل طلب
في ما يلي الحدّ الأقصى لعدد ملفات الفيديو المسموح بها في طلب موجّه:
- Gemini 2.0 Flash وGemini 2.0 Flash‑Lite: 10 ملفات فيديو
فيديو: إنشاء الرموز المميّزة
في ما يلي كيفية احتساب الرموز المميزة للفيديو:
-
Gemini 2.5 Pro وGemini 2.0 Flash وGemini 2.0 Flash‑Lite: يتم ترميز المقطع الصوتي باستخدام إطارات الفيديو. يتم أيضًا تقسيم المقطع الصوتي إلى
أجزاء مدة كل منها ثانية واحدة ، ويحتوي كل جزء على 32 رمزًا مميزًا. يتم دمج إطارات الفيديو ورموز الصوت مع الطوابع الزمنية الخاصة بها. يتم تمثيل الطوابع الزمنية على شكل 5 رموز مميزة. - جميع نماذج Gemini المتعددة الوسائط: يتم أخذ عيّنات من الفيديوهات بمعدل
لقطة واحدة في الثانية . تمثّل كل لقطة فيديو 258 رمزًا مميزًا.
فيديو: أفضل الممارسات
عند استخدام الفيديو، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا كان طلبك يتضمّن فيديو واحدًا، ضَع الفيديو قبل طلب النص.
- إذا كنت بحاجة إلى ترجمة الطوابع الزمنية في فيديو يتضمّن صوتًا، اطلب من النموذج إنشاء طوابع زمنية بالتنسيق
MM:SS
، حيث يمثّل الرقمان الأولان الدقائق ويمثّل الرقمان الأخيران الثواني. استخدِم التنسيق نفسه للأسئلة التي تطلب طابعًا زمنيًا.
الفيديو: القيود
على الرغم من أنّ Gemini النماذج المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود التي تفرضها هذه النماذج:
- الإشراف على المحتوى: ترفض النماذج تقديم إجابات عن الفيديوهات التي تنتهك سياسات الأمان لدينا.
- التعرّف على الأصوات غير الكلامية: قد ترتكب النماذج التي تتيح الصوت أخطاءً في التعرّف على الأصوات غير الكلامية.
- الحركة السريعة: قد ترتكب النماذج أخطاءً في فهم الحركة السريعة في الفيديو بسبب معدّل أخذ العيّنات الثابت الذي يبلغ
لقطة واحدة في الثانية .
المحتوى الصوتي: المتطلبات والقيود
الصوت: المتطلبات
في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود القصوى المسموح بها لكل طلب خاص بالصوت.
أنواع MIME المتوافقة
تتوافق Gemini النماذج المتعدّدة الوسائط مع أنواع MIME التالية للصوت:
نوع MIME للصوت | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
الحدود القصوى لكل طلب
يمكنك تضمين
الصوت: القيود
على الرغم من أنّ Gemini النماذج المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود التي تفرضها هذه النماذج:
- التعرّف على الأصوات غير الكلامية: قد ترتكب النماذج التي تتيح الصوت أخطاءً في التعرّف على الأصوات غير الكلامية.
- الطوابع الزمنية للملفات الصوتية فقط: لإنشاء طوابع زمنية دقيقة للملفات الصوتية فقط، يجب ضبط المَعلمة
audio_timestamp
فيgeneration_config
.
المستندات (مثل ملفات PDF): المتطلبات وأفضل الممارسات والقيود
المستندات: المتطلبات
في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود المسموح بها لكل طلب للمستندات (مثل ملفات PDF).
أنواع MIME المتوافقة
تتوافق النماذج المتعدّدة الوسائط مع أنواع MIME التالية للمستندات:Gemini
نوع MIME للمستند | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
ملف PDF - application/pdf |
||
النص - text/plain |
الحدود القصوى لكل طلب
يتم التعامل مع ملفات PDF على أنّها صور، لذا يتم التعامل مع صفحة واحدة من ملف PDF على أنّها صورة واحدة. يقتصر عدد الصفحات المسموح بها في الطلب على عدد الصور التي يمكن للنموذج معالجتها:
- Gemini 2.0 Flash وGemini 2.0 Flash‑Lite:
- الحدّ الأقصى لعدد الملفات لكل طلب: 3,000
- الحدّ الأقصى لعدد الصفحات لكل ملف: 1,000
- الحد الأقصى لحجم الملف الواحد: 50 ميغابايت
المستندات: إنشاء الرموز المميّزة
إنشاء رموز مميّزة لملفات PDF
يتم التعامل مع ملفات PDF على أنّها صور، لذا يتم تقسيم كل صفحة من ملف PDF إلى رموز مميزة بالطريقة نفسها التي يتم بها تقسيم الصور.
بالإضافة إلى ذلك، تخضع تكلفة ملفات PDF لتسعير صور Gemini. على سبيل المثال، إذا أدرجت ملف PDF من صفحتين في طلب Gemini API، سيتم تحصيل رسوم إدخال مقابل معالجة صورتين.
المستندات: أفضل الممارسات
عند استخدام ملفات PDF، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا كان طلبك يحتوي على ملف PDF واحد، ضَع ملف PDF قبل طلب النص في طلبك.
- إذا كان لديك مستند طويل، ننصحك بتقسيمه إلى عدة ملفات PDF لمعالجته.
- استخدِم ملفات PDF تم إنشاؤها باستخدام نص معروض كنص بدلاً من استخدام نص في صور ممسوحة ضوئيًا. يضمن هذا التنسيق أن يكون النص قابلاً للقراءة آليًا، ما يسهّل على النموذج تعديله والبحث فيه والتعامل معه مقارنةً بملفات PDF التي تتضمّن صورًا ممسوحة ضوئيًا. توفّر هذه الممارسة أفضل النتائج عند التعامل مع المستندات التي تحتوي على الكثير من النصوص، مثل العقود.
المستندات: القيود
على الرغم من أنّ Gemini النماذج المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود التي تفرضها هذه النماذج:
- الاستدلال المكاني: لا يمكن للنماذج تحديد موقع النصوص أو العناصر في ملفات PDF بدقة. وقد تعرض فقط الأعداد التقريبية للعناصر.
- الدقة: قد تُنتج النماذج معلومات غير صحيحة عند تفسير النصوص المكتوبة بخط اليد في مستندات PDF.