عند طلب Gemini API من تطبيقك باستخدام حزمة تطوير البرامج (SDK) Firebase AI Logic، يمكنك توجيه نموذج Gemini لإنشاء نص استنادًا إلى إدخال متعدّد الوسائط، مثل الصور والفيديوهات والمحتوى الصوتي والمستندات (مثل ملفات PDF).
عليك استخدام أنواع الملفات المتوافقة وتحديد نوع MIME متوافق والتأكّد من أنّ ملفاتك وطلباتك المتعدّدة الوسائط تستوفي المتطلبات وتلتزم بالأفضليات.
هذه الصفحة مخصّصة لاستخدام GenerativeModel
وتصف ما يلي:
تفاصيل عن أنواع MIME المتوافقة وأفضل الممارسات والقيود المفروضة على مدخلات الملفات التالية:
الصور | الفيديوهات | الصوت | المستندات (مثل ملفات PDF)
خيارات تقديم الملفات في طلبات الوسائط المتعددة
اختيار موفِّر Gemini API لعرض المحتوى الخاص بالموفِّر على هذه الصفحة |
في كل طلب متعدد الوسائط، يجب دائمًا تقديم ما يلي:
حجم الملف هو
mimeType
. يمكنك الاطّلاع على أنواع MIME المتوافقة لكل ملف إدخال في القسم ذي الصلة من هذه الصفحة.الملف يمكنك إما تقديم الملف كبيانات مضمّنة أو تقديم الملف باستخدام عنوان URL الخاص به.
يعتمد حجم الملفات التي يمكنك تقديمها في الطلب وعدد هذه الملفات على نوع ملف الإدخال وطريقة تقديم الملف والنموذج المستخدَم (للاطّلاع على التفاصيل، اطّلِع على قسم كل نوع من أنواع ملفات الإدخال في هذه الصفحة).
الخيار 1: تقديم الملف كبيانات مضمّنة
يُرجى مراعاة ما يلي بشأن الملفات المقدَّمة كبيانات مضمّنة:
يمكن إرسال الملفات الصغيرة فقط كبيانات مضمّنة لأنّ الحد الأقصى لحجم الطلب هو 20 ميغابايت.
يتم ترميز الملف بترميز base64 أثناء نقله (ما يؤدي إلى زيادة حجم الملف).
للحصول على مثال يوضّح كيفية تضمين ملف كبيانات مضمّنة، اطّلِع على مقالة إنشاء نص من إدخال نص وملف (متعدّد الوسائط). تجدر الإشارة إلى أنّ حِزم تطوير البرامج (SDK) لنظامَي التشغيل Android وApple يمكنها معالجة الصور المضمّنة في الطلبات بدون الحاجة إلى تحديد نوع MIME. مزيد من المعلومات
الخيار 2: تقديم الملف باستخدام عنوان URL
في ما يلي أنواع عناوين URL المقبولة عند استخدام Gemini Developer API:
عنوان URL لفيديو على YouTube: يجب أن يكون الفيديو على YouTube علنيًا أو غير مُدرَج.
يمكنك تحديد عنوان URL واحد لفيديو على YouTube في كل طلب.
الصور: المتطلبات وأفضل الممارسات والقيود
الصور: المتطلبات
في هذا القسم، يمكنك الاطّلاع على أنواع MIME المتوافقة والقيود المفروضة لكل طلب بشأن الصور.
أنواع MIME المتوافقة
Gemini تتيح النماذج المتعدّدة الوسائط أنواع MIME التالية للصور:
نوع MIME للصورة | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG - image/png |
||
JPEG - image/jpeg |
||
WebP - image/webp |
الحدود القصوى المسموح بها لكل طلب
ما مِن حدّ أقصى محدّد لعدد البكسل في الصورة. ومع ذلك، يتم تصغير الصور الأكبر حجمًا وإضافة حواف إليها لتتلاءم مع الحد الأقصى للدقة البالغ 3072 × 3072 مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية.
في ما يلي الحد الأقصى لعدد ملفات الصور المسموح به في طلب فوري:
- Gemini 2.0 Flash وGemini 2.0 Flash‑Lite: 3,000 صورة
الصور: إنشاء الرموز المميّزة
في ما يلي كيفية احتساب الرموز المميّزة للصور:
- Gemini 2.0 Flash وGemini 2.0 Flash‑Lite:
- إذا كانت كلتا سمتَي الصورة أقل من أو تساوي 384 بكسل، يتم استخدام 258 رمزًا.
- إذا كان أحد أبعاد الصورة أكبر من 384 بكسل، تتم قتصاص الصورة إلى مربّعات. يكون حجم كل مربّع افتراضيًا هو أصغر سمة (العرض أو الارتفاع) مقسومة على 1.5. إذا لزم الأمر، يتم تعديل كل مربّع بحيث لا يكون أصغر من 256 بكسل ولا أكبر من 768 بكسل. ويتم بعد ذلك تغيير حجم كل مربّع إلى 768×768 ويستخدم 258 رمزًا مميزًا.
الصور: أفضل الممارسات
عند استخدام الصور، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا كنت تريد رصد نص في صورة، استخدِم طلبات تتضمّن صورة واحدة لتلقّي نتائج أفضل من الطلبات التي تتضمّن صورًا متعددة.
- إذا كان طلبك يحتوي على صورة واحدة، ضَع الصورة قبل طلب نص الطلب في طلبك.
- إذا كان الطلب يحتوي على صور متعددة، وأردت الإشارة إليها
في وقت لاحق من الطلب أو أن يشير إليها النموذج في ردّه،
قد يكون من المفيد منح كل صورة فهرسًا قبلها. استخدِم
أوa
b
c
لفهرسك. في ما يلي مثال على استخدام الصور المفهرَسة في طلب:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - استخدِم صورًا بدرجة دقة أعلى، لأنّها تحقّق نتائج أفضل.
- أدرِج بعض الأمثلة في الطلب.
- يجب تدوير الصور إلى الاتجاه الصحيح قبل إضافتها إلى الطلب.
- تجنَّب استخدام الصور المموّهة.
الصور: القيود
على الرغم من أنّ Gemini النماذج المتعددة الوسائط فعّالة في العديد من حالات استخدام المتعدّدة الوسائط، فمن المهم فهم القيود المفروضة على النماذج:
- الإشراف على المحتوى: يرفض العارضون تقديم إجابات حول الصور التي تنتهك سياسات السلامة.
- الاستدلال المكاني: لا تُحدِّد النماذج بدقة مكان النص أو الأجسام في الصور. وقد لا تعرض سوى الأعداد التقريبية للعناصر.
- الاستخدامات الطبية: لا تكون النماذج مناسبة لتفسير الصور الطبية (مثل الأشعة السينية والتصوير المقطعي المحوسب) أو تقديم advice طبي.
- التعرّف على الأشخاص: لا يُقصد استخدام النماذج لتحديد هوية الأشخاص العاديين في الصور.
- الدقة: قد تُحلِّم النماذج أو تخطئ عند تفسير الصور المنخفضة الجودة أو المُدارَة أو ذات الدقة المنخفضة جدًا. قد تُظهر النماذج أيضًا هلوسات عند تفسير نص مكتوب بخط اليد في مستندات الصور.
الفيديو: المتطلبات وأفضل الممارسات والقيود
الفيديو: المتطلبات
في هذا القسم، يمكنك الاطّلاع على أنواع MIME المتوافقة والقيود المفروضة لكل طلب بشأن الفيديو.
أنواع MIME المتوافقة
Gemini تتيح النماذج المتعدّدة الوسائط أنواع MIME التالية للفيديو:
نوع MIME للفيديو | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV - video/x-flv |
||
MOV - video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS - video/mpegps |
||
الأميال لكل غالون: video/mpg |
||
MP4 - video/mp4 |
||
WEBM - video/webm |
||
WMV - video/wmv |
||
3GPP - video/3gpp |
الحدود القصوى المسموح بها لكل طلب
في ما يلي الحد الأقصى لعدد ملفات الفيديو المسموح به في طلب فوري:
- Gemini 2.0 Flash وGemini 2.0 Flash‑Lite: 10 ملفات فيديو
فيديو: إنشاء الرموز المميّزة
في ما يلي كيفية احتساب الرموز المميّزة للفيديو:
- Gemini 2.0 Flash وGemini 2.0 Flash‑Lite: يتم ترميز المقطع
الصوتي باستخدام لقطات الفيديو. يتم أيضًا تقسيم المقطع الصوتي إلى
مجموعات مدتها ثانية واحدة تضم كلّ منها 32 رمزًا مميزًا. يتم تداخل رمزَي الإطار والصوت في الفيديو مع الطوابع الزمنية الخاصة بهما. يتم تمثيل الطوابع الزمنية على شكل 7 وحدات ترميز. - جميع نماذج Gemini المتعددة الوسائط: يتم أخذ عيّنات من الفيديوهات بمعدّل
لقطة واحدة في الثانية . يضمّ كل لقطة فيديو 258 رمزًا.
فيديو: أفضل الممارسات
عند استخدام الفيديو، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا كان الطلب يحتوي على فيديو واحد، ضَع الفيديو قبل الطلب المكتوب.
- إذا كنت بحاجة إلى ترجمة الطابع الزمني في فيديو يتضمّن صوتًا، اطلب من النموذج
إنشاء الطوابع الزمنية بتنسيق
MM:SS
حيث يمثّل الرقمان الأولان الدقائق ويمثّل الرقمان الأخيران الثواني. استخدِم التنسيق نفسه للأسئلة التي تسأل عن طابع زمني.
الفيديو: القيود
على الرغم من أنّ Gemini النماذج المتعددة الوسائط فعّالة في العديد من حالات استخدام المتعدّدة الوسائط، فمن المهم فهم القيود المفروضة على النماذج:
- الإشراف على المحتوى: يرفض العارضون تقديم إجابات على الفيديوهات التي تنتهك سياسات السلامة لدينا.
- التعرّف على الأصوات غير الكلامية: قد تخطئ الطُرز التي تتيح قراءة الصوت في التعرّف على الأصوات غير الكلامية.
- الحركة السريعة: قد ترتكب النماذج أخطاء عند تحديد
الحركة السريعة في الفيديو بسبب معدّل أخذ العينات الثابت الذي يبلغ
لقطة واحدة في الثانية .
الصوت: المتطلبات والقيود
الصوت: المتطلبات
في هذا القسم، يمكنك الاطّلاع على أنواع MIME المتوافقة والقيود المفروضة لكل طلب متعلّق بالملفّات الصوتية.
أنواع MIME المتوافقة
Gemini تتيح النماذج المتعدّدة الوسائط أنواع MIME التالية للصوت:
نوع MIME للصوت | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
الحدود القصوى المسموح بها لكل طلب
يمكنك تضمين
الصوت: القيود
على الرغم من أنّ Gemini النماذج المتعددة الوسائط فعّالة في العديد من حالات استخدام المتعدّدة الوسائط، فمن المهم فهم القيود المفروضة على النماذج:
- التعرّف على الأصوات غير الكلامية: قد تخطئ الطُرز التي تتيح قراءة الصوت في التعرّف على الأصوات غير الكلامية.
- الطوابع الزمنية للمحتوى الصوتي فقط: لإنشاء طوابع زمنية
دقيقة للملفات الصوتية فقط، يجب ضبط المَعلمة
audio_timestamp
فيgeneration_config
.
المستندات (مثل ملفات PDF): المتطلبات وأفضل الممارسات والقيود
المستندات: المتطلبات
في هذا القسم، يمكنك الاطّلاع على أنواع MIME المتوافقة والقيود المفروضة لكل طلب بشأن المستندات (مثل ملفات PDF).
أنواع MIME المتوافقة
Gemini تتوافق النماذج المتعدّدة الوسائط مع أنواع MIME التالية للمستندات:
نوع MIME للمستند | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
ملف PDF - application/pdf |
||
النص: text/plain |
الحدود القصوى المسموح بها لكل طلب
يتم التعامل مع ملفات PDF كصور، لذا يتم التعامل مع صفحة واحدة من ملف PDF كأحد الصور. يقتصر عدد الصفحات المسموح به في طلب البحث على عدد الصور التي يمكن للنموذج التعامل معها:
- Gemini 2.0 Flash وGemini 2.0 Flash‑Lite:
- الحد الأقصى لعدد الملفات لكل طلب: 3,000
- الحد الأقصى لعدد الصفحات في كل ملف: 1,000
- الحد الأقصى لحجم كل ملف: 50 ميغابايت
المستندات: إنشاء الرموز المميّزة
إنشاء رموز مميّزة لملف PDF
يتم التعامل مع ملفات PDF كصور، لذا يتم تقسيم كل صفحة من ملف PDF إلى وحدات ترميز بالطريقة نفسها التي يتم بها تقسيم الصورة.
وتتّبع تكلفة ملفات PDF أيضًا سعر الصور بدقة Gemini. على سبيل المثال، إذا أدرجت ملف PDF مكوّنًا من صفحتَين في طلب بيانات من واجهة برمجة التطبيقات Gemini، ستتحمّل رسوم إدخال لمعالجة صورتَين.
المستندات: أفضل الممارسات
عند استخدام ملفات PDF، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا كان الطلب يحتوي على ملف PDF واحد، ضَع ملف PDF قبل الطلب النصي.
- إذا كان لديك مستند طويل، ننصحك بتقسيمه إلى ملفات PDF متعددة لمعالجته.
- استخدِم ملفات PDF التي تم إنشاؤها باستخدام نص معروض كنص بدلاً من استخدام النص في الصور الممسوحة ضوئيًا. يضمن هذا التنسيق إمكانية قراءة النص آليًا لكي يكون من السهل على النموذج تعديله والبحث فيه والتلاعب به مقارنةً بملف PDF المسجّل من صورة ممسوحة ضوئيًا. تحقِّق هذه الممارسة نتائج مثالية عند العمل مع المستندات التي تتضمّن الكثير من النصوص، مثل العقود.
المستندات: القيود
على الرغم من أنّ Gemini النماذج المتعددة الوسائط فعّالة في العديد من حالات استخدام المتعدّدة الوسائط، فمن المهم فهم القيود المفروضة على النماذج:
- الاستدلال المكاني: لا تحدد النماذج بدقة مكان النص أو العناصر في ملفات PDF. وقد لا تعرض سوى الأعداد التقريبية للعناصر.
- الدقة: قد تُظهر النماذج معلومات مضلِّلة عند تفسير النص المكتوب بخط اليد في ملفات PDF.