כשאתם קוראים ל-Gemini API מהאפליקציה באמצעות Firebase AI Logic SDK, תוכלו לבקש ממודל Gemini ליצור טקסט על סמך קלט רב-מודלי, כמו תמונות, סרטונים, אודיו ומסמכים (כמו קובצי PDF).
עליכם להשתמש בסוגי קבצים נתמכים, לציין סוג MIME נתמך ולוודא שהקבצים והבקשות הרב-מודאליות עומדים בדרישות ופועלים בהתאם לשיטות המומלצות.
הדף הזה ספציפי לשימוש ב-GenerativeModel
, ומתוארות בו הנושאים הבאים:
פרטים על סוגי ה-MIME הנתמכים, שיטות מומלצות ומגבלות לגבי הקלטות הקבצים הבאות:
תמונות | וידאו | אודיו | מסמכים (כמו קובצי PDF).
אפשרויות לשליחת קבצים בבקשות עם מספר שיטות העברה
בוחרים את ספק Gemini API כדי להציג תוכן ספציפי לספק בדף הזה |
בכל בקשה עם מודלים מרובים, תמיד צריך לציין את הפרטים הבאים:
mimeType
של הקובץ. סוגי ה-MIME הנתמכים של כל קובץ קלט מפורטים בקטע הרלוונטי בדף הזה.הקובץ. אפשר לספק את הקובץ כנתונים מוטמעים או לספק את הקובץ באמצעות כתובת ה-URL שלו.
הגודל ומספר הקבצים שאפשר לספק בבקשה נקבע לפי סוג קובץ הקלט, אופן ההעברה של הקובץ והמודל שבו נעשה שימוש (פרטים נוספים זמינים בקטע של כל סוג קובץ קלט בדף הזה).
אפשרות 1: העברת הקובץ כנתונים בתוך שורה
חשוב לשים לב לנקודות הבאות לגבי קבצים שסופקו כנתונים מוטמעים:
אפשר לשלוח רק קבצים קטנים כנתונים בקוד, כי המגבלה הכוללת על גודל הבקשה היא 20MB.
הקובץ מקודד ל-base64 במעבר (מה שמגדיל את גודל הקובץ).
לדוגמה של הוספת קובץ כנתונים בתוך שורה, ראו יצירת טקסט ממידע קלט מסוג טקסט וקובץ (מולטי-מודלי). חשוב לזכור שערכות ה-SDK לפלטפורמות Android ו-Apple יכולות לטפל בבקשות עם תמונות מוטמעות בלי שתצטרכו לציין את סוג ה-MIME. למידע נוסף
אפשרות 2: העברת הקובץ באמצעות כתובת URL
אלה סוגי כתובות ה-URL הקבילים לשימוש ב-Gemini Developer API:
כתובת ה-URL של הסרטון ב-YouTube: הסרטון ב-YouTube חייב להיות גלוי לכולם או לא רשום.
אפשר לציין כתובת URL אחת של סרטון YouTube בכל בקשה.
תמונות: דרישות, שיטות מומלצות ומגבלות
תמונות: דרישות
בקטע הזה נסביר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה להעלאת תמונות.
סוגי MIME נתמכים
Gemini מודלים רב-מודאליים תומכים בסוגי ה-MIME הבאים של תמונות:
סוג ה-MIME של התמונה | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG – image/png |
||
JPEG – image/jpeg |
||
WebP – image/webp |
מגבלות לכל בקשה
אין הגבלה ספציפית על מספר הפיקסלים בתמונה. עם זאת, תמונות גדולות יותר מוקטנות וממולאות כדי להתאים לרזולוציה מקסימלית של 3072 על 3072, תוך שמירה על יחס הגובה-רוחב המקורי שלהן.
זהו המספר המקסימלי של קובצי תמונה שמותר לשלוח בבקשה להצגת הנחיה:
- Gemini 2.0 Flash ו-Gemini 2.0 Flash‑Lite: 3,000 תמונות
תמונות: יצירת טוקנים
כך מחושבים האסימונים לתמונות:
- Gemini 2.0 Flash וגם Gemini 2.0 Flash‑Lite:
- אם שני המימדים של התמונה קטנים מ-384 פיקסלים או שווים להם, נעשה שימוש ב-258 אסימונים.
- אם מימד אחד של תמונה גדול מ-384 פיקסלים, התמונה תוחתוך לריבועים. ברירת המחדל של כל גודל משבצת היא המאפיין הקטן ביותר (רוחב או גובה) חלקי 1.5. אם צריך, כל משבצת מותאמת כך שהיא לא תהיה קטנה מ-256 פיקסלים ולא גדולה מ-768 פיקסלים. לאחר מכן, המערכת משנה את הגודל של כל משבצת ל-768x768 ומשתמשת ב-258 אסימונים.
תמונות: שיטות מומלצות
כדי לקבל את התוצאות הטובות ביותר, מומלץ להשתמש בשיטות המומלצות ובמידע הבא כשמשתמשים בתמונות:
- אם רוצים לזהות טקסט בתמונה, כדאי להשתמש בהנחיות עם תמונה אחת כדי לקבל תוצאות טובות יותר מאשר בהנחיות עם כמה תמונות.
- אם ההנחיה מכילה תמונה אחת, צריך למקם את התמונה לפני ההנחיה בטקסט בבקשה.
- אם ההנחיה מכילה כמה תמונות ואתם רוצים להפנות אליהן בהמשך ההנחיה או לאפשר למודל להפנות אליהן בתשובה של המודלים, כדאי לתת לכל תמונה אינדקס לפני התמונה. משתמשים ב-
או ב-a
b
c
לאינדקס. הדוגמה הבאה ממחישה שימוש בתמונות שנוספו לאינדקס בהנחיה:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - כדאי להשתמש בתמונות ברזולוציה גבוהה יותר, כי הן מניבות תוצאות טובות יותר.
- כדאי לכלול בהנחיה כמה דוגמאות.
- מסובבים את התמונות לכיוון הנכון לפני שמוסיפים אותן להנחיה.
- יש להימנע משימוש בתמונות מטושטשות.
תמונות: מגבלות
מודלים Gemini מרובת-מודלים הם יעילים בהרבה תרחישים לדוגמה של מודלים מרובת-מודלים, אבל חשוב להבין את המגבלות של המודלים:
- ניהול תוכן: המודלים מסרבים לספק תשובות לגבי תמונות שמפירות את מדיניות הבטיחות שלנו.
- חשיבה מרחבית: המודלים לא מדויקים במיקום של טקסט או אובייקטים בתמונות. יכול להיות שהן יחזירו רק את המספרים המשוערים של הפריטים.
- שימושים רפואיים: המודלים לא מתאימים לפענוח תמונות רפואיות (למשל, צילומי רנטגן וסריקות CT) או למתן ייעוץ רפואי.
- זיהוי אנשים: המודלים לא מיועדים לזיהוי אנשים בתמונות שאינם סלבריטאים.
- דיוק: יכול להיות שהמודלים ייצרו הזיות או יעשו שגיאות כשהם מפרשים תמונות באיכות נמוכה, תמונות שהופנו או תמונות באיכות רזולוציה נמוכה במיוחד. יכול להיות שהמודלים ייצרו הזיות גם כשהם מפרשים טקסט בכתב יד במסמכים שמצורפות אליהם תמונות.
סרטונים: דרישות, שיטות מומלצות ומגבלות
סרטון: דרישות
בקטע הזה מוסבר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה להעלאת סרטון.
סוגי MIME נתמכים
Gemini מודלים רב-מודאליים תומכים בסוגי ה-MIME הבאים של וידאו:
סוג ה-MIME של סרטונים | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV – video/x-flv |
||
MOV – video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS – video/mpegps |
||
MPG - video/mpg |
||
MP4 – video/mp4 |
||
WEBM – video/webm |
||
WMV – video/wmv |
||
3GPP – video/3gpp |
מגבלות לכל בקשה
זהו המספר המקסימלי של קובצי וידאו שמותר לבקש בבקשה להנחיה:
- Gemini 2.0 Flash ו-Gemini 2.0 Flash‑Lite: 10 קובצי וידאו
סרטון: יצירת טוקנים
כך מחושבים האסימונים בסרטונים:
- Gemini 2.0 Flash ו-Gemini 2.0 Flash‑Lite: הטראק של האודיו מקודד באמצעות פריימים של וידאו. טראק האודיו מחולק גם ל
טראקים של שנייה אחת , שכל אחד מהם מכיל 32 אסימונים. האסימונים של הווידאו והאודיו משובצים יחד עם חותמות הזמן שלהם. חותמות הזמן מיוצגות כ-7 אסימונים. - כל המודלים המולטי-מודאליים של Gemini: הסרטונים נלקחים לדגימה בקצב של
פריים אחד לשנייה (FPS) . כל פריים בסרטון מכיל 258 אסימונים.
סרטון: שיטות מומלצות
כדי לקבל את התוצאות הטובות ביותר, מומלץ להשתמש בשיטות המומלצות ובמידע הבאים כשמשתמשים בסרטונים:
- אם ההנחיה מכילה סרטון אחד, צריך להציב את הסרטון לפני ההנחיה הטקסטואלית.
- אם אתם צריכים לוקליזציה של חותמות זמן בסרטון עם אודיו, צריך לבקש מהמודל ליצור חותמות זמן בפורמט
MM:SS
, כאשר שני הספרות הראשונות מייצגות דקות ושני הספרות האחרונות מייצגות שניות. צריך להשתמש באותו פורמט בשאלות שמתייחסות לחותמת זמן.
סרטון: מגבלות
מודלים Gemini מרובת-מודלים הם יעילים בהרבה תרחישים לדוגמה של מודלים מרובת-מודלים, אבל חשוב להבין את המגבלות של המודלים:
- ניהול תוכן: הדוגמניות מסרבות לספק תשובות בסרטונים שמפירים את כללי המדיניות שלנו בנושא בטיחות.
- זיהוי צלילים שאינם דיבור: בדגמים שתומכים באודיו יכולות להיות שגיאות בזיהוי צלילים שאינם דיבור.
- תנועה במהירות גבוהה: יכול להיות שהמודלים יעשו שגיאות בהבנת תנועה במהירות גבוהה בסרטון בגלל קצב הדגימה הקבוע של
פריים אחד לשנייה (fps) .
אודיו: דרישות ומגבלות
אודיו: דרישות
בקטע הזה מוסבר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה לאודיו.
סוגי MIME נתמכים
Gemini מודלים רב-מודאליים תומכים בסוגי ה-MIME הבאים של אודיו:
סוג MIME של אודיו | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC – audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS – audio/opus |
||
PCM – audio/pcm |
||
WAV – audio/wav |
||
WEBM – audio/webm |
מגבלות לכל בקשה
אפשר לכלול עד
אודיו: מגבלות
מודלים Gemini מרובת-מודלים הם יעילים בהרבה תרחישים לדוגמה של מודלים מרובת-מודלים, אבל חשוב להבין את המגבלות של המודלים:
- זיהוי צלילים שאינם דיבור: בדגמים שתומכים באודיו יכולות להיות שגיאות בזיהוי צלילים שאינם דיבור.
- חותמות זמן של אודיו בלבד: כדי ליצור חותמות זמן מדויקות של קבצים עם אודיו בלבד, צריך להגדיר את הפרמטר
audio_timestamp
ב-generation_config
.
מסמכים (כמו קובצי PDF): דרישות, שיטות מומלצות ומגבלות
מסמכים: דרישות
בקטע הזה מוסבר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה של מסמכים (כמו קובצי PDF).
סוגי MIME נתמכים
Gemini מודלים מולטימודיאליים תומכים בסוגי ה-MIME הבאים של מסמכים:
סוג ה-MIME של המסמך | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PDF – application/pdf |
||
טקסט – text/plain |
מגבלות לכל בקשה
קובצי PDF נחשבים כתמונות, כך שדף אחד בקובץ PDF נחשב כתמונה אחת. מספר הדפים שמותר להוסיף להנחיה מוגבל למספר התמונות שהמודל יכול לתמוך בהן:
- Gemini 2.0 Flash וגם Gemini 2.0 Flash‑Lite:
- מספר הקבצים המקסימלי לבקשה: 3,000
- מספר הדפים המקסימלי בכל קובץ: 1,000
- הגודל המקסימלי של כל קובץ: 50MB
מסמכים: יצירת טוקנים
טוקניזציה של קובצי PDF
קובצי PDF נחשבים כתמונות, ולכן כל דף בקובץ PDF מומר לאסימונים באותו אופן שבו תמונה מומרת לאסימונים.
בנוסף, העלות של קובצי PDF מבוססת על המחירון של תמונות Gemini. לדוגמה, אם תכללו קובץ PDF בן שתי דפים בקריאה ל-API Gemini, תצטרכו לשלם על עיבוד שתי תמונות.
מסמכים: שיטות מומלצות
כדי לקבל את התוצאות הטובות ביותר, מומלץ להשתמש בשיטות המומלצות ובמידע הבאים כשעובדים עם קובצי PDF:
- אם ההנחיה מכילה קובץ PDF אחד, צריך להציב את קובץ ה-PDF לפני ההנחיה הטקסטואלית בבקשה.
- אם יש לכם מסמך ארוך, מומלץ לפצל אותו לכמה קובצי PDF כדי לעבד אותו.
- כדאי להשתמש בקובצי PDF שנוצרו עם טקסט שעבר רינדור כטקסט, במקום להשתמש בטקסט בתמונות סרוקות. הפורמט הזה מבטיח שהטקסט קריא למכונה, כך שקל יותר לערוך, לחפש ולבצע בו שינויים במודל בהשוואה לקובצי PDF של תמונות סרוקות. השיטה הזו מניבה תוצאות אופטימליות כשעובדים עם מסמכים שמכילים הרבה טקסט, כמו חוזים.
מסמכים: מגבלות
מודלים Gemini מרובת-מודלים הם יעילים בהרבה תרחישים לדוגמה של מודלים מרובת-מודלים, אבל חשוב להבין את המגבלות של המודלים:
- חשיבה מרחבית: המודלים לא מדויקים במיקום של טקסט או אובייקטים בקובצי PDF. יכול להיות שהן יחזירו רק את המספרים המשוערים של הפריטים.
- דיוק: יכול להיות שהמודלים ייצרו הזיות כשהם ינסו לפרש טקסט בכתב יד במסמכי PDF.