דף זה תורגם על ידי Cloud Translation API.

ניתוח קובצי וידאו באמצעות Gemini API

אתם יכולים לבקש ממודל Gemini לנתח קובצי וידאו שאתם מספקים לו, או מוטבעים (בקידוד base64) או באמצעות כתובת URL. כשמשתמשים ב-Firebase AI Logic, אפשר לשלוח את הבקשה הזו ישירות מהאפליקציה.

בעזרת היכולת הזו, אתם יכולים:

יצירת כתוביות וענייה על שאלות לגבי סרטונים
ניתוח פלחים ספציפיים בסרטון באמצעות חותמות זמן
תמלול תוכן של סרטונים על ידי עיבוד של טראק האודיו ושל הפריימים החזותיים
תיאור, פילוח וחילוץ מידע מסרטונים, כולל פסקול ופריים ויזואליים

מעבר לדוגמאות קוד מעבר לקוד של תגובות בסטרימינג

מדריכים נוספים עם אפשרויות נוספות לעבודה עם סרטונים
יצירת פלט מובנה שיחה מרובת תפניות

לפני שמתחילים

לוחצים על הספק Gemini API כדי לראות בדף הזה תוכן וקוד שספציפיים לספק.

אם עדיין לא עשיתם את זה, כדאי לעיין במדריך לתחילת העבודה. במדריך הזה מוסבר איך להגדיר את פרויקט Firebase, לקשר את האפליקציה ל-Firebase, להוסיף את ה-SDK, לאתחל את שירות ה-Backend עבור ספק Gemini API שבחרתם וליצור מופע GenerativeModel.

כדי לבדוק את ההנחיות ולשפר אותן, ואפילו כדי לקבל קטע קוד שנוצר, מומלץ להשתמש ב-Google AI Studio.

צריך קובץ וידאו לדוגמה?

אפשר להשתמש בקובץ הזה שזמין לציבור עם סוג MIME של video/mp4 (צפייה בקובץ או הורדה שלו). https://storage.googleapis.com/cloud-samples-data/video/animals.mp4

יצירת טקסט מקובצי וידאו (בקידוד Base64)

לפני שמנסים את הדוגמה הזו, צריך להשלים את השלבים שבקטע לפני שמתחילים במדריך הזה כדי להגדיר את הפרויקט והאפליקציה.
בקטע הזה צריך גם ללחוץ על לחצן של ספק Gemini API שבחרתם כדי שיוצג בדף הזה תוכן שספציפי לספק.

אתם יכולים לבקש ממודל Gemini ליצור טקסט באמצעות הנחיה עם טקסט וסרטון – אתם מספקים את mimeType של כל קובץ קלט ואת הקובץ עצמו. בהמשך הדף מפורטות דרישות והמלצות לגבי קובצי קלט.

שימו לב שבקוד לדוגמה הזה הקובץ מסופק בשורה, אבל ערכות ה-SDK תומכות גם באספקת כתובת URL ב-YouTube.