Vertex AI में Gemini API के लिए काम करने वाली इनपुट फ़ाइलें और ज़रूरी शर्तें

Vertex AI in Firebase SDK टूल का इस्तेमाल करके, अपने ऐप्लिकेशन से Gemini API in Vertex AI को कॉल करते समय, Gemini मॉडल को कई तरह के इनपुट के आधार पर टेक्स्ट जनरेट करने के लिए कहा जा सकता है. मल्टीमोडल प्रॉम्प्ट में कई मोड (या इनपुट के टाइप) शामिल हो सकते हैं. जैसे, इमेज, PDF, वीडियो, और ऑडियो के साथ टेक्स्ट.

इनपुट के ऐसे हिस्सों के लिए (जैसे, मीडिया फ़ाइलें) जिनमें टेक्स्ट नहीं है, आपको काम करने वाले फ़ाइल टाइप का इस्तेमाल करना होगा. साथ ही, काम करने वाले MIME टाइप के बारे में बताना होगा. यह भी पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमोडल अनुरोध, ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.

इस पेज पर इनके बारे में जानकारी दी गई है:

अलग-अलग तरीकों से किए जाने वाले अनुरोधों में फ़ाइलें उपलब्ध कराने के विकल्प

हर मल्टीमोडल अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:

अनुरोध में फ़ाइलों का साइज़ और संख्या, इनपुट फ़ाइल टाइप, फ़ाइल को उपलब्ध कराने का तरीका, और इस्तेमाल किए गए मॉडल पर निर्भर करती है. ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें.

पहला विकल्प: यूआरएल या यूआरआई का इस्तेमाल करके फ़ाइल उपलब्ध कराना

यहां स्वीकार किए जाने वाले यूआरएल या यूआरआई के टाइप दिए गए हैं:

  • Cloud Storage for Firebase बकेट का यूआरएल: फ़ाइल का यूआरएल सार्वजनिक होना चाहिए या साइन इन किए हुए उपयोगकर्ता या क्लाइंट के पास फ़ाइल का ज़रूरत के मुताबिक ऐक्सेस होना चाहिए. Cloud Storage for Firebase फ़ायदों, यूआरएल से जुड़ी ज़रूरी शर्तों, और कोड के सैंपल के बारे में ज़्यादा जानें.

  • Google Cloud Storage बकेट का यूआरएल: फ़ाइल का यूआरएल सार्वजनिक होना चाहिए. इसके अलावा, अगर बकेट उस प्रोजेक्ट से अलग है जिसका इस्तेमाल Vertex AI in Firebase के साथ किया जा रहा है, तो यूआरएल के लिए https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE फ़ॉर्मैट का इस्तेमाल करें.

  • ब्राउज़र/एचटीटीपी यूआरएल: फ़ाइल का यूआरएल ऐसा होना चाहिए जिसे कोई भी पढ़ सके. उदाहरण के लिए, मीडिया होस्ट करने वाली साइटों के यूआरएल, सीधे मीडिया दिखाने वाले यूआरएल (मीडिया को होस्ट करने वाला वेब पेज नहीं) या पब्लिश की गई Google Drive या Google Workspace फ़ाइल.

  • YouTube वीडियो का यूआरएल: YouTube वीडियो सार्वजनिक या सबके लिए मौजूद नहीं होना चाहिए.

Google Cloud दस्तावेज़ में, यूआरएल और यूआरआई से जुड़ी ज़रूरी शर्तों के बारे में ज़्यादा जानें.

दूसरा विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराना

इनलाइन डेटा के तौर पर दी गई फ़ाइलों के बारे में इन बातों का ध्यान रखें:

  • इनलाइन डेटा के तौर पर सिर्फ़ छोटी फ़ाइलें भेजी जा सकती हैं, क्योंकि अनुरोध का कुल साइज़ 20 एमबी से ज़्यादा नहीं होना चाहिए.

  • फ़ाइल को ट्रांज़िट के दौरान base64 कोड में बदल दिया जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.

फ़ाइलों को इनलाइन डेटा के तौर पर शामिल करने का तरीका जानने के लिए, Gemini API का इस्तेमाल करके, अलग-अलग तरह के प्रॉम्प्ट से टेक्स्ट जनरेट करना लेख पढ़ें.



इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, इमेज के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini मल्टीमोडल मॉडल, इमेज के इन एमआईएमई टाइप के साथ काम करते हैं:

इमेज का MIME टाइप Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

हर अनुरोध के लिए सीमाएं

किसी इमेज में पिक्सल की संख्या तय नहीं होती. हालांकि, बड़ी इमेज को छोटा करके और पैड करके, 3072 x 3072 पिक्सल के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट किया जाता है. ऐसा करते समय, इमेज के मूल आसपेक्ट रेशियो को बनाए रखा जाता है.

प्रॉम्प्ट अनुरोध में, ज़्यादा से ज़्यादा इतनी इमेज फ़ाइलें जोड़ी जा सकती हैं:

  • Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite: 3,000 इमेज

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन की गिनती इस तरह की जाती है:

  • Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite:
    • अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तो 258 टोकन का इस्तेमाल किया जाता है.
    • अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया जाता है. हर टाइल का साइज़ डिफ़ॉल्ट रूप से, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलता है. ज़रूरत पड़ने पर, हर टाइल को अडजस्ट किया जाता है, ताकि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ 768x768 कर दिया जाता है और इसमें 258 टोकन का इस्तेमाल किया जाता है.

इमेज: सबसे सही तरीके

इमेज का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपको किसी इमेज में टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, कई इमेज वाले प्रॉम्प्ट के मुकाबले बेहतर नतीजे मिलेंगे.
  • अगर आपके प्रॉम्प्ट में एक इमेज है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले इमेज डालें.
  • अगर आपके प्रॉम्प्ट में कई इमेज हैं और आपको इन्हें अपने प्रॉम्प्ट में बाद में रेफ़र करना है या मॉडल को इन्हें अपने जवाब में रेफ़र करना है, तो हर इमेज के पहले इंडेक्स जोड़ें. अपने इंडेक्स के लिए, a b c या image 1 image 2 image 3 का इस्तेमाल करें. यहां, प्रॉम्प्ट में इंडेक्स की गई इमेज इस्तेमाल करने का उदाहरण दिया गया है:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • हाई रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें. इससे बेहतर नतीजे मिलते हैं.
  • प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
  • प्रॉम्प्ट में इमेज जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
  • धुंधली इमेज अपलोड न करें.

इमेज: सीमाएं

Gemini मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाली इमेज के लिए जवाब देने से मना करते हैं.
  • स्पेशल रीज़निंग: मॉडल, इमेज में टेक्स्ट या ऑब्जेक्ट की जगह का सटीक पता नहीं लगा पाते. हो सकता है कि ये सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • मेडिकल इस्तेमाल: ये मॉडल, मेडिकल इमेज (उदाहरण के लिए, एक्स-रे और सीटी स्कैन) का विश्लेषण करने या मेडिकल सलाह देने के लिए सही नहीं हैं.
  • लोगों की पहचान करना: मॉडल का इस्तेमाल, इमेज में मौजूद उन लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर नहीं हैं.
  • सटीक जानकारी: खराब क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज का विश्लेषण करते समय, मॉडल गलत जानकारी दे सकते हैं या गड़बड़ियां कर सकते हैं. इमेज वाले दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट का अनुवाद करते समय भी मॉडल गलत नतीजे दे सकते हैं.



वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: ज़रूरी शर्तें

इस सेक्शन में, वीडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini मल्टीमोडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:

वीडियो का MIME टाइप Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
मील प्रति गैलन (एमपीजी) - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

हर अनुरोध के लिए सीमाएं

एक बार में ज़्यादा से ज़्यादा इतनी वीडियो फ़ाइलें अपलोड की जा सकती हैं:

  • Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite: 10 वीडियो फ़ाइलें

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन की गिनती करने का तरीका यहां बताया गया है:

  • Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite: ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया गया है. ऑडियो ट्रैक को भी एक सेकंड के ट्रंक में बांटा जाता है. हर ट्रंक में 32 टोकन होते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को सात टोकन के तौर पर दिखाया जाता है.
  • Gemini के सभी मल्टीमॉडल मॉडल: वीडियो को एक फ़्रेम प्रति सेकंड (fps) पर सैंपल किया जाता है. हर वीडियो फ़्रेम के लिए 258 टोकन इस्तेमाल होते हैं.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, सबसे सही तरीकों और जानकारी का इस्तेमाल करके सबसे बेहतर नतीजे पाएं:

  • अगर आपके प्रॉम्प्ट में एक वीडियो है, तो वीडियो को टेक्स्ट प्रॉम्प्ट से पहले रखें.
  • अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप का स्थानीय भाषा में अनुवाद चाहिए, तो मॉडल को MM:SS फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए कहें. इस फ़ॉर्मैट में, पहले दो अंक मिनट और आखिरी दो अंक सेकंड दिखाते हैं. टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए, इसी फ़ॉर्मैट का इस्तेमाल करें.

वीडियो: सीमाएं

Gemini मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाले वीडियो के बारे में जवाब देने से मना करते हैं.
  • बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गलतियां कर सकते हैं.
  • तेज़ रफ़्तार से होने वाली गति: एक फ़्रेम प्रति सेकंड (एफ़पीएस) के सैंपलिंग रेट की वजह से, मॉडल वीडियो में तेज़ रफ़्तार से होने वाली गति को समझने में गड़बड़ियां कर सकते हैं.



ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, ऑडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini मल्टीमोडल मॉडल, ऑडियो के लिए इन MIME टाइप के साथ काम करते हैं:

ऑडियो का MIME टाइप Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
एमपीए - audio/m4a
MPEG - audio/mpeg
एमपीजीए - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
पीसीएम - audio/pcm
WAV - audio/wav
WEBM - audio/webm

हर अनुरोध के लिए सीमाएं

प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा एक ऑडियो फ़ाइल शामिल की जा सकती है.

ऑडियो: सीमाएं

Gemini मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गलतियां कर सकते हैं.
  • सिर्फ़ ऑडियो वाले टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको generation_config में audio_timestamp पैरामीटर कॉन्फ़िगर करना होगा.



दस्तावेज़ (जैसे, PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, दस्तावेज़ों (जैसे, PDF) के लिए काम करने वाले MIME टाइप और हर अनुरोध के लिए सीमाओं के बारे में जानें.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini मल्टीमोडल मॉडल, दस्तावेज़ के इन MIME टाइप के साथ काम करते हैं:

दस्तावेज़ का MIME टाइप Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PDF - application/pdf
टेक्स्ट - text/plain

हर अनुरोध के लिए सीमाएं

PDF फ़ाइलों को इमेज के तौर पर माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. प्रॉम्प्ट में पेजों की संख्या, उन इमेज की संख्या तक सीमित होती है जिनका इस्तेमाल मॉडल कर सकता है:

  • Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite:
    • हर अनुरोध में ज़्यादा से ज़्यादा 3,000 फ़ाइलें हो सकती हैं
    • हर फ़ाइल में ज़्यादा से ज़्यादा पेज: 1,000
    • हर फ़ाइल का साइज़ ज़्यादा से ज़्यादा 50 एमबी होना चाहिए

दस्तावेज़: टोकनाइज़ेशन

पीडीएफ़ को टोकन में बदलना

PDF को इमेज के तौर पर माना जाता है. इसलिए, PDF के हर पेज को उसी तरह टोकन किया जाता है जिस तरह किसी इमेज को किया जाता है.

साथ ही, PDF की कीमत, Gemini इमेज की कीमत के हिसाब से तय की जाती है. उदाहरण के लिए, अगर आपने Gemini एपीआई कॉल में दो पेज का PDF शामिल किया है, तो आपको दो इमेज प्रोसेस करने के लिए इनपुट शुल्क देना होगा.

सामान्य टेक्स्ट को टोकन में बदलना

सादे टेक्स्ट वाले दस्तावेज़ों को टेक्स्ट के तौर पर टोकन किया जाता है. उदाहरण के लिए, अगर आपने Gemini एपीआई कॉल में 100 शब्दों का प्लैन टेक्स्ट वाला दस्तावेज़ शामिल किया है, तो आपको 100 शब्दों को प्रोसेस करने के लिए इनपुट शुल्क देना होगा.

दस्तावेज़: सबसे सही तरीके

PDF का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपके प्रॉम्प्ट में एक PDF है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले PDF को रखें.
  • अगर आपके पास लंबा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, कई PDF में बांटें.
  • स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, टेक्स्ट के तौर पर रेंडर किए गए टेक्स्ट से बनाए गए PDF का इस्तेमाल करें. इस फ़ॉर्मैट से यह पक्का होता है कि टेक्स्ट को मशीन पढ़ सके. इससे मॉडल के लिए, स्कैन की गई इमेज के PDF फ़ाइलों की तुलना में, टेक्स्ट में बदलाव करना, उसे खोजना, और उसमें बदलाव करना आसान हो जाता है. कॉन्ट्रैक्ट जैसे ज़्यादा टेक्स्ट वाले दस्तावेज़ों पर काम करते समय, यह तरीका सबसे बेहतर नतीजे देता है.

दस्तावेज़: सीमाएं

Gemini मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • स्पेशल रीज़निंग: ये मॉडल, पीडीएफ़ में मौजूद टेक्स्ट या ऑब्जेक्ट की सटीक जगह का पता नहीं लगा पाते. हो सकता है कि ये सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • सटीक जानकारी: PDF दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जानकारी दे सकते हैं.