Firebase AI Logic SDK टूल का इस्तेमाल करके, अपने ऐप्लिकेशन से Gemini API को कॉल करते समय, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है. यह टेक्स्ट, इमेज, वीडियो, ऑडियो, और दस्तावेज़ों (जैसे, PDF) जैसे कई तरह के इनपुट के आधार पर जनरेट किया जा सकता है.
आपको ऐसे फ़ाइल टाइप का इस्तेमाल करना होगा जो काम करते हों. साथ ही, ऐसे MIME टाइप की जानकारी देनी होगी जो काम करते हों. यह भी पक्का करें कि आपकी फ़ाइलें और मल्टीमोडल अनुरोध, ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.
यह पेज, GenerativeModel
का इस्तेमाल करने के बारे में खास जानकारी देता है. इसमें इनके बारे में बताया गया है:
इन फ़ाइल इनपुट के लिए, इस्तेमाल किए जा सकने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में जानकारी:
इमेज | वीडियो | ऑडियो | दस्तावेज़ (जैसे, PDF).
अलग-अलग तरीकों से किए गए अनुरोधों में फ़ाइलें उपलब्ध कराने के विकल्प
इस पेज पर, Gemini API की सेवा देने वाली कंपनी से जुड़ा कॉन्टेंट देखने के लिए, उस कंपनी को चुनें |
हर मल्टीमोडल अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:
फ़ाइल का
mimeType
. इस पेज के लागू होने वाले सेक्शन में जाकर, हर इनपुट फ़ाइल के काम करने वाले MIME टाइप देखें.फ़ाइल. फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराया जा सकता है या फ़ाइल को उसके यूआरएल का इस्तेमाल करके उपलब्ध कराया जा सकता है.
अनुरोध में फ़ाइलों का साइज़ और संख्या, इनपुट फ़ाइल टाइप, फ़ाइल को उपलब्ध कराने का तरीका, और इस्तेमाल किए गए मॉडल पर निर्भर करती है. ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें.
पहला विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराना
इनलाइन डेटा के तौर पर दी गई फ़ाइलों के बारे में इन बातों का ध्यान रखें:
सिर्फ़ छोटी फ़ाइलों को इनलाइन डेटा के तौर पर भेजा जा सकता है, क्योंकि अनुरोध का कुल साइज़ 20 एमबी से ज़्यादा नहीं होना चाहिए.
फ़ाइल को ट्रांज़िट के दौरान base64 कोड में बदल दिया जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.
किसी फ़ाइल को इनलाइन डेटा के तौर पर शामिल करने का उदाहरण देखने के लिए, टेक्स्ट और फ़ाइल (मल्टीमोडल) इनपुट से टेक्स्ट जनरेट करना लेख पढ़ें. ध्यान दें कि Android और Apple प्लैटफ़ॉर्म के लिए SDK टूल, अनुरोधों में इनलाइन इमेज को मैनेज कर सकते हैं. इसके लिए, MIME टाइप की जानकारी देने की ज़रूरत नहीं होती. ज़्यादा जानें.
दूसरा विकल्प: यूआरएल का इस्तेमाल करके फ़ाइल उपलब्ध कराना
Gemini Developer API का इस्तेमाल करते समय, ये यूआरएल स्वीकार किए जाते हैं:
YouTube वीडियो का यूआरएल: YouTube वीडियो सार्वजनिक या सबके लिए मौजूद नहीं होना चाहिए.
हर अनुरोध के लिए, YouTube वीडियो का एक यूआरएल दिया जा सकता है.
इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
इमेज: ज़रूरी शर्तें
इस सेक्शन में, इमेज के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini मल्टीमोडल मॉडल, इमेज के इन एमआईएमई टाइप के साथ काम करते हैं:
इमेज का MIME टाइप | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG - image/png |
||
JPEG - image/jpeg |
||
WebP - image/webp |
हर अनुरोध के लिए सीमाएं
किसी इमेज में पिक्सल की संख्या तय नहीं होती. हालांकि, बड़ी इमेज को छोटा करके और पैड करके, 3072 x 3072 पिक्सल के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट किया जाता है. ऐसा करते समय, इमेज के मूल आसपेक्ट रेशियो को बनाए रखा जाता है.
प्रॉम्प्ट अनुरोध में, ज़्यादा से ज़्यादा इतनी इमेज फ़ाइलें जोड़ी जा सकती हैं:
- Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite: 3,000 इमेज
इमेज: टोकनाइज़ेशन
इमेज के लिए टोकन की गिनती करने का तरीका यहां बताया गया है:
- Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite:
- अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तो 258 टोकन का इस्तेमाल किया जाता है.
- अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया जाता है. हर टाइल का साइज़, डिफ़ॉल्ट रूप से सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलता है. ज़रूरत पड़ने पर, हर टाइल को अडजस्ट किया जाता है, ताकि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ 768x768 कर दिया जाता है और इसमें 258 टोकन का इस्तेमाल किया जाता है.
इमेज: सबसे सही तरीके
इमेज का इस्तेमाल करते समय, सबसे सही तरीकों और जानकारी का इस्तेमाल करें, ताकि आपको सबसे बेहतर नतीजे मिल सकें:
- अगर आपको किसी इमेज में टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, कई इमेज वाले प्रॉम्प्ट के मुकाबले बेहतर नतीजे मिलेंगे.
- अगर आपके प्रॉम्प्ट में एक इमेज है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले इमेज डालें.
- अगर आपके प्रॉम्प्ट में कई इमेज हैं और आपको इन्हें अपने प्रॉम्प्ट में बाद में रेफ़र करना है या मॉडल को इन्हें अपने जवाब में रेफ़र करना है, तो हर इमेज के पहले इंडेक्स जोड़ें. अपने इंडेक्स के लिए,
याa
b
c
का इस्तेमाल करें. यहां, प्रॉम्प्ट में इंडेक्स की गई इमेज इस्तेमाल करने का उदाहरण दिया गया है:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - हाई रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें. इससे बेहतर नतीजे मिलते हैं.
- प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
- प्रॉम्प्ट में इमेज जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
- धुंधली इमेज अपलोड न करें.
इमेज: सीमाएं
Gemini मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाली इमेज के लिए जवाब देने से मना करते हैं.
- स्पेशल रीज़निंग: ये मॉडल, इमेज में टेक्स्ट या ऑब्जेक्ट की सटीक जगह का पता नहीं लगा पाते. हो सकता है कि ये सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
- मेडिकल इस्तेमाल: ये मॉडल, मेडिकल इमेज (उदाहरण के लिए, एक्स-रे और सीटी स्कैन) का विश्लेषण करने या मेडिकल सलाह देने के लिए सही नहीं हैं.
- लोगों की पहचान करना: मॉडल का इस्तेमाल, इमेज में मौजूद उन लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर नहीं हैं.
- सटीक जानकारी: खराब क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज का विश्लेषण करते समय, मॉडल गलत जानकारी दे सकते हैं या गड़बड़ियां कर सकते हैं. इमेज दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट का अनुवाद करते समय भी मॉडल गलत नतीजे दे सकते हैं.
वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
वीडियो: ज़रूरी शर्तें
इस सेक्शन में, वीडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini मल्टीमोडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:
वीडियो का एमआईएमई टाइप | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV - video/x-flv |
||
MOV - video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS - video/mpegps |
||
मील प्रति गैलन (एमपीजी) - video/mpg |
||
MP4 - video/mp4 |
||
WEBM - video/webm |
||
WMV - video/wmv |
||
3GPP - video/3gpp |
हर अनुरोध के लिए सीमाएं
एक बार में ज़्यादा से ज़्यादा इतनी वीडियो फ़ाइलें अपलोड की जा सकती हैं:
- Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite: 10 वीडियो फ़ाइलें
वीडियो: टोकनाइज़ेशन
वीडियो के लिए टोकन की गिनती करने का तरीका यहां बताया गया है:
- Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite: ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया गया है. ऑडियो ट्रैक को भी
एक सेकंड के ट्रंक में बांटा जाता है. हर ट्रंक में 32 टोकन होते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को सात टोकन के तौर पर दिखाया जाता है. - Gemini के सभी मल्टीमोडल मॉडल: वीडियो को
एक फ़्रेम प्रति सेकंड (एफ़पीएस) पर सैंपल किया जाता है. हर वीडियो फ़्रेम में 258 टोकन होते हैं.
वीडियो: सबसे सही तरीके
वीडियो का इस्तेमाल करते समय, सबसे सही तरीकों और जानकारी का इस्तेमाल करके सबसे बेहतर नतीजे पाएं:
- अगर आपके प्रॉम्प्ट में एक वीडियो है, तो वीडियो को टेक्स्ट प्रॉम्प्ट से पहले रखें.
- अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप का स्थानीय भाषा में अनुवाद चाहिए, तो मॉडल से
MM:SS
फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए कहें. इस फ़ॉर्मैट में, पहले दो अंक मिनट और आखिरी दो अंक सेकंड दिखाते हैं. टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए, इसी फ़ॉर्मैट का इस्तेमाल करें.
वीडियो: सीमाएं
Gemini मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाले वीडियो के बारे में जवाब देने से मना करते हैं.
- बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गलतियां कर सकते हैं.
- तेज़ रफ़्तार से चलने वाली चीज़ें:
एक फ़्रेम प्रति सेकंड (एफ़पीएस) के सैंपलिंग रेट की वजह से, मॉडल वीडियो में तेज़ रफ़्तार से चलने वाली चीज़ों को समझने में गड़बड़ियां कर सकते हैं.
ऑडियो: ज़रूरी शर्तें और सीमाएं
ऑडियो: ज़रूरी शर्तें
इस सेक्शन में, ऑडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini मल्टीमोडल मॉडल, ऑडियो के लिए इन MIME टाइप के साथ काम करते हैं:
ऑडियो का एमआईएमई टाइप | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
एमपीए - audio/m4a |
||
MPEG - audio/mpeg |
||
एमपीजीए - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
पीसीएम - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
हर अनुरोध के लिए सीमाएं
प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा
ऑडियो: सीमाएं
Gemini मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गलतियां कर सकते हैं.
- सिर्फ़ ऑडियो वाले टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको
generation_config
मेंaudio_timestamp
पैरामीटर कॉन्फ़िगर करना होगा.
दस्तावेज़ (जैसे, PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
दस्तावेज़: ज़रूरी शर्तें
इस सेक्शन में, दस्तावेज़ों (जैसे, PDF) के लिए काम करने वाले MIME टाइप और हर अनुरोध की सीमाओं के बारे में जानें.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini मल्टीमोडल मॉडल, दस्तावेज़ के इन MIME टाइप के साथ काम करते हैं:
दस्तावेज़ का एमआईएमई टाइप | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PDF - application/pdf |
||
टेक्स्ट - text/plain |
हर अनुरोध के लिए सीमाएं
PDF फ़ाइलों को इमेज के तौर पर माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. प्रॉम्प्ट में पेजों की संख्या, उन इमेज की संख्या तक सीमित होती है जिनका इस्तेमाल मॉडल कर सकता है:
- Gemini 2.0 Flash और Gemini 2.0 Flash‑Lite:
- हर अनुरोध में ज़्यादा से ज़्यादा 3,000 फ़ाइलें हो सकती हैं
- हर फ़ाइल में ज़्यादा से ज़्यादा पेज: 1,000
- हर फ़ाइल का साइज़ ज़्यादा से ज़्यादा इतना होना चाहिए: 50 एमबी
दस्तावेज़: टोकनाइज़ेशन
पीडीएफ़ को टोकन में बदलना
PDF को इमेज के तौर पर माना जाता है. इसलिए, PDF के हर पेज को उसी तरह टोकन किया जाता है जिस तरह किसी इमेज को किया जाता है.
साथ ही, PDF की कीमत, Gemini इमेज की कीमत के हिसाब से तय की जाती है. उदाहरण के लिए, अगर आपने Gemini एपीआई कॉल में दो पेज का PDF शामिल किया है, तो आपको दो इमेज प्रोसेस करने के लिए इनपुट शुल्क देना होगा.
दस्तावेज़: सबसे सही तरीके
PDF का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:
- अगर आपके प्रॉम्प्ट में एक PDF है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले PDF को रखें.
- अगर आपके पास लंबा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, कई PDF में बांटें.
- स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, टेक्स्ट के तौर पर रेंडर किए गए टेक्स्ट से बनाए गए PDF का इस्तेमाल करें. इस फ़ॉर्मैट से यह पक्का होता है कि टेक्स्ट को मशीन पढ़ सके. इससे मॉडल के लिए, स्कैन की गई इमेज के PDF फ़ाइलों की तुलना में, टेक्स्ट में बदलाव करना, उसे खोजना, और उसमें बदलाव करना आसान हो जाता है. कॉन्ट्रैक्ट जैसे ज़्यादा टेक्स्ट वाले दस्तावेज़ों पर काम करते समय, यह तरीका सबसे बेहतर नतीजे देता है.
दस्तावेज़: सीमाएं
Gemini मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- स्पेशल रीज़निंग: ये मॉडल, पीडीएफ़ में मौजूद टेक्स्ट या ऑब्जेक्ट की सटीक जगह का पता नहीं लगा पाते. हो सकता है कि ये सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
- सटीक जानकारी: PDF दस्तावेज़ों में मौजूद, हाथ से लिखे गए टेक्स्ट को समझते समय, मॉडल गलत जानकारी दे सकते हैं.