Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Gemini 2.0 Flash and Flash-Lite models will be retired on March 31, 2026. To avoid service disruption, update to a newer model like gemini-2.5-flash-lite. Learn more.

इनपुट फ़ाइलों के लिए इस्तेमाल किए जा सकने वाले फ़ॉर्मैट और ज़रूरी शर्तें

Firebase AI Logic SDK का इस्तेमाल करके, अपने ऐप्लिकेशन से Gemini API को कॉल करते समय, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है. इसके लिए, टेक्स्ट, इमेज, वीडियो, ऑडियो, और दस्तावेज़ (जैसे, PDF) जैसे मल्टीमॉडल इनपुट का इस्तेमाल किया जा सकता है.

आपको ऐसे फ़ाइल टाइप इस्तेमाल करने होंगे जिन पर यह सुविधा काम करती है. साथ ही, आपको ऐसे MIME टाइप की जानकारी देनी होगी जिन पर यह सुविधा काम करती है. इसके अलावा, यह भी पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमॉडल अनुरोध, ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.

यह पेज, GenerativeModel का इस्तेमाल करने के बारे में है. इसमें इनके बारे में बताया गया है:

अनुरोध में फ़ाइलें सबमिट करने के विकल्प.
इन फ़ाइल इनपुट के लिए, काम करने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में जानकारी:
इमेज | वीडियो | ऑडियो | दस्तावेज़ (जैसे कि PDF).

मल्टीमॉडल अनुरोधों में फ़ाइलें उपलब्ध कराने के विकल्प

इस पेज पर, Gemini API की सुविधा देने वाली कंपनी के हिसाब से कॉन्टेंट देखने के लिए, कंपनी चुनें

मल्टीमॉडल वाले हर अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:

फ़ाइल का mimeType. इस पेज के लागू होने वाले सेक्शन में जाकर, हर इनपुट फ़ाइल के लिए काम करने वाले MIME टाइप देखें.
फ़ाइल. आपके पास फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराने या फ़ाइल को उसके यूआरएल का इस्तेमाल करके उपलब्ध कराने का विकल्प होता है.

अनुरोध में दी जा सकने वाली फ़ाइलों का साइज़ और संख्या, इन बातों पर निर्भर करती है: इनपुट फ़ाइल का टाइप, फ़ाइल देने का तरीका, और इस्तेमाल किया गया मॉडल. ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें.

पहला विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराएं

इनलाइन डेटा के तौर पर दी गई फ़ाइलों के बारे में यहां दी गई जानकारी ध्यान में रखें:

सिर्फ़ छोटी फ़ाइलों को इनलाइन डेटा के तौर पर भेजा जा सकता है, क्योंकि अनुरोध के कुल साइज़ की सीमा 20 एमबी है.
ट्रांज़िट के दौरान फ़ाइल को base64 में कोड में बदला जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.

किसी फ़ाइल को इनलाइन डेटा के तौर पर शामिल करने का तरीका दिखाने वाले उदाहरण के लिए, टेक्स्ट और फ़ाइल (मल्टीमॉडल) इनपुट से टेक्स्ट जनरेट करना लेख पढ़ें. ध्यान दें कि Android और Apple प्लैटफ़ॉर्म के लिए उपलब्ध SDK टूल, MIME टाइप तय किए बिना ही अनुरोधों में इनलाइन इमेज को हैंडल कर सकते हैं. ज़्यादा जानें.

दूसरा विकल्प: यूआरएल का इस्तेमाल करके फ़ाइल सबमिट करना

Gemini Developer API का इस्तेमाल करते समय, इन तरह के यूआरएल स्वीकार किए जाते हैं:

YouTube वीडियो का यूआरएल: YouTube वीडियो सार्वजनिक या सबके लिए मौजूद नहीं के तौर पर सेट होना चाहिए.

हर अनुरोध में, YouTube वीडियो का सिर्फ़ एक यूआरएल दिया जा सकता है.

इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, इमेज के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इमेज के इन एमआईएमई टाइप के साथ काम करते हैं:

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

हर अनुरोध के लिए सीमाएं

किसी इमेज में पिक्सल की संख्या तय नहीं होती. हालांकि, बड़ी इमेज को छोटा किया जाता है और उनके चारों ओर पैडिंग जोड़ी जाती है, ताकि वे 3072 x 3072 के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट हो सकें. ऐसा करते समय, उनके ओरिजनल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) को बनाए रखा जाता है.

हर अनुरोध में ज़्यादा से ज़्यादा फ़ाइलें: 3,000 इमेज फ़ाइलें

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन का हिसाब इस तरह लगाया जाता है:

अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या इससे कम हैं, तो 258 टोकन इस्तेमाल किए जाते हैं.
अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया जाता है. हर टाइल का डिफ़ॉल्ट साइज़, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलता है. ज़रूरत पड़ने पर, हर टाइल को इस तरह से अडजस्ट किया जाता है कि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 कर दिया जाता है और इसमें 258 टोकन का इस्तेमाल किया जाता है.

इमेज: सबसे सही तरीके

इमेज का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

अगर आपको किसी इमेज में मौजूद टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे आपको एक से ज़्यादा इमेज वाले प्रॉम्प्ट की तुलना में बेहतर नतीजे मिलेंगे.
अगर आपके प्रॉम्प्ट में सिर्फ़ एक इमेज है, तो अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले इमेज डालें.
अगर आपके प्रॉम्प्ट में कई इमेज शामिल हैं और आपको बाद में अपने प्रॉम्प्ट में उनका रेफ़रंस देना है या मॉडल को अपने जवाब में उनका रेफ़रंस देना है, तो हर इमेज से पहले उसका इंडेक्स देने से मदद मिल सकती है. अपने इंडेक्स के लिए, a b c या image 1 image 2 image 3 का इस्तेमाल करें. यहां प्रॉम्प्ट में इंडेक्स की गई इमेज का इस्तेमाल करने का एक उदाहरण दिया गया है:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
ज़्यादा रिज़ॉल्यूशन वाली इमेज इस्तेमाल करें. इनसे बेहतर नतीजे मिलते हैं.
प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
इमेज को प्रॉम्प्ट में जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
धुंधली इमेज का इस्तेमाल न करें.

इमेज: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाली इमेज के जवाब नहीं देते हैं.
स्पेशल रीज़निंग: मॉडल, इमेज में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते हैं. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
चिकित्सा के क्षेत्र में इस्तेमाल: ये मॉडल, मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) की व्याख्या करने या चिकित्सा से जुड़ी सलाह देने के लिए सही नहीं हैं.
लोगों की पहचान करना: इन मॉडल का इस्तेमाल, इमेज में मौजूद ऐसे लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर हस्तियां नहीं हैं.
सटीकता: कम क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज को समझने में, मॉडल को भ्रम हो सकता है या वे गलतियां कर सकते हैं. ऐसा हो सकता है कि मॉडल, इमेज और दस्तावेज़ों में मौजूद हाथ से लिखे गए टेक्स्ट को समझने में भी गड़बड़ी करें.

वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: ज़रूरी शर्तें

इस सेक्शन में, वीडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमा के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
एमपीजी - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

हर अनुरोध के लिए सीमाएं

हर अनुरोध में ज़्यादा से ज़्यादा 10 वीडियो फ़ाइलें अपलोड की जा सकती हैं

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन का हिसाब इस तरह लगाया जाता है:

ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया गया है. ऑडियो ट्रैक को भी एक सेकंड के ट्रंक में बांटा जाता है. हर ट्रंक में 32 टोकन होते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को पांच टोकन के तौर पर दिखाया जाता है.
जिन वीडियो को एक फ़्रेम प्रति सेकंड (एफ़पीएस) या उससे कम पर सैंपल किया जाता है उनके लिए, वीडियो के पहले घंटे के टाइमस्टैंप को वीडियो फ़्रेम के हिसाब से पांच टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए सात टोकन के तौर पर दिखाया जाता है.
जिन वीडियो को एक फ़्रेम प्रति सेकंड (एफ़पीएस) से ज़्यादा पर सैंपल किया जाता है उनके लिए, वीडियो के पहले घंटे के टाइमस्टैंप को हर वीडियो फ़्रेम के लिए नौ टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए 11 टोकन के तौर पर दिखाया जाता है.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

अगर आपके प्रॉम्प्ट में सिर्फ़ एक वीडियो है, तो वीडियो को टेक्स्ट प्रॉम्प्ट से पहले रखें.
अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप को स्थानीय भाषा में बदलना है, तो मॉडल से ऐसे टाइमस्टैंप जनरेट करने के लिए कहें जो "टाइमस्टैंप का फ़ॉर्मैट" में बताए गए फ़ॉर्मैट के मुताबिक हों.

वीडियो: सीमाएं

कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाले वीडियो के जवाब नहीं देते.
बोली के अलावा अन्य आवाज़ों की पहचान करना: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों की पहचान करने में गड़बड़ियां कर सकते हैं.

ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, ऑडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमा के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इन ऑडियो MIME टाइप के साथ काम करते हैं:

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
एमपीए - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
पीसीएम - audio/pcm
WAV - audio/wav
WEBM - audio/webm

हर अनुरोध के लिए सीमाएं

हर अनुरोध में ज़्यादा से ज़्यादा इतनी फ़ाइलें अपलोड की जा सकती हैं: 1 ऑडियो फ़ाइल

ऑडियो: सीमाएं

बोली के अलावा अन्य आवाज़ों की पहचान करना: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों की पहचान करने में गड़बड़ियां कर सकते हैं.
सिर्फ़ ऑडियो वाले वीडियो के लिए टाइमस्टैंप: सिर्फ़ ऑडियो वाले वीडियो के लिए सही टाइमस्टैंप जनरेट करने के लिए, आपको generation_config में audio_timestamp पैरामीटर कॉन्फ़िगर करना होगा.

दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, दस्तावेज़ों (जैसे कि PDF) के लिए, हर अनुरोध के हिसाब से इस्तेमाल किए जा सकने वाले MIME टाइप और उनकी सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इस तरह के दस्तावेज़ MIME टाइप के साथ काम करते हैं:

PDF - application/pdf
टेक्स्ट - text/plain

हर अनुरोध के लिए सीमाएं

PDF को इमेज माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. किसी प्रॉम्प्ट में पेजों की संख्या, Gemini मल्टीमॉडल मॉडल के साथ काम करने वाली इमेज की संख्या से ज़्यादा नहीं होनी चाहिए.

हर अनुरोध में ज़्यादा से ज़्यादा 3,000 फ़ाइलें
हर फ़ाइल में ज़्यादा से ज़्यादा पेज: हर फ़ाइल में 1,000 पेज
हर फ़ाइल का ज़्यादा से ज़्यादा साइज़: 50 एमबी

दस्तावेज़: टोकनाइज़ेशन

PDF टोकनाइज़ेशन

PDF को इमेज माना जाता है. इसलिए, PDF के हर पेज को इमेज की तरह ही टोकन में बदला जाता है.

साथ ही, पीडीएफ़ की कीमत Gemini इमेज की कीमत के हिसाब से तय होती है. उदाहरण के लिए, अगर आपने Gemini API कॉल में दो पेज वाला PDF शामिल किया है, तो आपको दो इमेज प्रोसेस करने के लिए इनपुट फ़ीस देनी होगी.

दस्तावेज़: सबसे सही तरीके

पीडीएफ़ का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीके अपनाएं और जानकारी का इस्तेमाल करें:

अगर आपके प्रॉम्प्ट में सिर्फ़ एक PDF है, तो अपने अनुरोध में टेक्स्ट वाले प्रॉम्प्ट से पहले PDF रखें.
अगर आपके पास कोई लंबा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, उसे कई PDF में बांटें.
स्कैन की गई इमेज में मौजूद टेक्स्ट का इस्तेमाल करने के बजाय, ऐसे PDF इस्तेमाल करें जिनमें टेक्स्ट को टेक्स्ट के तौर पर रेंडर किया गया हो. इस फ़ॉर्मैट में टेक्स्ट को मशीन आसानी से पढ़ सकती है. इससे मॉडल के लिए, स्कैन की गई इमेज वाले PDF की तुलना में टेक्स्ट को एडिट करना, खोजना, और उसमें बदलाव करना आसान हो जाता है. इस तरीके से, कॉन्ट्रैक्ट जैसे टेक्स्ट वाले दस्तावेज़ों के साथ काम करने पर सबसे अच्छे नतीजे मिलते हैं.

दस्तावेज़: सीमाएं

स्पेशल रीज़निंग: मॉडल, PDF में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते हैं. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
सटीकता: PDF दस्तावेज़ों में हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जवाब दे सकते हैं.