Firebase AI Logic SDK'sını kullanarak uygulamanızdan Gemini API'ü çağırırken Gemini modelinden resim, video, ses ve doküman (ör. PDF) gibi çok formatlı bir girişe göre metin oluşturmasını isteyebilirsiniz.
Desteklenen dosya türlerini kullanmanız, desteklenen bir MIME türü belirtmeniz ve dosyalarınızın ve çok modlu isteklerinizin koşulları karşıladığından ve en iyi uygulamalara uyduğundan emin olmanız gerekir.
Bu sayfa, GenerativeModel
kullanımıyla ilgilidir ve aşağıdakileri açıklar:
Aşağıdaki dosya girişleri için desteklenen MIME türleri, en iyi uygulamalar ve sınırlamalar hakkında ayrıntılı bilgi:
Resimler | Video | Ses | Belgeler (PDF'ler gibi).
Çok formatlı isteklerde dosya sağlama seçenekleri
Bu sayfada sağlayıcıya özel içerikleri görüntülemek için Gemini API sağlayıcınızı seçin |
Her çok modlu istekte her zaman aşağıdakileri sağlamanız gerekir:
Dosyanın adı
mimeType
. Her giriş dosyasının desteklenen MIME türlerini bu sayfanın ilgili bölümünde bulabilirsiniz.Dosya. Dosyayı satır içi veri olarak sağlayabilir veya dosyayı URL'sini kullanarak sağlayabilirsiniz.
İstekte sağlayabileceğiniz dosyaların boyutu ve sayısı, giriş dosyası türüne, dosyayı nasıl sağladığınıza ve kullanılan modele bağlıdır (ayrıntılar için bu sayfadaki her giriş dosyası türünün bölümüne bakın).
1. seçenek: Dosyayı satır içi veri olarak sağlayın
Satır içi veri olarak sağlanan dosyalarla ilgili aşağıdakilere dikkat edin:
Toplam istek boyutu sınırı 20 MB olduğundan yalnızca küçük dosyalar satır içi veri olarak gönderilebilir.
Dosya, aktarma sırasında base64 olarak kodlanır (bu da dosya boyutunu artırır).
Bir dosyanın satır içi veri olarak nasıl ekleneceğini gösteren bir örnek için Metin ve dosya (çok biçimli) girişinden metin oluşturma başlıklı makaleyi inceleyin. Android ve Apple platformlarına yönelik SDK'ların, MIME türünü belirtmek zorunda kalmadan isteklerdeki satır içi resimleri işleyebileceğini unutmayın. Daha fazla bilgi edinin.
2. seçenek: Dosyayı URL kullanarak sağlama
Gemini Developer API kullanırken kabul edilen URL türleri şunlardır:
YouTube videosu URL'si: YouTube videosu herkese açık veya liste dışı olmalıdır.
İstekte her seferinde bir YouTube videosu URL'si belirtebilirsiniz.
Resimler: Şartlar, en iyi uygulamalar ve sınırlamalar
Resimler: Şartlar
Bu bölümde, resimler için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.
Desteklenen MIME türleri
Gemini Çok formatlı modeller aşağıdaki resim MIME türlerini destekler:
Resim MIME türü | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG - image/png |
||
JPEG - image/jpeg |
||
WebP - image/webp |
İstek başına sınırlar
Bir resimdeki piksel sayısı için belirli bir sınır yoktur. Ancak daha büyük resimler, orijinal en boy oranları korunarak 3072 x 3072'lik maksimum çözünürlüğe sığacak şekilde küçültülür ve doldurulur.
İstem isteğinde izin verilen maksimum resim dosyası sayısı:
- Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite: 3.000 resim
Resimler: Belirtme
Resimler için jetonlar şu şekilde hesaplanır:
- Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite:
- Bir resmin her iki boyutu da 384 pikselden küçük veya eşitse 258 jeton kullanılır.
- Bir resmin boyutlarından biri 384 pikselden büyükse resim, karolara bölünerek kırpılır. Her karo boyutu varsayılan olarak en küçük boyutun (genişlik veya yükseklik) 1,5'e bölünmesiyle elde edilir. Gerekirse her karo 256 pikselden küçük ve 768 pikselden büyük olmayacak şekilde ayarlanır. Ardından her karo 768x768 olarak yeniden boyutlandırılır ve 258 jeton kullanılır.
Resimler: En iyi uygulamalar
En iyi sonuçlar için resimleri kullanırken aşağıdaki en iyi uygulamaları ve bilgileri göz önünde bulundurun:
- Bir resimdeki metni algılamak istiyorsanız birden fazla resim içeren istemlere kıyasla daha iyi sonuçlar elde etmek için tek resim içeren istemler kullanın.
- İsteminiz tek bir resim içeriyorsa resmi isteğinizde metin isteminden önce yerleştirin.
- İsteminiz birden fazla resim içeriyorsa ve bu resimlere isteminizde daha sonra referans vermek istiyorsanız veya modelin model yanıtında bu resimlere referans vermesini istiyorsanız her resme resimden önce bir dizin eklemeniz faydalı olabilir. Dizininiz için
veyaa
b
c
kullanın. Aşağıda, dizine eklenen resimlerin istemde kullanılmasına dair bir örnek verilmiştir:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Daha yüksek çözünürlüklü resimler kullanın. Bu resimler daha iyi sonuçlar verir.
- İsteminize birkaç örnek ekleyin.
- Resimleri istem kutusuna eklemeden önce doğru yönde döndürün.
- Bulanık resimler kullanmayın.
Resimler: Sınırlamalar
Gemini çoklu modeller birçok çoklu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- İçerik moderasyon: Modeller, güvenlik politikalarımızı ihlal eden resimlerle ilgili yanıt vermeyi reddeder.
- Uzamsal akıl yürütme: Modeller, resimlerdeki metinleri veya nesneleri bulma konusunda hassas değildir. Yalnızca öğelerin yaklaşık sayılarını döndürebilirler.
- Tıbbi kullanımlar: Modeller, tıbbi görüntüleri (ör. röntgen ve CT taramaları) yorumlamak veya tıbbi tavsiye vermek için uygun değildir.
- Kişi tanıma: Modellerin, resimlerde ünlü olmayan kişileri tanımlamak için kullanılması amaçlanmamıştır.
- Doğruluk: Modeller, düşük kaliteli, döndürülmüş veya son derece düşük çözünürlüklü resimleri yorumlarken halüsinasyon görebilir veya hata yapabilir. Modeller, resim dokümanlarındaki el yazısı metinleri yorumlarken de halüsinasyon görebilir.
Video: Şartlar, en iyi uygulamalar ve sınırlamalar
Video: Şartlar
Bu bölümde, video isteklerinde desteklenen MIME türleri ve sınırlar hakkında bilgi edinebilirsiniz.
Desteklenen MIME türleri
Gemini Çok formatlı modeller aşağıdaki video MIME türlerini destekler:
Video MIME türü | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV - video/x-flv |
||
MOV - video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS - video/mpegps |
||
MPG - video/mpg |
||
MP4 - video/mp4 |
||
WEBM - video/webm |
||
WMV - video/wmv |
||
3GPP - video/3gpp |
İstek başına sınırlar
İstem isteğinde izin verilen maksimum video dosyası sayısı:
- Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite: 10 video dosyası
Video: Belirtme
Video için jetonlar şu şekilde hesaplanır:
- Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite: Ses parçası, video kareleriyle kodlanır. Ses parçası da her biri 32 jetondan oluşan
1 saniyelik temel parçalara ayrılır. Video karesi ve ses jetonları, zaman damgalarıyla birlikte iç içe yerleştirilir. Zaman damgaları 7 jeton olarak temsil edilir. - Tüm çoklu formatlı Gemini modelleri: Videolar
saniyede 1 kare (fps) hızında örneklenir. Her video karesi 258 jeton olarak kabul edilir.
Video: En iyi uygulamalar
Video kullanırken en iyi sonuçlar için aşağıdaki en iyi uygulamaları ve bilgileri kullanın:
- İsteminiz tek bir video içeriyorsa videoyu metin isteminden önce yerleştirin.
- Sesli bir videoda zaman damgası yerelleştirmesi gerekiyorsa modelden, ilk iki basamağın dakikaları, son iki basamağın ise saniyeleri temsil ettiği
MM:SS
biçiminde zaman damgaları oluşturmasını isteyin. Zaman damgasıyla ilgili sorular için de aynı biçimi kullanın.
Video: Sınırlamalar
Gemini çoklu modeller birçok çoklu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- İçerik moderasyon: Modeller, güvenlik politikalarımızı ihlal eden videolarda yanıt vermeyi reddediyor.
- Konuşma dışı ses algılama: Sesleri destekleyen modeller, konuşma dışı sesleri algılarken hata yapabilir.
- Yüksek hızlı hareket: Sabit
saniyede 1 kare (fps) örnekleme hızı nedeniyle modeller, videodaki yüksek hızlı hareketi anlamaya çalışırken hata yapabilir.
Ses: Şartlar ve sınırlamalar
Ses: Şartlar
Bu bölümde, ses için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.
Desteklenen MIME türleri
Gemini Çok formatlı modeller aşağıdaki ses MIME türlerini destekler:
Ses MIME türü | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
İstek başına sınırlar
İstem isteğine en fazla
Ses: Sınırlamalar
Gemini çok kipli modeller birçok çok kipli kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- Konuşma dışı ses algılama: Sesleri destekleyen modeller, konuşma dışı sesleri algılarken hata yapabilir.
- Yalnızca ses için zaman damgaları: Yalnızca ses dosyaları için doğru zaman damgaları oluşturmak amacıyla
generation_config
içindeaudio_timestamp
parametresini yapılandırmanız gerekir.
Dokümanlar (ör. PDF'ler): Şartlar, en iyi uygulamalar ve sınırlamalar
Belgeler: Şartlar
Bu bölümde, dokümanlar (ör. PDF'ler) için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.
Desteklenen MIME türleri
Gemini Çok modlu modeller aşağıdaki doküman MIME türlerini destekler:
Belge MIME türü | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PDF - application/pdf |
||
Metin: text/plain |
İstek başına sınırlar
PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'nin tek bir sayfası tek bir resim olarak değerlendirilir. Bir istemde izin verilen sayfa sayısı, modelin destekleyebileceği resim sayısıyla sınırlıdır:
- Gemini 2.0 Flash ve Gemini 2.0 Flash‑Lite:
- İstek başına maksimum dosya sayısı: 3.000
- Dosya başına maksimum sayfa sayısı: 1.000
- Dosya başına maksimum boyut: 50 MB
Belgeler: Belirtme
PDF jeton oluşturma
PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'nin her sayfası resimle aynı şekilde jetonlara ayrılır.
Ayrıca PDF'lerin maliyeti Gemini resim fiyatlandırmasına tabidir. Örneğin, bir Gemini API çağrısına iki sayfalık bir PDF eklerseniz iki resmin işlenmesi için giriş ücreti ödersiniz.
Dokümanlar: En iyi uygulamalar
PDF'leri kullanırken en iyi sonuçlar için aşağıdaki en iyi uygulamaları ve bilgileri kullanın:
- İsteminiz tek bir PDF içeriyorsa PDF'yi isteğinizde metin isteminden önce yerleştirin.
- Uzun bir dokümanınız varsa işleme almak için dokümanı birden fazla PDF'ye bölebilirsiniz.
- Taranmış resimlerdeki metin yerine, metin olarak oluşturulan PDF'leri kullanın. Bu biçim, metnin makine tarafından okunabilir olmasını sağlar. Böylece, modelin tarayıcıdan alınan resim PDF'lerine kıyasla metni düzenlemesi, araması ve değiştirmesi daha kolay olur. Bu uygulama, sözleşmeler gibi metin ağırlıklı dokümanlarla çalışırken en iyi sonuçları sağlar.
Belgeler: Sınırlamalar
Gemini çok kipli modeller birçok çok kipli kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:
- Uzamsal akıl yürütme: Modeller, PDF'lerdeki metinleri veya nesneleri bulma konusunda hassas değildir. Yalnızca öğelerin yaklaşık sayılarını döndürebilirler.
- Doğruluk: PDF dosyalarındaki el yazısı metinleri yorumlarken modeller halüsinasyon görebilir.