Gdy wywołujesz funkcję Gemini API z aplikacji za pomocą pakietu SDK Firebase AI Logic, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych, takich jak obrazy, filmy, dźwięk i dokumenty (np. pliki PDF).
Musisz używać obsługiwanych typów plików, określać obsługiwany typ MIME oraz dbać o to, aby pliki i żądania multimodalne spełniały wymagania i były zgodne z najlepszymi praktykami.
Ta strona dotyczy korzystania z GenerativeModel
i zawiera informacje na te tematy:
Szczegółowe informacje o obsługiwanych typach MIME, sprawdzonych metodach i ograniczeniach dotyczących tych typów plików:
Obrazy | Wideo | Audio | Dokumenty (np. PDF).
Opcje przesyłania plików w przypadku żądań multimodalnych
Wybierz dostawcę interfejsu Gemini API, aby wyświetlić na tej stronie treści dotyczące tego dostawcy |
W każdym żądaniu multimodalnym musisz zawsze podać te informacje:
Plik ma
mimeType
. Obsługiwane typy MIME każdego pliku wejściowego znajdziesz w odpowiedniej sekcji na tej stronie.plik, Możesz podać plik jako dane wbudowane lub podać go za pomocą adresu URL.
Rozmiar i liczba plików, które możesz podać w żądaniu, zależą od typu pliku wejściowego, sposobu jego dostarczenia i użytego modelu (szczegółowe informacje znajdziesz w sekcji dotyczącej każdego typu pliku wejściowego na tej stronie).
Opcja 1. Prześlij plik jako dane wbudowane
Ważne informacje o plikach podanych jako dane wbudowane:
Jako dane wbudowane można przesyłać tylko małe pliki, ponieważ łączny rozmiar żądania jest ograniczony do 20 MB.
Plik jest kodowany w formacie Base64 podczas przesyłania (co zwiększa jego rozmiar).
Przykład pokazujący, jak dołączyć plik jako dane wbudowane, znajdziesz w artykule Generowanie tekstu na podstawie danych wejściowych w postaci tekstu i pliku (wielomodowych). Pamiętaj, że pakiety SDK na platformy Android i Apple mogą obsługiwać obrazy w tekście w żądaniach bez konieczności określania typu MIME. Więcej informacji
Opcja 2. Prześlij plik za pomocą adresu URL
Oto akceptowane typy adresów URL, gdy używasz parametru Gemini Developer API:
Adres URL filmu w YouTube: film w YouTube musi być publiczny lub niepubliczny.
W jednej prośbie możesz podać 1 adres URL filmu w YouTube.
Zdjęcia: wymagania, sprawdzone metody i ograniczenia
Obrazy: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących żądań obrazów.
Obsługiwane typy MIME
Gemini Modele multimodalne obsługują te typy MIME obrazów:
Typ MIME obrazu | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG – image/png |
||
JPEG – image/jpeg |
||
WebP – image/webp |
Limity na żądanie
Nie ma konkretnego limitu liczby pikseli na obrazie. Większe obrazy są jednak zmniejszane i uzupełniane, aby dopasować je do maksymalnej rozdzielczości 3072 x 3072 pikseli przy zachowaniu oryginalnego współczynnika proporcji.
Oto maksymalna liczba plików obrazów dozwolonych w żądaniu prompta:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite: 3000 obrazów
Obrazy: Tokenizacja
Tokeny są obliczane w przypadku obrazów w ten sposób:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite:
- Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używane jest 258 tokenów.
- Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz jest dzielony na kafelki. Domyślny rozmiar każdego kafelka to mniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy fragment jest dostosowywany tak, aby jego rozmiar nie był mniejszy niż 256 pikseli ani większy niż 768 pikseli. Każdy fragment jest następnie zmieniany na rozmiar 768 x 768 i wykorzystuje 258 tokenów.
Obrazy: sprawdzone metody
Aby uzyskać jak najlepsze wyniki, podczas korzystania z obrazów stosuj te sprawdzone metody i informacje:
- Jeśli chcesz wykryć tekst na obrazie, użyj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z wieloma obrazami.
- Jeśli prompt zawiera pojedynczy obraz, umieść go przed promptem tekstowym w żądaniu.
- Jeśli prompt zawiera kilka obrazów i chcesz się do nich odwołać w dalszej części promptu lub chcesz, aby model odwoływał się do nich w odpowiedzi, warto przypisać każdemu obrazowi indeks przed obrazem. Użyj
luba
b
c
jako indeksu. Oto przykład użycia obrazów indeksowanych w prompcie:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Używaj zdjęć o wyższej rozdzielczości, ponieważ dają lepsze wyniki.
- W prompcie podaj kilka przykładów.
- Przed dodaniem obrazów do promptu obróć je do właściwej orientacji.
- Unikaj rozmytych obrazów.
Obrazy: ograniczenia
Chociaż Gemini modele multimodalne są przydatne w wielu zastosowaniach multimodalnych, warto poznać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielenia odpowiedzi na obrazy, które naruszają nasze zasady bezpieczeństwa.
- Rozumowanie przestrzenne: modele nie są precyzyjne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą one zwracać tylko przybliżone liczby obiektów.
- Zastosowania medyczne: modele nie nadają się do interpretowania obrazów medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
- Rozpoznawanie osób: modele nie są przeznaczone do identyfikowania osób, które nie są celebrytami, na obrazach.
- Dokładność: modele mogą mieć halucynacje lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróconych lub o bardzo niskiej rozdzielczości. Modele mogą też halucynować podczas interpretowania odręcznego tekstu w dokumentach z obrazami.
Film: wymagania, sprawdzone metody i ograniczenia
Film: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących żądań wideo.
Obsługiwane typy MIME
Gemini Modele multimodalne obsługują te typy MIME wideo:
Typ MIME pliku wideo | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV - video/x-flv |
||
MOV - video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS - video/mpegps |
||
MPG - video/mpg |
||
MP4 – video/mp4 |
||
WEBM – video/webm |
||
WMV - video/wmv |
||
3GPP – video/3gpp |
Limity na żądanie
Oto maksymalna liczba plików wideo dozwolonych w żądaniu prompta:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite: 10 plików wideo
Film: tokenizacja
Tokeny są obliczane w ten sposób:
-
Gemini 2.5 Pro,Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite: ścieżka audio jest kodowana z klatkami wideo. Ścieżka audio jest też dzielona na
1-sekundowe fragmenty , z których każdy zawiera 32 tokeny. Klatki wideo i tokeny audio są przeplatane ze znacznikami czasu. Sygnatury czasowe są reprezentowane jako 5 tokenów. - Wszystkie modele multimodalne Gemini: filmy są próbkowane z częstotliwością
1 klatki na sekundę . Każda klatka filmu to 258 tokenów.
Film: sprawdzone metody
Aby uzyskać najlepsze wyniki, podczas korzystania z filmu postępuj zgodnie z tymi sprawdzonymi metodami i informacjami:
- Jeśli prompt zawiera jeden film, umieść go przed promptem tekstowym.
- Jeśli potrzebujesz lokalizacji sygnatur czasowych w filmie z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie
MM:SS
, w którym pierwsze 2 cyfry oznaczają minuty, a ostatnie 2 cyfry – sekundy. W przypadku pytań dotyczących sygnatury czasowej używaj tego samego formatu.
Film: ograniczenia
Chociaż Gemini modele multimodalne są przydatne w wielu zastosowaniach multimodalnych, warto poznać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi na filmy, które naruszają nasze zasady bezpieczeństwa.
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy w rozpoznawaniu dźwięków innych niż mowa.
- Szybki ruch: modele mogą popełniać błędy w rozumieniu szybkiego ruchu w filmie ze względu na stałą częstotliwość próbkowania wynoszącą
1 klatkę na sekundę .
Audio: wymagania i ograniczenia
Dźwięk: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących żądań audio.
Obsługiwane typy MIME
Gemini Modele multimodalne obsługują te typy MIME audio:
Typ MIME audio | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM – audio/webm |
Limity na żądanie
W żądaniu promptu możesz uwzględnić maksymalnie
Audio: ograniczenia
Chociaż Gemini modele multimodalne są przydatne w wielu zastosowaniach multimodalnych, warto poznać ich ograniczenia:
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy w rozpoznawaniu dźwięków innych niż mowa.
- Sygnatury czasowe tylko dla plików audio: aby dokładnie generować sygnatury czasowe dla plików tylko audio, musisz skonfigurować parametr
audio_timestamp
wgeneration_config
.
Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia
Dokumenty: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dokumentów (np. plików PDF) w przypadku każdego żądania.
Obsługiwane typy MIME
Gemini Modele multimodalne obsługują te typy MIME dokumentów:
Typ MIME dokumentu | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PDF – application/pdf |
||
Tekst – text/plain |
Limity na żądanie
Pliki PDF są traktowane jako obrazy, więc jedna strona pliku PDF jest traktowana jako 1 obraz. Liczba stron dozwolonych w prompcie jest ograniczona do liczby obrazów, które może obsługiwać model:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite:
- Maksymalna liczba plików w żądaniu: 3000
- Maksymalna liczba stron w pliku: 1000
- Maksymalny rozmiar pliku: 50 MB
Dokumenty: tokenizacja
Tokenizacja plików PDF
Pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.
Koszt plików PDF jest zgodny z Geminicennikiem obrazów. Jeśli na przykład w wywołaniu interfejsu Gemini umieścisz 2-stronicowy plik PDF, poniesiesz opłatę za przetwarzanie 2 obrazów.
Dokumenty: sprawdzone metody
Aby uzyskać najlepsze wyniki, podczas korzystania z plików PDF stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera jeden plik PDF, umieść go przed promptem tekstowym w swojej prośbie.
- Jeśli masz długi dokument, możesz podzielić go na kilka plików PDF, aby go przetworzyć.
- Używaj plików PDF, w których tekst jest renderowany jako tekst, zamiast tekstu w zeskanowanych obrazach. Ten format sprawia, że tekst jest czytelny dla maszyn, dzięki czemu model może go łatwiej edytować, wyszukiwać i przetwarzać w porównaniu ze skanowanymi plikami PDF z obrazami. Ta metoda zapewnia optymalne wyniki w przypadku dokumentów zawierających dużo tekstu, takich jak umowy.
Dokumenty: ograniczenia
Chociaż Gemini modele multimodalne są przydatne w wielu zastosowaniach multimodalnych, warto poznać ich ograniczenia:
- Rozumowanie przestrzenne: modele nie są precyzyjne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą one zwracać tylko przybliżone liczby obiektów.
- Dokładność: modele mogą generować halucynacje podczas interpretowania odręcznego tekstu w dokumentach PDF.