Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu SDK Firebase AI Logic, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie multimodalnych danych wejściowych, takich jak obrazy, filmy, dźwięk i dokumenty (np. PDF).
Musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i zadbać o to, aby pliki i żądania multimodalne spełniały wymagania i odpowiednio do nich zostały przygotowane.
Ta strona dotyczy korzystania z GenerativeModel
i zawiera te informacje:
Szczegółowe informacje o obsługiwanych typach MIME, sprawdzonych metodach i ograniczeniach dotyczących tych typów danych wejściowych:
Obrazy | Wideo | Dźwięk | Dokumenty (np. pliki PDF).
Opcje przesyłania plików w zapytaniach multimodalnych
Wybierz dostawcę interfejsu Gemini API, aby wyświetlić na tej stronie treści dotyczące tego dostawcy |
W każdym żądaniu multimodalnym musisz zawsze podać te informacje:
Plik ma nazwę
mimeType
. Obsługiwane typy MIME poszczególnych plików wejściowych znajdziesz w odpowiedniej sekcji tej strony.Plik. Możesz podać plik jako dane wbudowane lub podać plik za pomocą jego adresu URL.
Rozmiar i liczbę plików, które możesz podać w żądaniu, określa typ pliku wejściowego, sposób jego przekazania i użyty model (szczegółowe informacje znajdziesz w sekcji dotyczącej danego typu pliku wejściowego na tej stronie).
Opcja 1. Prześlij plik jako dane wbudowane
Pamiętaj o tych kwestiach dotyczących plików podanych jako dane wbudowane:
Jako dane wbudowane można wysyłać tylko małe pliki, ponieważ limit rozmiaru łącznego zapytania wynosi 20 MB.
Podczas przesyłania plik jest kodowany w formacie base64 (co zwiększa jego rozmiar).
Przykład pokazujący, jak uwzględnić plik jako dane wstawione, znajdziesz w artykule Generowanie tekstu na podstawie danych tekstowych i plikowych (wielomodalnych). Pamiętaj, że pakiety SDK na platformy Android i Apple mogą obsługiwać obrazy wbudowane w żądaniach bez konieczności podawania typu MIME. Więcej informacji
Opcja 2. Prześlij plik za pomocą adresu URL
Oto dopuszczalne typy adresów URL, które można używać w przypadku funkcji Gemini Developer API:
Adres URL filmu w YouTube: film w YouTube musi być publiczny lub niepubliczny.
W ramach jednej prośby możesz podać 1 adres URL filmu w YouTube.
Zdjęcia: wymagania, sprawdzone metody i ograniczenia
Obrazy: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących obrazów.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME obrazów:
Typ MIME obrazu | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG – image/png |
||
JPEG – image/jpeg |
||
WebP – image/webp |
Limity na żądanie
Nie ma określonego limitu liczby pikseli na obrazie. Większe obrazy są jednak zmniejszane i wypełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnego współczynnika proporcji.
Oto maksymalna dozwolona liczba plików graficznych w promptach:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite: 3000 obrazów.
Obrazy: tokenizacja
Oto sposób obliczania tokenów w przypadku obrazów:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite:
- Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używane są 258 tokenów.
- Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz jest przycinany do kafelków. Domyślny rozmiar każdej płytki to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każda płytka jest dostosowywana tak, aby nie była mniejsza niż 256 pikseli i nie większa niż 768 pikseli. Każda płytka jest następnie zmieniana na rozmiar 768 x 768 i korzysta z 258 tokenów.
Obrazy: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli chcesz wykryć tekst na obrazie, użyj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z wieloma obrazami.
- Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w prośbie.
- Jeśli prompt zawiera wiele obrazów i chcesz się do nich odnieść w późniejszym promptie lub w odpowiedzi modelu, możesz dodać przed każdym obrazem jego numer. Użyj w indeksie wartości
luba
b
c
. Oto przykład użycia obrazów indeksowanych w promptach:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Używaj zdjęć w wyższej rozdzielczości, ponieważ dają lepsze efekty.
- Uwzględnij w prompcie kilka przykładów.
- Przed dodaniem obrazów do promptu obróć je w odpowiednią orientację.
- Unikaj rozmytych obrazów.
Obrazy: ograniczenia
Chociaż Geminimodele multimodalne są bardzo przydatne w wielu zastosowaniach multimodalnych, warto poznać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi na pytania dotyczące obrazów, które naruszają nasze zasady bezpieczeństwa.
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą one zwracać tylko przybliżoną liczbę obiektów.
- Zastosowania medyczne: modele nie nadają się do interpretowania zdjęć medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
- Rozpoznawanie osób: modeli nie należy używać do identyfikowania osób, które nie są celebrytami.
- Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróbionych lub o bardzo niskiej rozdzielczości. Modele mogą też „halucynować”, interpretując tekst pisany odręcznie w dokumentach w postaci obrazów.
Film: wymagania, sprawdzone metody i ograniczenia
Film: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach na żądanie w przypadku filmów.
Obsługiwane typy MIME
Gemini Modele multimodalne obsługują te typy MIME wideo:
Typ MIME reklamy wideo | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV – video/x-flv |
||
MOV – video/quicktime |
||
MPEG – video/mpeg |
||
MPEGPS – video/mpegps |
||
MPG – video/mpg |
||
MP4 – video/mp4 |
||
WEBM – video/webm |
||
WMV – video/wmv |
||
3GPP – video/3gpp |
Limity na żądanie
Maksymalna dozwolona liczba plików wideo w prośbie o prompt:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite: 10 plików wideo
Film: tokenizacja
Oto jak są obliczane tokeny w przypadku filmów:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite: ścieżka audio jest kodowana za pomocą klatek wideo. Ścieżka audio jest też podzielona na
1-sekundowe segmenty , z których każdy składa się z 32 tokenów. Ramki wideo i tokeny audio są przeplatane z ich sygnaturami czasowymi. Sygnatury czasowe są reprezentowane przez 7 tokenów. - Wszystkie modele multimodalne Gemini: filmy są próbkowane z
1 klatką na sekundę (fps) . Każda klatka filmu odpowiada 258 tokenom.
Film: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera 1 film, umieść go przed promptem tekstowym.
- Jeśli potrzebujesz lokalizacji sygnatury czasowej w filmie z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie
MM:SS
, gdzie pierwsze 2 cyfry oznaczają minuty, a 2 ostatnie – sekundy. Użyj tego samego formatu w przypadku pytań dotyczących sygnatury czasowej.
Film: ograniczenia
Chociaż Geminimodele multimodalne są bardzo przydatne w wielu zastosowaniach multimodalnych, warto poznać ich ograniczenia:
- Moderowanie treści: modelki odmawiają udzielania odpowiedzi na pytania dotyczące filmów, które naruszają nasze zasady bezpieczeństwa.
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Ruch przy dużej prędkości: modele mogą popełniać błędy podczas rozpoznawania ruchu przy dużej prędkości w filmie z powodu stałej częstotliwości próbkowania
1 klatka na sekundę (fps) .
Dźwięk: wymagania i ograniczenia
Dźwięk: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach na żądanie w przypadku plików audio.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME audio:
Typ MIME audio | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC – audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA – audio/m4a |
||
MPEG – audio/mpeg |
||
MPGA – audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS – audio/opus |
||
PCM – audio/pcm |
||
WAV – audio/wav |
||
WEBM – audio/webm |
Limity na żądanie
W żądaniu prompta możesz załączyć maksymalnie
Dźwięk: ograniczenia
Chociaż Geminimodele multimodalne są bardzo przydatne w wielu zastosowaniach multimodalnych, warto poznać ich ograniczenia:
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Sygnatury czasowe tylko dźwięku: aby prawidłowo generować sygnatury czasowe plików tylko z dźwiękiem, musisz skonfigurować parametr
audio_timestamp
w plikugeneration_config
.
Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia
Dokumenty: wymagania
W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach na żądanie dotyczące dokumentów (np. PDF-ów).
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME dokumentów:
Typ MIME dokumentu | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PDF – application/pdf |
||
Tekst – text/plain |
Limity na żądanie
Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w promptach jest ograniczona do liczby obrazów, które może obsługiwać model:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite:
- Maksymalna liczba plików na żądanie: 3000
- Maksymalna liczba stron na plik: 1000
- Maksymalny rozmiar pliku: 50 MB
Dokumenty: tokenizacja
Tokenizacja PDF-a
Pliki PDF są traktowane jak obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.
Koszt plików PDF jest zgodny z ceną obrazu Gemini. Jeśli na przykład w wywołaniu interfejsu API Gemini dołączysz plik PDF z 2 stronami, zostanie naliczona opłata za przetwarzanie 2 obrazów.
Dokumenty: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera 1 plik PDF, umieść go przed promptem tekstowym w prośbie.
- Jeśli masz długi dokument, możesz go podzielić na kilka plików PDF, aby go przetworzyć.
- Używaj plików PDF utworzonych z tekstem renderowanym jako tekst zamiast tekstu w zeskanowanych obrazach. Dzięki temu formatowi tekst jest czytelny dla maszyn, co ułatwia modelowi edycję, wyszukiwanie i modyfikowanie danych w porównaniu ze skanowanymi obrazami w formacie PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.
Dokumenty: ograniczenia
Chociaż Geminimodele multimodalne są bardzo przydatne w wielu zastosowaniach multimodalnych, warto poznać ich ograniczenia:
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą one zwracać tylko przybliżoną liczbę obiektów.
- Dokładność: modele mogą generować błędy podczas interpretowania ręcznie pisanego tekstu w dokumentach PDF.