Các tệp đầu vào và yêu cầu được hỗ trợ

Khi gọi Gemini API từ ứng dụng bằng SDK Firebase AI Logic, bạn có thể nhắc mô hình Gemini tạo văn bản dựa trên một dữ liệu đầu vào đa phương thức, chẳng hạn như hình ảnh, video, âm thanh và tài liệu (chẳng hạn như tệp PDF).

Bạn cần sử dụng các loại tệp được hỗ trợ, chỉ định một loại MIME được hỗ trợ và đảm bảo rằng các tệp cũng như yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân thủ các phương pháp hay nhất.

Trang này dành riêng cho việc sử dụng GenerativeModel và mô tả những nội dung sau:

Các lựa chọn để cung cấp tệp trong yêu cầu đa phương thức

Chọn nhà cung cấp Gemini API để xem nội dung dành riêng cho nhà cung cấp trên trang này

Trong mỗi yêu cầu đa phương thức, bạn phải luôn cung cấp những thông tin sau:

Kích thước và số lượng tệp mà bạn có thể cung cấp trong yêu cầu được quy định bởi loại tệp đầu vào, cách bạn cung cấp tệp và mô hình được sử dụng (để biết thông tin chi tiết, hãy xem phần về từng loại tệp đầu vào trên trang này).

Cách 1: Cung cấp tệp dưới dạng dữ liệu cùng dòng

Xin lưu ý những điều sau đây về các tệp được cung cấp dưới dạng dữ liệu nội tuyến:

  • Bạn chỉ có thể gửi các tệp nhỏ dưới dạng dữ liệu nội tuyến vì giới hạn tổng kích thước yêu cầu là 20 MB.

  • Tệp được mã hoá thành base64 trong quá trình truyền (làm tăng kích thước tệp).

Để xem ví dụ minh hoạ cách đưa một tệp vào dưới dạng dữ liệu nội tuyến, hãy xem phần Tạo văn bản từ dữ liệu đầu vào dạng văn bản và tệp (đa phương thức). Xin lưu ý rằng các SDK cho nền tảng Android và Apple có thể xử lý hình ảnh nội tuyến trong các yêu cầu mà không cần chỉ định loại MIME. Tìm hiểu thêm.

Cách 2: Cung cấp tệp bằng URL

Dưới đây là các loại URL được chấp nhận khi sử dụng Gemini Developer API:

  • URL video trên YouTube: Video trên YouTube phải ở chế độ công khai hoặc không công khai.

    Bạn có thể chỉ định một URL của video trên YouTube cho mỗi yêu cầu.



Hình ảnh: Yêu cầu, các phương pháp hay nhất và giới hạn

Hình ảnh: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với hình ảnh.

Các loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME hình ảnh sau:

Loại MIME hình ảnh Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PNG – image/png
JPEG – image/jpeg
WebP – image/webp

Giới hạn cho mỗi yêu cầu

Không có giới hạn cụ thể về số lượng pixel trong một hình ảnh. Tuy nhiên, hình ảnh lớn hơn sẽ được giảm tỷ lệ và thêm phần đệm để phù hợp với độ phân giải tối đa là 3072 x 3072 trong khi vẫn giữ nguyên tỷ lệ khung hình ban đầu.

Sau đây là số lượng tệp hình ảnh tối đa được phép trong một yêu cầu tạo câu lệnh:

  • Gemini 2.0 FlashGemini 2.0 Flash‑Lite: 3.000 hình ảnh

Hình ảnh: Mã hoá

Sau đây là cách tính số lượng mã thông báo cho hình ảnh:

  • Gemini 2.0 FlashGemini 2.0 Flash‑Lite:
    • Nếu cả hai chiều của một hình ảnh đều nhỏ hơn hoặc bằng 384 pixel, thì 258 mã thông báo sẽ được sử dụng.
    • Nếu một chiều của hình ảnh lớn hơn 384 pixel, thì hình ảnh sẽ được cắt thành các ô. Theo mặc định, mỗi kích thước ô sẽ là kích thước nhỏ nhất (chiều rộng hoặc chiều cao) chia cho 1,5. Nếu cần, mỗi ô sẽ được điều chỉnh sao cho không nhỏ hơn 256 pixel và không lớn hơn 768 pixel. Sau đó, mỗi ô sẽ được đổi kích thước thành 768x768 và sử dụng 258 mã thông báo.

Hình ảnh: Các phương pháp hay nhất

Khi sử dụng hình ảnh, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để đạt được kết quả tốt nhất:

  • Nếu bạn muốn phát hiện văn bản trong hình ảnh, hãy sử dụng câu lệnh có một hình ảnh để tạo ra kết quả tốt hơn so với câu lệnh có nhiều hình ảnh.
  • Nếu câu lệnh của bạn chứa một hình ảnh duy nhất, hãy đặt hình ảnh đó trước câu lệnh văn bản trong yêu cầu của bạn.
  • Nếu câu lệnh của bạn chứa nhiều hình ảnh và bạn muốn tham chiếu đến các hình ảnh đó sau này trong câu lệnh hoặc muốn mô hình tham chiếu đến các hình ảnh đó trong câu trả lời của mô hình, thì bạn có thể chỉ định một chỉ mục cho từng hình ảnh trước khi đưa ra câu lệnh. Sử dụng a b c hoặc image 1 image 2 image 3 cho chỉ mục của bạn. Sau đây là ví dụ về cách sử dụng hình ảnh được lập chỉ mục trong một câu lệnh:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Sử dụng hình ảnh có độ phân giải cao hơn; hình ảnh có độ phân giải cao sẽ mang lại kết quả tốt hơn.
  • Đưa một vài ví dụ vào câu lệnh.
  • Xoay hình ảnh về đúng hướng trước khi thêm vào câu lệnh.
  • Tránh sử dụng hình ảnh bị mờ.

Hình ảnh: Các điểm hạn chế

Mặc dù Gemini mô hình đa phương thức có nhiều điểm mạnh trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ những hạn chế của các mô hình này:

  • Kiểm duyệt nội dung: Các mô hình từ chối cung cấp câu trả lời về những hình ảnh vi phạm chính sách an toàn của chúng tôi.
  • Lý luận không gian: Các mô hình không định vị chính xác văn bản hoặc đối tượng trong hình ảnh. Chúng có thể chỉ trả về số lượng ước chừng của các đối tượng.
  • Mục đích sử dụng trong y tế: Các mô hình này không phù hợp để diễn giải hình ảnh y tế (ví dụ: ảnh chụp X-quang và chụp CT) hoặc đưa ra lời khuyên y tế.
  • Nhận dạng khuôn mặt: Các mô hình này không được dùng để nhận dạng những người không phải là người nổi tiếng trong hình ảnh.
  • Độ chính xác: Các mô hình có thể tạo ra thông tin sai lệch hoặc mắc lỗi khi diễn giải hình ảnh có chất lượng thấp, bị xoay hoặc có độ phân giải cực thấp. Các mô hình cũng có thể tạo ra thông tin không có thật khi diễn giải văn bản viết tay trong tài liệu hình ảnh.



Video: Yêu cầu, các phương pháp hay nhất và giới hạn

Video: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với video.

Các loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME video sau:

Loại MIME của video Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
FLV – video/x-flv
MOV – video/quicktime
MPEG – video/mpeg
MPEGPS – video/mpegps
Dặm/gallon – video/mpg
MP4 – video/mp4
WEBM – video/webm
WMV – video/wmv
3GPP – video/3gpp

Giới hạn cho mỗi yêu cầu

Sau đây là số lượng tối đa tệp video được phép trong một yêu cầu bằng câu lệnh:

  • Gemini 2.0 FlashGemini 2.0 Flash‑Lite: 10 tệp video

Video: Mã hoá

Sau đây là cách tính mã thông báo cho video:

  • Gemini 2.5 Pro, Gemini 2.0 FlashGemini 2.0 Flash‑Lite: Bản âm thanh được mã hoá bằng khung hình video. Bản âm thanh cũng được chia thành các đoạn 1 giây, mỗi đoạn có 32 mã thông báo. Khung hình video và mã thông báo âm thanh được xen kẽ với nhau cùng với dấu thời gian. Dấu thời gian được biểu thị dưới dạng 5 mã thông báo.
  • Tất cả các mô hình đa phương thức của Gemini: Video được lấy mẫu ở tốc độ 1 khung hình/giây (fps). Mỗi khung hình video chiếm 258 mã thông báo.

Video: Các phương pháp hay nhất

Khi sử dụng video, hãy áp dụng các phương pháp hay nhất và thông tin sau để có kết quả tốt nhất:

  • Nếu câu lệnh của bạn chỉ chứa một video, hãy đặt video đó trước câu lệnh bằng văn bản.
  • Nếu bạn cần bản địa hoá dấu thời gian trong một video có âm thanh, hãy yêu cầu mô hình tạo dấu thời gian ở định dạng MM:SS, trong đó 2 chữ số đầu tiên biểu thị phút và 2 chữ số cuối cùng biểu thị giây. Sử dụng cùng một định dạng cho những câu hỏi hỏi về dấu thời gian.

Video: Các điểm hạn chế

Mặc dù Gemini mô hình đa phương thức có nhiều điểm mạnh trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ những hạn chế của các mô hình này:

  • Kiểm duyệt nội dung: Các mô hình từ chối cung cấp câu trả lời về những video vi phạm chính sách an toàn của chúng tôi.
  • Nhận dạng âm thanh không phải lời nói: Các mô hình hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.
  • Chuyển động tốc độ cao: Các mô hình có thể mắc lỗi khi hiểu chuyển động tốc độ cao trong video do tốc độ lấy mẫu cố định là 1 khung hình/giây (fps).



Âm thanh: Yêu cầu và hạn chế

Âm thanh: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với âm thanh.

Các loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME âm thanh sau:

Loại MIME âm thanh Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
AAC – audio/aac
FLAC – audio/flac
MP3 – audio/mp3
MPA – audio/m4a
MPEG – audio/mpeg
MPGA – audio/mpga
MP4 – audio/mp4
OPUS – audio/opus
PCM – audio/pcm
WAV – audio/wav
WEBM – audio/webm

Giới hạn cho mỗi yêu cầu

Bạn có thể thêm tối đa 1 tệp âm thanh vào một yêu cầu tạo câu lệnh.

Âm thanh: Hạn chế

Mặc dù Gemini mô hình đa phương thức có nhiều điểm mạnh trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ những hạn chế của các mô hình này:

  • Nhận dạng âm thanh không phải lời nói: Các mô hình hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.
  • Dấu thời gian chỉ có âm thanh: Để tạo dấu thời gian chính xác cho các tệp chỉ có âm thanh, bạn phải định cấu hình tham số audio_timestamp trong generation_config.



Tài liệu (chẳng hạn như tệp PDF): Yêu cầu, các phương pháp hay nhất và giới hạn

Giấy tờ: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với tài liệu (chẳng hạn như PDF).

Các loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME sau đây của tài liệu:

Loại MIME của tài liệu Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PDF – application/pdf
Văn bản – text/plain

Giới hạn cho mỗi yêu cầu

Tệp PDF được coi là hình ảnh, vì vậy một trang của tệp PDF được coi là một hình ảnh. Số lượng trang được phép trong một câu lệnh bị giới hạn ở số lượng hình ảnh mà mô hình có thể hỗ trợ:

  • Gemini 2.0 FlashGemini 2.0 Flash‑Lite:
    • Số lượng tệp tối đa cho mỗi yêu cầu: 3.000
    • Số trang tối đa cho mỗi tệp: 1.000
    • Kích thước tối đa cho mỗi tệp: 50 MB

Tài liệu: Mã hoá

Mã hoá PDF

Tệp PDF được coi là hình ảnh, vì vậy mỗi trang của tệp PDF đều được mã hoá theo cách tương tự như hình ảnh.

Ngoài ra, chi phí cho tệp PDF tuân theo Gemini giá hình ảnh. Ví dụ: nếu bạn đưa một tệp PDF gồm 2 trang vào lệnh gọi API Gemini, bạn sẽ phải trả phí đầu vào để xử lý 2 hình ảnh.

Tài liệu: Các phương pháp hay nhất

Khi sử dụng tệp PDF, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:

  • Nếu câu lệnh của bạn chứa một tệp PDF duy nhất, hãy đặt tệp PDF đó trước câu lệnh văn bản trong yêu cầu của bạn.
  • Nếu bạn có một tài liệu dài, hãy cân nhắc việc chia tài liệu đó thành nhiều tệp PDF để xử lý.
  • Sử dụng PDF được tạo bằng văn bản hiển thị dưới dạng văn bản thay vì sử dụng văn bản trong hình ảnh được quét. Định dạng này đảm bảo văn bản có thể đọc được bằng máy để mô hình dễ dàng chỉnh sửa, tìm kiếm và thao tác hơn so với tệp PDF hình ảnh được quét. Phương pháp này mang lại kết quả tối ưu khi làm việc với các tài liệu có nhiều văn bản như hợp đồng.

Giấy tờ: Hạn chế

Mặc dù Gemini mô hình đa phương thức có nhiều điểm mạnh trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ những hạn chế của các mô hình này:

  • Lập luận không gian: Các mô hình không chính xác khi xác định vị trí văn bản hoặc đối tượng trong tệp PDF. Chúng có thể chỉ trả về số lượng ước chừng của các đối tượng.
  • Độ chính xác: Các mô hình có thể đưa ra thông tin không có thật khi diễn giải văn bản viết tay trong tài liệu PDF.