The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

All Imagen models will shut down as early as June 30, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ไฟล์อินพุตที่รองรับและข้อกำหนด

เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Firebase AI Logic SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบหลายรูปแบบ เช่น รูปภาพ วิดีโอ และเสียง รวมถึงเอกสาร (เช่น PDF)

คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอแบบมัลติโมดัลเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ

หน้านี้เกี่ยวข้องกับการใช้ GenerativeModel โดยเฉพาะ และอธิบายสิ่งต่อไปนี้

ตัวเลือกในการระบุไฟล์ในคำขอ
รายละเอียดเกี่ยวกับประเภท MIME ที่รองรับ แนวทางปฏิบัติแนะนำ และข้อจำกัดสำหรับ อินพุตไฟล์ต่อไปนี้
รูปภาพ | วิดีโอ | เสียง | เอกสาร (เช่น PDF)

ตัวเลือกในการระบุไฟล์ในคำขอแบบมัลติโมดัล

เลือกผู้ให้บริการ Gemini API เพื่อดูเนื้อหาเฉพาะของผู้ให้บริการในหน้านี้

ในคำขอแบบมัลติโมดัลแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ

mimeType ของไฟล์ ดูประเภท MIME ที่รองรับของไฟล์อินพุตแต่ละไฟล์ได้ใน ส่วนที่เกี่ยวข้องของหน้านี้
ไฟล์ คุณจะ ระบุไฟล์เป็นข้อมูลแบบอินไลน์หรือ ระบุไฟล์โดยใช้ URL ของไฟล์ก็ได้

ขนาดและจำนวนไฟล์ที่คุณระบุในคำขอจะขึ้นอยู่กับ ประเภทไฟล์อินพุต วิธีระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดได้ในส่วนของประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)

ตัวเลือกที่ 1: ระบุไฟล์เป็นข้อมูลแบบอินไลน์

โปรดทราบข้อมูลต่อไปนี้เกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลแบบอินไลน์

ส่งได้เฉพาะไฟล์ขนาดเล็กเป็นข้อมูลแบบอินไลน์เท่านั้น เนื่องจากขนาดคำขอทั้งหมด สูงสุดคือ 20 MB
ระบบจะเข้ารหัสไฟล์เป็น base64 ในระหว่างการส่ง (ซึ่งจะเพิ่มขนาดไฟล์)

ดูตัวอย่างที่แสดงวิธีรวมไฟล์เป็นข้อมูลแบบอินไลน์ได้ที่ สร้างข้อความจากอินพุตข้อความและไฟล์ (มัลติโมดัล) โปรดทราบว่า SDK สำหรับแพลตฟอร์ม Android และ Apple สามารถจัดการรูปภาพในบรรทัดในคำขอได้โดยไม่ต้องระบุประเภท MIME ดูข้อมูลเพิ่มเติม

ตัวเลือกที่ 2: ระบุไฟล์โดยใช้ URL

ประเภท URL ที่ยอมรับเมื่อใช้ Gemini Developer API มีดังนี้

URL ของวิดีโอ YouTube: วิดีโอ YouTube ต้องเป็นสาธารณะหรือแบบไม่เป็นสาธารณะ

คุณระบุ URL ของวิดีโอ YouTube ได้ 1 รายการต่อคำขอ

รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

รูปภาพ: ข้อกำหนด

ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับรูปภาพ

ประเภท MIME ที่รองรับ

Gemini โมเดลแบบมัลติโมดัลรองรับประเภท MIME ของรูปภาพต่อไปนี้

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

จำนวนที่จำกัดต่อคำขอ

ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพที่ใหญ่กว่าและเพิ่มขอบเพื่อให้มีความละเอียดสูงสุด 3072 x 3072 โดยคงสัดส่วนภาพเดิมไว้

ไฟล์สูงสุดต่อคำขอ: ไฟล์รูปภาพ 3,000 ไฟล์

รูปภาพ: การแปลงข้อมูลเป็นโทเค็น

วิธีการคำนวณโทเค็นสำหรับรูปภาพมีดังนี้

หากทั้ง 2 ด้านของรูปภาพมีขนาดไม่เกิน 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
หากรูปภาพมีด้านใดด้านหนึ่งยาวกว่า 384 พิกเซล ระบบจะครอบตัด รูปภาพเป็นไทล์ ขนาดไทล์แต่ละรายการจะตั้งค่าเริ่มต้นเป็นขนาดที่เล็กที่สุด (ความกว้างหรือความสูง) หารด้วย 1.5 หากจำเป็น ระบบจะปรับแต่ละไทล์ให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นจะปรับขนาดแต่ละไทล์เป็น 768x768 และใช้โทเค็น 258 รายการ

Google รูปภาพ: แนวทางปฏิบัติแนะนำ

เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อ ให้ผลลัพธ์ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพก่อนพรอมต์ข้อความในคำขอ
หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงถึงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือต้องการให้โมเดลอ้างอิงถึงรูปภาพเหล่านั้นในคำตอบของโมเดล การใส่ดัชนีให้กับรูปภาพแต่ละรูปก่อนรูปภาพอาจช่วยได้ ใช้ a b c หรือ image 1 image 2 image 3 สำหรับดัชนี ตัวอย่างการใช้รูปภาพที่จัดทำดัชนีในพรอมต์มีดังนี้
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีกว่า
ใส่ตัวอย่าง 2-3 รายการในพรอมต์
หมุนรูปภาพให้เป็นแนวที่ถูกต้องก่อนเพิ่มลงในพรอมต์
หลีกเลี่ยงรูปภาพที่เบลอ

Google รูปภาพ: ข้อจำกัด

แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล

การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถามในรูปภาพที่ละเมิดนโยบายด้านความปลอดภัยของเรา
การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ในรูปภาพ โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
การใช้งานทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความ รูปภาพทางการแพทย์ (เช่น เอ็กซ์เรย์และซีทีสแกน) หรือการให้คำแนะนำทางการแพทย์
การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อใช้ ระบุตัวบุคคลที่ไม่ใช่คนดังในรูปภาพ
ความแม่นยำ: โมเดลอาจเกิดอาการหลอนหรือทำผิดพลาด เมื่อตีความรูปภาพคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นอกจากนี้ โมเดลยังอาจสร้างข้อมูลที่ไม่ถูกต้องเมื่อตีความข้อความที่เขียนด้วยลายมือในเอกสารรูปภาพ

วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

วิดีโอ: ข้อกำหนด

ในส่วนนี้ คุณจะได้ทราบเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับวิดีโอ

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของวิดีโอต่อไปนี้

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

จำนวนที่จำกัดต่อคำขอ

ไฟล์สูงสุดต่อคำขอ: ไฟล์วิดีโอ 10 ไฟล์

วิดีโอ: การแปลงข้อมูลเป็นโทเค็น

วิธีการคำนวณโทเค็นสำหรับวิดีโอมีดังนี้

แทร็กเสียงมีการเข้ารหัสด้วยเฟรมวิดีโอ แทร็กเสียงยังแบ่งออกเป็นส่วนยาว 1 วินาที ซึ่งแต่ละส่วนมีโทเค็น 32 รายการ เฟรมวิดีโอและโทเค็นเสียงจะสลับกันพร้อมกับการประทับเวลา การประทับเวลาจะแสดงเป็นโทเค็น 5 รายการ
สำหรับวิดีโอที่สุ่มตัวอย่างที่หรือต่ำกว่า 1 เฟรมต่อวินาที (fps) การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็นโทเค็น 5 รายการต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 7 รายการต่อ เฟรมวิดีโอ
สำหรับวิดีโอที่สุ่มตัวอย่างสูงกว่า 1 เฟรมต่อวินาที (fps) การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็นโทเค็น 9 รายการต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 11 รายการต่อ เฟรมวิดีโอ

วิดีโอ: แนวทางปฏิบัติแนะนำ

เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

หากพรอมต์มีวิดีโอเดียว ให้วางวิดีโอก่อนพรอมต์ข้อความ
หากต้องการให้มีการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ขอให้โมเดล สร้างการประทับเวลาตามรูปแบบที่อธิบายไว้ใน "รูปแบบการประทับเวลา"

วิดีโอ: ข้อจำกัด

การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถาม ในวิดีโอที่ละเมิดนโยบายด้านความปลอดภัยของเรา
การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด

เสียง: ข้อกำหนดและข้อจำกัด

เสียง: ข้อกำหนด

ในส่วนนี้ คุณจะได้ทราบเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เสียง

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของเสียงต่อไปนี้

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

จำนวนที่จำกัดต่อคำขอ

ไฟล์สูงสุดต่อคำขอ: ไฟล์เสียง 1 ไฟล์

เสียง: ข้อจำกัด

การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้างการประทับเวลาสำหรับไฟล์เสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์ audio_timestamp ใน generation_config

เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

เอกสาร: ข้อกำหนด

ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เอกสาร (เช่น PDF)

ประเภท MIME ที่รองรับ

Gemini โมเดลแบบมัลติโมดัลรองรับประเภท MIME ของเอกสารต่อไปนี้

PDF - application/pdf
ข้อความ - text/plain

จำนวนที่จำกัดต่อคำขอ

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้น PDF 1 หน้าจึงถือเป็นรูปภาพ 1 รูป จำนวนหน้าเว็บที่อนุญาตในพรอมต์จะจำกัดตามจำนวนรูปภาพที่Geminiโมเดลหลายรูปแบบรองรับ

ไฟล์สูงสุดต่อคำขอ: 3,000 ไฟล์
หน้าสูงสุดต่อไฟล์: 1,000 หน้าต่อไฟล์
ขนาดสูงสุดต่อไฟล์: 50 MB ต่อไฟล์

เอกสาร: การแปลงข้อมูลเป็นโทเค็น

การแปลง PDF เป็นโทเค็น

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นแต่ละหน้าของ PDF จะได้รับการแปลงเป็นโทเค็นในลักษณะเดียวกับรูปภาพ

นอกจากนี้ ค่าใช้จ่ายสำหรับไฟล์ PDF จะเป็นไปตามGeminiราคาของรูปภาพ ตัวอย่างเช่น หากคุณรวม PDF 2 หน้าในการเรียก API Gemini คุณจะ เสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป

เอกสาร: แนวทางปฏิบัติแนะนำ

เมื่อใช้ PDF โปรดใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

หากพรอมต์มี PDF เพียงไฟล์เดียว ให้วาง PDF ไว้ก่อนข้อความ พรอมต์ในคำขอ
หากมีเอกสารขนาดยาว ให้ลองแบ่งเอกสารออกเป็น PDF หลายไฟล์ เพื่อประมวลผล
ใช้ PDF ที่สร้างขึ้นโดยแสดงข้อความเป็นข้อความแทนการใช้ข้อความในรูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความจะอ่านได้ด้วยเครื่อง เพื่อให้โมเดล แก้ไข ค้นหา และจัดการได้ง่ายกว่าไฟล์ PDF ที่เป็นรูปภาพซึ่งสแกนมา แนวทางปฏิบัตินี้จะให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับเอกสารที่มีข้อความจำนวนมาก เช่น สัญญา

เอกสาร: ข้อจำกัด

การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ใน PDF โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
ความแม่นยำ: โมเดลอาจสร้างข้อมูลที่ไม่เป็นความจริงเมื่อตีความ ข้อความที่เขียนด้วยลายมือในเอกสาร PDF