ไฟล์อินพุตที่รองรับและข้อกำหนด

เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Firebase AI Logic SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบมัลติโมดอล เช่น รูปภาพ วิดีโอ และเสียง รวมถึงเอกสาร (เช่น PDF)

คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอแบบมัลติโมดัลเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ

หน้านี้เกี่ยวข้องกับการใช้ GenerativeModel โดยเฉพาะ และอธิบายสิ่งต่อไปนี้

ตัวเลือกในการระบุไฟล์ในคำขอแบบมัลติโมดัล

เลือกผู้ให้บริการ Gemini API เพื่อดูเนื้อหาเฉพาะของผู้ให้บริการในหน้านี้

ในคำขอแบบมัลติโมดัลแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ

ขนาดและจำนวนไฟล์ที่คุณระบุในคำขอจะขึ้นอยู่กับ ประเภทไฟล์อินพุต วิธีระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดได้ที่ส่วนของประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)

ตัวเลือกที่ 1: ระบุไฟล์เป็นข้อมูลแบบอินไลน์

โปรดทราบข้อมูลต่อไปนี้เกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลแบบอินไลน์

  • ส่งได้เฉพาะไฟล์ขนาดเล็กเป็นข้อมูลแบบอินไลน์เท่านั้น เนื่องจากขนาดคำขอทั้งหมด สูงสุดคือ 20 MB

  • ระบบจะเข้ารหัสไฟล์เป็น base64 ในระหว่างการส่ง (ซึ่งจะเพิ่มขนาดไฟล์)

ดูตัวอย่างที่แสดงวิธีรวมไฟล์เป็นข้อมูลแบบอินไลน์ได้ที่สร้างข้อความจากอินพุตข้อความและไฟล์ (มัลติโมดัล) โปรดทราบว่า SDK สำหรับแพลตฟอร์ม Android และ Apple สามารถจัดการรูปภาพในบรรทัดในคำขอได้โดยไม่ต้องระบุประเภท MIME ดูข้อมูลเพิ่มเติม

ตัวเลือกที่ 2: ระบุไฟล์โดยใช้ URL

ประเภท URL ที่ยอมรับเมื่อใช้ Gemini Developer API มีดังนี้



รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

รูปภาพ: ข้อกำหนด

ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับรูปภาพ

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของรูปภาพต่อไปนี้

ประเภท MIME ของรูปภาพ Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

จำนวนที่จำกัดต่อคำขอ

ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพที่ใหญ่กว่าและเพิ่มพื้นที่ว่างเพื่อให้มีความละเอียดสูงสุด 3072 x 3072 โดยคงสัดส่วนภาพเดิมไว้

จำนวนไฟล์รูปภาพสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: 3,000 รูปภาพ

รูปภาพ: การแปลงข้อมูลเป็นโทเค็น

วิธีการคำนวณโทเค็นสำหรับรูปภาพมีดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite
    • หากทั้ง 2 ด้านของรูปภาพมีขนาดไม่เกิน 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
    • หากรูปภาพมีด้านใดด้านหนึ่งยาวกว่า 384 พิกเซล ระบบจะครอบตัดรูปภาพเป็นไทล์ ขนาดไทล์แต่ละรายการจะตั้งค่าเริ่มต้นเป็นขนาดที่เล็กที่สุด (ความกว้างหรือความสูง) หารด้วย 1.5 หากจำเป็น ระบบจะปรับแต่ละไทล์ให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นระบบจะปรับขนาดแต่ละไทล์เป็น 768x768 และใช้โทเค็น 258 รายการ

รูปภาพ: แนวทางปฏิบัติแนะนำ

เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

  • หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อ ให้ผลลัพธ์ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
  • หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพก่อนพรอมต์ข้อความในคำขอ
  • หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงถึงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือต้องการให้โมเดลอ้างอิงถึงรูปภาพเหล่านั้นในคำตอบของโมเดล การกำหนดดัชนีให้กับแต่ละรูปภาพก่อนรูปภาพจะช่วยได้ ใช้ a b c หรือ image 1 image 2 image 3 สำหรับดัชนี ตัวอย่างการใช้รูปภาพที่จัดทำดัชนีในพรอมต์มีดังนี้
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีกว่า
  • ใส่ตัวอย่าง 2-3 รายการในพรอมต์
  • หมุนรูปภาพให้เป็นแนวที่ถูกต้องก่อนเพิ่มลงในพรอมต์
  • หลีกเลี่ยงรูปภาพที่เบลอ

รูปภาพ: ข้อจำกัด

แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล

  • การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถาม ในรูปภาพที่ละเมิดนโยบายด้านความปลอดภัยของเรา
  • การใช้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ในรูปภาพ โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
  • การใช้งานทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความ รูปภาพทางการแพทย์ (เช่น เอ็กซ์เรย์และซีทีสแกน) หรือการให้คำแนะนำทางการแพทย์
  • การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อใช้ ระบุตัวบุคคลที่ไม่ใช่คนดังในรูปภาพ
  • ความแม่นยำ: โมเดลอาจสร้างข้อมูลที่ไม่เป็นความจริงหรือทำผิดพลาด เมื่อตีความรูปภาพที่มีคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นอกจากนี้ โมเดลยังอาจสร้างข้อมูลที่ไม่ถูกต้องขึ้นมาเองเมื่อตีความข้อความที่เขียนด้วยลายมือในเอกสารรูปภาพ



วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

วิดีโอ: ข้อกำหนด

ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับวิดีโอ

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของวิดีโอต่อไปนี้

ประเภท MIME ของวิดีโอ Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

จำนวนที่จำกัดต่อคำขอ

จำนวนไฟล์วิดีโอสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: ไฟล์วิดีโอ 10 รายการ

วิดีโอ: การแปลงข้อมูลเป็นโทเค็น

วิธีการคำนวณโทเค็นสำหรับวิดีโอมีดังนี้

  • Gemini 2.5 Pro, Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: แทร็กเสียงจะ เข้ารหัสพร้อมกับเฟรมวิดีโอ นอกจากนี้ แทร็กเสียงยังแบ่งออกเป็นช่วงละ 1 วินาที ซึ่งแต่ละช่วงมีโทเค็น 32 รายการ เฟรมวิดีโอ และโทเค็นเสียงจะสลับกันพร้อมกับการประทับเวลา การประทับเวลา จะแสดงเป็น 5 โทเค็น
  • โมเดลมัลติโมดัลทั้งหมดของ Gemini: ระบบจะสุ่มตัวอย่างวิดีโอที่ 1 เฟรมต่อวินาที (fps) เฟรมวิดีโอแต่ละเฟรมจะใช้โทเค็น 258 รายการ

วิดีโอ: แนวทางปฏิบัติแนะนำ

เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

  • หากพรอมต์มีวิดีโอรายการเดียว ให้วางวิดีโอก่อนพรอมต์ข้อความ
  • หากต้องการการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ขอโมเดล สร้างการประทับเวลาในรูปแบบ MM:SS โดยที่ตัวเลข 2 ตัวแรก แสดงถึงนาที และตัวเลข 2 ตัวสุดท้ายแสดงถึงวินาที ใช้รูปแบบเดียวกันสำหรับคำถามที่ถามเกี่ยวกับการประทับเวลา

วิดีโอ: ข้อจำกัด

แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล

  • การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถาม ในวิดีโอที่ละเมิดนโยบายด้านความปลอดภัยของเรา
  • การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
  • การเคลื่อนไหวความเร็วสูง: โมเดลอาจเข้าใจการเคลื่อนไหวความเร็วสูงในวิดีโอผิดพลาดเนื่องจากอัตราการสุ่มตัวอย่างที่1 เฟรมต่อวินาที (FPS)



เสียง: ข้อกำหนดและข้อจำกัด

เสียง: ข้อกำหนด

ในส่วนนี้ คุณจะได้ทราบเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เสียง

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของเสียงต่อไปนี้

ประเภท MIME ของเสียง Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

จำนวนที่จำกัดต่อคำขอ

คุณใส่ไฟล์เสียง 1 ไฟล์ในคำขอพรอมต์ได้สูงสุด

เสียง: ข้อจำกัด

แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล

  • การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
  • การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้างการประทับเวลาสำหรับไฟล์เสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์ audio_timestamp ใน generation_config



เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

เอกสาร: ข้อกำหนด

ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เอกสาร (เช่น PDF)

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของเอกสารต่อไปนี้

ประเภท MIME ของเอกสาร Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PDF - application/pdf
ข้อความ - text/plain

จำนวนที่จำกัดต่อคำขอ

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้น PDF 1 หน้าจึงถือเป็นรูปภาพ 1 รูป จำนวนหน้าที่อนุญาตในพรอมต์จะจำกัดตามจำนวนรูปภาพที่โมเดลรองรับได้ ดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite
    • ไฟล์สูงสุดต่อคำขอ: 3,000 ไฟล์
    • จำนวนหน้าสูงสุดต่อไฟล์: 1,000
    • ขนาดสูงสุดต่อไฟล์: 50 MB

เอกสาร: การแปลงข้อมูลเป็นโทเค็น

การแปลง PDF เป็นโทเค็น

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นแต่ละหน้าของ PDF จะได้รับการแปลงเป็นโทเค็นในลักษณะเดียวกับรูปภาพ

นอกจากนี้ ค่าใช้จ่ายสำหรับไฟล์ PDF จะเป็นไปตามGeminiราคาของรูปภาพ ตัวอย่างเช่น หากคุณรวม PDF 2 หน้าในการเรียกใช้ Gemini API คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป

เอกสาร: แนวทางปฏิบัติแนะนำ

เมื่อใช้ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

  • หากพรอมต์มี PDF เพียงไฟล์เดียว ให้วาง PDF ไว้ก่อนข้อความ พรอมต์ในคำขอ
  • หากมีเอกสารขนาดยาว ให้ลองแบ่งเอกสารออกเป็น PDF หลายไฟล์ เพื่อประมวลผล
  • ใช้ PDF ที่สร้างขึ้นโดยแสดงข้อความเป็นข้อความแทนการใช้ข้อความใน รูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความจะอ่านได้ด้วยเครื่อง เพื่อให้โมเดล แก้ไข ค้นหา และจัดการได้ง่ายกว่าไฟล์ PDF ที่เป็นรูปภาพซึ่งสแกนมา แนวทางปฏิบัตินี้จะให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับเอกสารที่มีข้อความจำนวนมาก เช่น สัญญา

เอกสาร: ข้อจำกัด

แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล

  • การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ใน PDF โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
  • ความแม่นยำ: โมเดลอาจสร้างข้อมูลที่ไม่เป็นความจริงเมื่อตีความ ข้อความที่เขียนด้วยลายมือในเอกสาร PDF