ไฟล์อินพุตที่รองรับและข้อกำหนด

เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Firebase AI Logic SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบมัลติโมเดล เช่น รูปภาพ วิดีโอ เสียง และเอกสาร (เช่น PDF)

คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอแบบหลายสื่อเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ

หน้านี้มีไว้สำหรับการใช้ GenerativeModel โดยเฉพาะ และจะอธิบายสิ่งต่อไปนี้

ตัวเลือกในการส่งไฟล์ในคำขอสื่อหลายรูปแบบ

เลือกผู้ให้บริการ Gemini API เพื่อดูเนื้อหาเฉพาะผู้ให้บริการในหน้านี้

ในคำขอแบบมัลติโมเดลแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ

ขนาดและจำนวนไฟล์ที่คุณระบุในคำขอจะขึ้นอยู่กับประเภทไฟล์อินพุต วิธีระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดได้ในส่วนประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)

ตัวเลือกที่ 1: ส่งไฟล์เป็นข้อมูลในบรรทัด

โปรดทราบข้อมูลต่อไปนี้เกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลในบรรทัด

  • เฉพาะไฟล์ขนาดเล็กเท่านั้นที่จะส่งเป็นข้อมูลในบรรทัดได้ เนื่องจากขีดจำกัดขนาดคำขอทั้งหมดคือ 20 MB

  • ระบบจะเข้ารหัสไฟล์เป็น Base64 ระหว่างการรับส่ง (ซึ่งจะเพิ่มขนาดไฟล์)

ดูตัวอย่างที่แสดงวิธีรวมไฟล์เป็นข้อมูลในบรรทัดได้ที่หัวข้อสร้างข้อความจากอินพุตแบบข้อความและไฟล์ (มัลติโมดัล) โปรดทราบว่า SDK สําหรับแพลตฟอร์ม Android และ Apple สามารถจัดการรูปภาพในบรรทัดในคําขอได้โดยไม่ต้องระบุประเภท MIME ดูข้อมูลเพิ่มเติม

ตัวเลือกที่ 2: ส่งไฟล์โดยใช้ URL

ประเภท URL ที่ยอมรับเมื่อใช้ Gemini Developer API มีดังนี้



รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

รูปภาพ: ข้อกำหนด

ส่วนนี้จะอธิบายเกี่ยวกับประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับรูปภาพ

ประเภท MIME ที่รองรับ

Gemini โมเดลมัลติโมดรองรับประเภท MIME ของรูปภาพต่อไปนี้

ประเภท MIME ของรูปภาพ Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

จำนวนที่จำกัดต่อคำขอ

ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพขนาดใหญ่ให้เล็กลงและเพิ่มพื้นที่ว่างเพื่อให้พอดีกับความละเอียดสูงสุด 3072 x 3072 โดยยังคงรักษาสัดส่วนภาพเดิมไว้

จำนวนไฟล์รูปภาพสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: 3,000 รูปภาพ

รูปภาพ: การแปลงข้อมูลเป็นโทเค็น

ต่อไปนี้คือวิธีคำนวณโทเค็นสำหรับรูปภาพ

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite:
    • หากทั้ง 2 ขนาดของรูปภาพน้อยกว่าหรือเท่ากับ 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
    • หากรูปภาพมีขนาด 1 ด้านเกิน 384 พิกเซล ระบบจะครอบตัดรูปภาพเป็นไทล์ ขนาดการ์ดแต่ละขนาดจะมีค่าเริ่มต้นเป็นมิติข้อมูล (ความกว้างหรือความสูง) ที่เล็กที่สุดหารด้วย 1.5 หากจำเป็น ระบบจะปรับแต่ละการ์ดให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นระบบจะปรับขนาดแต่ละการ์ดเป็น 768x768 และใช้โทเค็น 258 รายการ

รูปภาพ: แนวทางปฏิบัติแนะนำ

เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

  • หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อให้ได้ผลลัพธ์ที่ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
  • หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพไว้ก่อนพรอมต์ข้อความในคำขอ
  • หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือให้โมเดลอ้างอิงรูปภาพเหล่านั้นในการตอบกลับของโมเดล ก็อาจช่วยได้ด้วยการระบุดัชนีก่อนรูปภาพแต่ละรูป ใช้ a b c หรือ image 1 image 2 image 3 สำหรับดัชนี ต่อไปนี้เป็นตัวอย่างการใช้รูปภาพที่จัดทำดัชนีในพรอมต์
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
  • ใส่ตัวอย่าง 2-3 รายการในพรอมต์
  • หมุนรูปภาพให้อยู่ในแนวที่ถูกต้องก่อนที่จะเพิ่มลงในพรอมต์
  • หลีกเลี่ยงรูปภาพที่เบลอ

รูปภาพ: ข้อจำกัด

แม้ว่าGeminiโมเดลสื่อหลายรูปแบบจะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบหลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้

  • การดูแลเนื้อหา: ผู้เข้าร่วมปฏิเสธที่จะตอบคำถามเกี่ยวกับรูปภาพที่ละเมิดนโยบายด้านความปลอดภัย
  • การหาเหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการหาตำแหน่งข้อความหรือวัตถุในรูปภาพ โดยอาจแสดงเฉพาะจํานวนวัตถุโดยประมาณ
  • การใช้ทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความรูปภาพทางการแพทย์ (เช่น เอกซเรย์และ CT Scan) หรือให้คำแนะนำทางการแพทย์
  • การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อระบุตัวตนบุคคลที่ไม่ใช่คนดังในรูปภาพ
  • ความแม่นยำ: โมเดลอาจเห็นภาพหลอนหรือทำผิดพลาดเมื่อตีความรูปภาพที่มีคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นอกจากนี้ โมเดลอาจตีความข้อความที่เขียนด้วยมือในเอกสารรูปภาพผิดพลาดด้วย



วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

วิดีโอ: ข้อกำหนด

ส่วนนี้จะอธิบายประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับวิดีโอ

ประเภท MIME ที่รองรับ

Gemini โมเดลมัลติโมดรองรับประเภท MIME ของวิดีโอต่อไปนี้

ประเภท MIME ของวิดีโอ Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

จำนวนที่จำกัดต่อคำขอ

จำนวนไฟล์วิดีโอสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: ไฟล์วิดีโอ 10 ไฟล์

วิดีโอ: การแปลงข้อมูลเป็นโทเค็น

วิธีคำนวณโทเค็นสำหรับวิดีโอมีดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: ระบบจะเข้ารหัสแทร็กเสียงด้วยเฟรมวิดีโอ นอกจากนี้ ระบบจะแบ่งแทร็กเสียงออกเป็นกลุ่ม 1 วินาที โดยแต่ละกลุ่มจะมีโทเค็น 32 รายการ โทเค็นเฟรมวิดีโอและเสียงจะสลับกันพร้อมกับการประทับเวลา การประทับเวลาจะแสดงเป็นโทเค็น 7 รายการ
  • โมเดลมัลติโมดัลทั้งหมดของ Gemini: ระบบจะสุ่มตัวอย่างวิดีโอที่1 เฟรมต่อวินาที (FPS) เฟรมวิดีโอแต่ละเฟรมมีโทเค็น 258 รายการ

วิดีโอ: แนวทางปฏิบัติแนะนำ

เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

  • หากพรอมต์มีวิดีโอเพียงรายการเดียว ให้วางวิดีโอไว้ก่อนพรอมต์ที่เป็นข้อความ
  • หากต้องการการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ขอให้โมเดลสร้างการประทับเวลาในรูปแบบ MM:SS โดยตัวเลข 2 หลักแรกแสดงนาทีและตัวเลข 2 หลักสุดท้ายแสดงวินาที ใช้รูปแบบเดียวกันกับคำถามที่ถามเกี่ยวกับการประทับเวลา

วิดีโอ: ข้อจำกัด

แม้ว่าGeminiโมเดลสื่อหลายรูปแบบจะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบหลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้

  • การดูแลเนื้อหา: นางแบบปฏิเสธที่จะตอบคำถามเกี่ยวกับวิดีโอที่ละเมิดนโยบายด้านความปลอดภัย
  • การจดจำเสียงที่ไม่ใช่คำพูด: รุ่นที่รองรับเสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
  • การเคลื่อนไหวด้วยความเร็วสูง: โมเดลอาจเข้าใจการเคลื่อนไหวด้วยความเร็วสูงในวิดีโอผิดพลาดเนื่องจากอัตราการสุ่มตัวอย่างที่ตายตัวซึ่งคือ1 เฟรมต่อวินาที (FPS)



เสียง: ข้อกำหนดและข้อจำกัด

เสียง: ข้อกำหนด

ส่วนนี้จะอธิบายเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับเสียง

ประเภท MIME ที่รองรับ

Gemini โมเดลมัลติโมดรองรับประเภท MIME ของเสียงต่อไปนี้

ประเภท MIME ของเสียง Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

จำนวนที่จำกัดต่อคำขอ

คุณรวมไฟล์เสียง 1 ไฟล์ในคำขอพรอมต์ได้สูงสุด

เสียง: ข้อจำกัด

แม้ว่าGeminiโมเดลสื่อหลายรูปแบบจะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบหลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้

  • การจดจำเสียงที่ไม่ใช่คำพูด: รุ่นที่รองรับเสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
  • การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้างการประทับเวลาสำหรับไฟล์ที่เป็นเสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์ audio_timestamp ใน generation_config



เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

เอกสาร: ข้อกำหนด

ในส่วนนี้ คุณจะดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับเอกสาร (เช่น PDF)

ประเภท MIME ที่รองรับ

Gemini โมเดลมัลติโมดัลรองรับประเภท MIME ของเอกสารต่อไปนี้

ประเภท MIME ของเอกสาร Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PDF - application/pdf
ข้อความ - text/plain

จำนวนที่จำกัดต่อคำขอ

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นหน้าเดียวของ PDF จะถือว่าเป็นรูปภาพ 1 รูป จำนวนหน้าในพรอมต์จะจำกัดตามจำนวนรูปภาพที่โมเดลรองรับ ดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite:
    • ไฟล์สูงสุดต่อคำขอ: 3,000 ไฟล์
    • หน้าสูงสุดต่อไฟล์: 1,000 หน้า
    • ขนาดสูงสุดต่อไฟล์: 50 MB

เอกสาร: การแปลงข้อมูลเป็นโทเค็น

การแปลงข้อมูลบัตรเป็นโทเค็น PDF

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นระบบจะแบ่งแต่ละหน้าของ PDF เป็นโทเค็นในลักษณะเดียวกับรูปภาพ

นอกจากนี้ ค่าใช้จ่ายสำหรับ PDF จะเป็นไปตามราคารูปภาพ Gemini ตัวอย่างเช่น หากคุณรวม PDF 2 หน้าในการเรียกใช้ Gemini API คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป

เอกสาร: แนวทางปฏิบัติแนะนำ

เมื่อใช้ไฟล์ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

  • หากพรอมต์มี PDF ไฟล์เดียว ให้วาง PDF ไว้ก่อนพรอมต์ข้อความในคำขอ
  • หากคุณมีเอกสารที่ยาว ให้ลองแบ่งออกเป็น PDF หลายไฟล์เพื่อประมวลผล
  • ใช้ PDF ที่สร้างขึ้นด้วยข้อความที่แสดงผลเป็นข้อความแทนการใช้ข้อความในรูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความจะอ่านได้ด้วยเครื่องเพื่อให้โมเดลแก้ไข ค้นหา และปรับเปลี่ยนได้ง่ายขึ้นเมื่อเทียบกับ PDF รูปภาพที่สแกน แนวทางปฏิบัตินี้ให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับเอกสารที่มีข้อความมาก เช่น สัญญา

เอกสาร: ข้อจำกัด

แม้ว่าGeminiโมเดลสื่อหลายรูปแบบจะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบหลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้

  • การหาเหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการค้นหาข้อความหรือวัตถุใน PDF โดยอาจแสดงเฉพาะจํานวนวัตถุโดยประมาณ
  • ความแม่นยำ: โมเดลอาจตีความข้อความที่เขียนด้วยมือในเอกสาร PDF ผิด