เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Firebase AI Logic SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบมัลติโมดอล เช่น รูปภาพ วิดีโอ และเสียง รวมถึงเอกสาร (เช่น PDF)
คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอแบบมัลติโมดัลเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ
หน้านี้เกี่ยวข้องกับการใช้ GenerativeModel
โดยเฉพาะ และอธิบายสิ่งต่อไปนี้
รายละเอียดเกี่ยวกับประเภท MIME ที่รองรับ แนวทางปฏิบัติแนะนำ และข้อจำกัดสำหรับ อินพุตไฟล์ต่อไปนี้
รูปภาพ | วิดีโอ | เสียง | เอกสาร (เช่น PDF)
ตัวเลือกในการระบุไฟล์ในคำขอแบบมัลติโมดัล
เลือกผู้ให้บริการ Gemini API เพื่อดูเนื้อหาเฉพาะของผู้ให้บริการในหน้านี้ |
ในคำขอแบบมัลติโมดัลแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ
mimeType
ของไฟล์ ดูประเภท MIME ที่รองรับของไฟล์อินพุตแต่ละไฟล์ในส่วนที่เกี่ยวข้องของหน้านี้ไฟล์ คุณจะ ระบุไฟล์เป็นข้อมูลแบบอินไลน์หรือ ระบุไฟล์โดยใช้ URL ของไฟล์ก็ได้
ขนาดและจำนวนไฟล์ที่คุณระบุในคำขอจะขึ้นอยู่กับ ประเภทไฟล์อินพุต วิธีระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดได้ที่ส่วนของประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)
ตัวเลือกที่ 1: ระบุไฟล์เป็นข้อมูลแบบอินไลน์
โปรดทราบข้อมูลต่อไปนี้เกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลแบบอินไลน์
ส่งได้เฉพาะไฟล์ขนาดเล็กเป็นข้อมูลแบบอินไลน์เท่านั้น เนื่องจากขนาดคำขอทั้งหมด สูงสุดคือ 20 MB
ระบบจะเข้ารหัสไฟล์เป็น base64 ในระหว่างการส่ง (ซึ่งจะเพิ่มขนาดไฟล์)
ดูตัวอย่างที่แสดงวิธีรวมไฟล์เป็นข้อมูลแบบอินไลน์ได้ที่สร้างข้อความจากอินพุตข้อความและไฟล์ (มัลติโมดัล) โปรดทราบว่า SDK สำหรับแพลตฟอร์ม Android และ Apple สามารถจัดการรูปภาพในบรรทัดในคำขอได้โดยไม่ต้องระบุประเภท MIME ดูข้อมูลเพิ่มเติม
ตัวเลือกที่ 2: ระบุไฟล์โดยใช้ URL
ประเภท URL ที่ยอมรับเมื่อใช้ Gemini Developer API มีดังนี้
URL ของวิดีโอ YouTube: วิดีโอ YouTube ต้องเป็นสาธารณะหรือแบบไม่เป็นสาธารณะ
คุณระบุ URL ของวิดีโอ YouTube ได้ 1 รายการต่อคำขอ
รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
รูปภาพ: ข้อกำหนด
ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับรูปภาพ
ประเภท MIME ที่รองรับ
Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของรูปภาพต่อไปนี้
ประเภท MIME ของรูปภาพ | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG - image/png |
||
JPEG - image/jpeg |
||
WebP - image/webp |
จำนวนที่จำกัดต่อคำขอ
ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพที่ใหญ่กว่าและเพิ่มพื้นที่ว่างเพื่อให้มีความละเอียดสูงสุด 3072 x 3072 โดยคงสัดส่วนภาพเดิมไว้
จำนวนไฟล์รูปภาพสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้
- Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: 3,000 รูปภาพ
รูปภาพ: การแปลงข้อมูลเป็นโทเค็น
วิธีการคำนวณโทเค็นสำหรับรูปภาพมีดังนี้
- Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite
- หากทั้ง 2 ด้านของรูปภาพมีขนาดไม่เกิน 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
- หากรูปภาพมีด้านใดด้านหนึ่งยาวกว่า 384 พิกเซล ระบบจะครอบตัดรูปภาพเป็นไทล์ ขนาดไทล์แต่ละรายการจะตั้งค่าเริ่มต้นเป็นขนาดที่เล็กที่สุด (ความกว้างหรือความสูง) หารด้วย 1.5 หากจำเป็น ระบบจะปรับแต่ละไทล์ให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นระบบจะปรับขนาดแต่ละไทล์เป็น 768x768 และใช้โทเค็น 258 รายการ
รูปภาพ: แนวทางปฏิบัติแนะนำ
เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อ ให้ผลลัพธ์ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
- หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพก่อนพรอมต์ข้อความในคำขอ
- หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงถึงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือต้องการให้โมเดลอ้างอิงถึงรูปภาพเหล่านั้นในคำตอบของโมเดล การกำหนดดัชนีให้กับแต่ละรูปภาพก่อนรูปภาพจะช่วยได้ ใช้
หรือa
b
c
สำหรับดัชนี ตัวอย่างการใช้รูปภาพที่จัดทำดัชนีในพรอมต์มีดังนี้image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีกว่า
- ใส่ตัวอย่าง 2-3 รายการในพรอมต์
- หมุนรูปภาพให้เป็นแนวที่ถูกต้องก่อนเพิ่มลงในพรอมต์
- หลีกเลี่ยงรูปภาพที่เบลอ
รูปภาพ: ข้อจำกัด
แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล
- การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถาม ในรูปภาพที่ละเมิดนโยบายด้านความปลอดภัยของเรา
- การใช้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ในรูปภาพ โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
- การใช้งานทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความ รูปภาพทางการแพทย์ (เช่น เอ็กซ์เรย์และซีทีสแกน) หรือการให้คำแนะนำทางการแพทย์
- การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อใช้ ระบุตัวบุคคลที่ไม่ใช่คนดังในรูปภาพ
- ความแม่นยำ: โมเดลอาจสร้างข้อมูลที่ไม่เป็นความจริงหรือทำผิดพลาด เมื่อตีความรูปภาพที่มีคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นอกจากนี้ โมเดลยังอาจสร้างข้อมูลที่ไม่ถูกต้องขึ้นมาเองเมื่อตีความข้อความที่เขียนด้วยลายมือในเอกสารรูปภาพ
วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
วิดีโอ: ข้อกำหนด
ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับวิดีโอ
ประเภท MIME ที่รองรับ
Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของวิดีโอต่อไปนี้
ประเภท MIME ของวิดีโอ | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV - video/x-flv |
||
MOV - video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS - video/mpegps |
||
MPG - video/mpg |
||
MP4 - video/mp4 |
||
WEBM - video/webm |
||
WMV - video/wmv |
||
3GPP - video/3gpp |
จำนวนที่จำกัดต่อคำขอ
จำนวนไฟล์วิดีโอสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้
- Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: ไฟล์วิดีโอ 10 รายการ
วิดีโอ: การแปลงข้อมูลเป็นโทเค็น
วิธีการคำนวณโทเค็นสำหรับวิดีโอมีดังนี้
-
Gemini 2.5 Pro,
Gemini 2.0 Flash และ
Gemini 2.0 Flash‑Lite: แทร็กเสียงจะ
เข้ารหัสพร้อมกับเฟรมวิดีโอ นอกจากนี้ แทร็กเสียงยังแบ่งออกเป็น
ช่วงละ 1 วินาที ซึ่งแต่ละช่วงมีโทเค็น 32 รายการ เฟรมวิดีโอ และโทเค็นเสียงจะสลับกันพร้อมกับการประทับเวลา การประทับเวลา จะแสดงเป็น 5 โทเค็น - โมเดลมัลติโมดัลทั้งหมดของ Gemini: ระบบจะสุ่มตัวอย่างวิดีโอที่
1 เฟรมต่อวินาที (fps) เฟรมวิดีโอแต่ละเฟรมจะใช้โทเค็น 258 รายการ
วิดีโอ: แนวทางปฏิบัติแนะนำ
เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มีวิดีโอรายการเดียว ให้วางวิดีโอก่อนพรอมต์ข้อความ
- หากต้องการการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ขอโมเดล
สร้างการประทับเวลาในรูปแบบ
MM:SS
โดยที่ตัวเลข 2 ตัวแรก แสดงถึงนาที และตัวเลข 2 ตัวสุดท้ายแสดงถึงวินาที ใช้รูปแบบเดียวกันสำหรับคำถามที่ถามเกี่ยวกับการประทับเวลา
วิดีโอ: ข้อจำกัด
แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล
- การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถาม ในวิดีโอที่ละเมิดนโยบายด้านความปลอดภัยของเรา
- การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
- การเคลื่อนไหวความเร็วสูง: โมเดลอาจเข้าใจการเคลื่อนไหวความเร็วสูงในวิดีโอผิดพลาดเนื่องจากอัตราการสุ่มตัวอย่างที่
1 เฟรมต่อวินาที (FPS)
เสียง: ข้อกำหนดและข้อจำกัด
เสียง: ข้อกำหนด
ในส่วนนี้ คุณจะได้ทราบเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เสียง
ประเภท MIME ที่รองรับ
Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของเสียงต่อไปนี้
ประเภท MIME ของเสียง | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
จำนวนที่จำกัดต่อคำขอ
คุณใส่
เสียง: ข้อจำกัด
แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล
- การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
- การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้างการประทับเวลาสำหรับไฟล์เสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์
audio_timestamp
ในgeneration_config
เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
เอกสาร: ข้อกำหนด
ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เอกสาร (เช่น PDF)
ประเภท MIME ที่รองรับ
Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของเอกสารต่อไปนี้
ประเภท MIME ของเอกสาร | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PDF - application/pdf |
||
ข้อความ - text/plain |
จำนวนที่จำกัดต่อคำขอ
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้น PDF 1 หน้าจึงถือเป็นรูปภาพ 1 รูป จำนวนหน้าที่อนุญาตในพรอมต์จะจำกัดตามจำนวนรูปภาพที่โมเดลรองรับได้ ดังนี้
- Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite
- ไฟล์สูงสุดต่อคำขอ: 3,000 ไฟล์
- จำนวนหน้าสูงสุดต่อไฟล์: 1,000
- ขนาดสูงสุดต่อไฟล์: 50 MB
เอกสาร: การแปลงข้อมูลเป็นโทเค็น
การแปลง PDF เป็นโทเค็น
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นแต่ละหน้าของ PDF จะได้รับการแปลงเป็นโทเค็นในลักษณะเดียวกับรูปภาพ
นอกจากนี้ ค่าใช้จ่ายสำหรับไฟล์ PDF จะเป็นไปตามGeminiราคาของรูปภาพ ตัวอย่างเช่น หากคุณรวม PDF 2 หน้าในการเรียกใช้ Gemini API คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป
เอกสาร: แนวทางปฏิบัติแนะนำ
เมื่อใช้ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มี PDF เพียงไฟล์เดียว ให้วาง PDF ไว้ก่อนข้อความ พรอมต์ในคำขอ
- หากมีเอกสารขนาดยาว ให้ลองแบ่งเอกสารออกเป็น PDF หลายไฟล์ เพื่อประมวลผล
- ใช้ PDF ที่สร้างขึ้นโดยแสดงข้อความเป็นข้อความแทนการใช้ข้อความใน รูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความจะอ่านได้ด้วยเครื่อง เพื่อให้โมเดล แก้ไข ค้นหา และจัดการได้ง่ายกว่าไฟล์ PDF ที่เป็นรูปภาพซึ่งสแกนมา แนวทางปฏิบัตินี้จะให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับเอกสารที่มีข้อความจำนวนมาก เช่น สัญญา
เอกสาร: ข้อจำกัด
แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล
- การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ใน PDF โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
- ความแม่นยำ: โมเดลอาจสร้างข้อมูลที่ไม่เป็นความจริงเมื่อตีความ ข้อความที่เขียนด้วยลายมือในเอกสาร PDF