মডেলের মিথুন পরিবারকে মাল্টিমোডাল হিসাবে বিবেচনা করা হয় কারণ তারা ছবি, ভিডিও এবং পাঠ্য সহ একাধিক পদ্ধতি থেকে তথ্য প্রক্রিয়াকরণ করতে সক্ষম। উদাহরণস্বরূপ, আপনি একটি মিথুন মডেলের কুকিজের একটি প্লেটের একটি ফটো পাঠাতে পারেন এবং সেই কুকিগুলির জন্য আপনাকে একটি রেসিপি দিতে বলতে পারেন৷
প্রম্পট | প্রতিক্রিয়া |
Give me a recipe for these cookies. | **INGREDIENTS** |
আপনি Google Cloud Vertex AI দ্বারা প্রদত্ত Gemini API ব্যবহার করে মডেলের জেমিনি পরিবারের সাথে যোগাযোগ করতে পারেন। মোবাইল এবং ওয়েব অ্যাপের জন্য, আপনি Gemini API কল করতে Vertex AI in Firebase ব্যবহার করতে পারেন এবং আপনার অ্যাপ থেকে সরাসরি জেমিনি মডেলের সাথে ইন্টারঅ্যাক্ট করতে পারেন।
এই পৃষ্ঠাটি মিথুন মডেল সম্পর্কে নিম্নলিখিত তথ্য সরবরাহ করে:
বিভিন্ন মিথুন মডেলের ব্যবহারের ক্ষেত্রে উচ্চ-স্তরের তুলনা, তাদের সমর্থিত ইনপুট প্রকারগুলি সহ।
প্রতিটি মডেলের বিবরণের তুলনা, উদাহরণস্বরূপ সর্বাধিক ইনপুট টোকেন বা ভিডিওর সর্বোচ্চ দৈর্ঘ্য।
মিথুন মডেলগুলি কীভাবে সংস্করণ করা হয় তার বিবরণ, বিশেষত তাদের স্থিতিশীল , স্বয়ংক্রিয় আপডেট হওয়া এবং পূর্বরূপ সংস্করণ।
আরম্ভ করার সময় আপনার কোডে অন্তর্ভুক্ত করার জন্য উপলব্ধ মডেল নামের তালিকা।
মিথুন মডেলের জন্য সমর্থিত ভাষার তালিকা।
উপলব্ধ মডেল
আপনি Vertex AI in Firebase সাথে নিম্নলিখিত যেকোনও জেমিনি মডেল ব্যবহার করতে পারেন:
মিথুন 1.5 ফ্ল্যাশ
মাল্টিমোডাল মডেল যা 1.5 প্রো হিসাবে একই ধরনের ইনপুট এবং আউটপুট সমর্থন করে, কিন্তু 1 মিলিয়ন টোকেনের দীর্ঘ-প্রসঙ্গ বোঝার সাথে। জেমিনি 1.5 ফ্ল্যাশ বিশেষভাবে উচ্চ-ভলিউম, খরচ-কার্যকর অ্যাপ্লিকেশনের জন্য ডিজাইন করা হয়েছে।মিথুন 1.5 প্রো
মাল্টিমোডাল মডেল যা পাঠ্য বা কোড প্রতিক্রিয়ার জন্য পাঠ্য বা চ্যাট প্রম্পটে চিত্র, অডিও, ভিডিও এবং পিডিএফ ফাইল যোগ করা সমর্থন করে। এছাড়াও, এটি 2 মিলিয়ন টোকেন সহ দীর্ঘ-প্রসঙ্গ বোঝার সমর্থন করে।জেমিনি 1.0 প্রো ভিশন
একটি টেক্সট বা কোড প্রতিক্রিয়ার জন্য টেক্সট প্লাস ইমেজ এবং ভিডিও পরিচালনা করার জন্য ডিজাইন করা মাল্টিমোডাল মডেল। চ্যাটের জন্য ব্যবহার করা যাবে না।জেমিনি 1.0 প্রো
ন্যাচারাল ল্যাঙ্গুয়েজ টাস্ক, টেক্সট এবং কোডের সাথে মাল্টিটার্ন চ্যাট এবং কোড জেনারেশনের জন্য ডিজাইন করা হয়েছে।
আপনার কোডে অন্তর্ভুক্ত করতে মডেলের নামগুলিতে যান
প্রতিটি মডেলের জন্য কেস এবং ক্ষমতা ব্যবহার করুন
প্রতিটি মিথুন মডেলের বিভিন্ন ব্যবহারের ক্ষেত্রে সমর্থন করার জন্য বিভিন্ন ক্ষমতা রয়েছে। আপনি প্রতিটি মিথুন মডেল সম্পর্কে Google Cloud ডকুমেন্টেশনে আরও জানতে পারেন।
প্রতিটি মডেলের জন্য সমর্থিত ইনপুট এবং আউটপুট
মিথুন 1.5 ফ্ল্যাশ | মিথুন 1.5 প্রো | জেমিনি 1.0 প্রো ভিশন | জেমিনি 1.0 প্রো | |
---|---|---|---|---|
ইনপুট প্রকার | ||||
পাঠ্য | ||||
কোড | ||||
ছবি | ||||
ভিডিও (শুধুমাত্র ফ্রেম) | ||||
ভিডিও (ফ্রেম এবং অডিও) | ||||
অডিও | ||||
আউটপুট প্রকার | ||||
পাঠ্য | ||||
রেসপন্স স্কিমা ব্যবহার করে স্ট্রাকচার্ড আউটপুট (যেমন JSON) | ||||
কোড |
সমর্থিত ফাইলের ধরন সম্পর্কে জানতে, Vertex AI Gemini API জন্য সমর্থিত ইনপুট ফাইল এবং প্রয়োজনীয়তাগুলি দেখুন।
প্রতিটি মডেলের জন্য সমর্থিত ক্ষমতা এবং সাধারণ বৈশিষ্ট্য
মিথুন 1.5 ফ্ল্যাশ | মিথুন 1.5 প্রো | জেমিনি 1.0 প্রো ভিশন | জেমিনি 1.0 প্রো | ||
---|---|---|---|---|---|
শুধুমাত্র পাঠ্য ইনপুট থেকে পাঠ্য প্রজন্ম | |||||
মাল্টিমডাল ইনপুট থেকে পাঠ্য প্রজন্ম | |||||
রেসপন্স স্কিমা ব্যবহার করে স্ট্রাকচার্ড আউটপুট (যেমন JSON) | |||||
বহু পালা চ্যাট | |||||
ফাংশন কলিং | |||||
বেসিক ফাংশন কলিং | |||||
সমান্তরাল ফাংশন কলিং | |||||
ফাংশন কলিং মোড | |||||
টোকেন এবং বিলযোগ্য অক্ষর গণনা করুন | |||||
সিস্টেম নির্দেশাবলী |
প্রতিটি মডেল সম্পর্কে বিস্তারিত তথ্য
সম্পত্তি | মিথুন 1.5 ফ্ল্যাশ | মিথুন 1.5 প্রো | জেমিনি 1.0 প্রো ভিশন | জেমিনি 1.0 প্রো |
---|---|---|---|---|
মোট টোকেন সীমা (একত্রিত ইনপুট এবং আউটপুট) * | 1,048,576 টোকেন | 2,097,152 টোকেন | 16,384 টোকেন | 32,760 টোকেন |
আউটপুট টোকেন সীমা * | 8,192 টোকেন | 8,192 টোকেন | 2,048 টোকেন | 8,192 টোকেন |
অনুরোধ প্রতি ছবির সর্বোচ্চ সংখ্যা | 3,000 ছবি | 3,000 ছবি | 16টি ছবি | N/A |
সর্বাধিক বেস64 এনকোড করা চিত্রের আকার | 7 এমবি | 7 এমবি | 7 এমবি | N/A |
সর্বোচ্চ পিডিএফ আকার | 30 এমবি | 30 এমবি | 30 এমবি | N/A |
অনুরোধ প্রতি ভিডিও ফাইল সর্বোচ্চ সংখ্যা | 10টি ভিডিও ফাইল | 10টি ভিডিও ফাইল | 1টি ভিডিও ফাইল | N/A |
ভিডিওর সর্বোচ্চ দৈর্ঘ্য (শুধুমাত্র ফ্রেম) | ~60 মিনিটের ভিডিও | ~60 মিনিটের ভিডিও | 2 মিনিট | N/A |
সর্বাধিক ভিডিও দৈর্ঘ্য (ফ্রেম এবং অডিও) | ~45 মিনিটের ভিডিও | ~45 মিনিটের ভিডিও | N/A | N/A |
অনুরোধ প্রতি অডিও ফাইল সর্বোচ্চ সংখ্যা | 1টি অডিও ফাইল | 1টি অডিও ফাইল | N/A | N/A |
সর্বাধিক অডিও দৈর্ঘ্য | ~8.4 ঘন্টার অডিও | ~8.4 ঘন্টার অডিও | N/A | N/A |
* সমস্ত মিথুন মডেলের জন্য, একটি টোকেন প্রায় 4টি অক্ষরের সমতুল্য, তাই 100টি টোকেন প্রায় 60-80টি ইংরেজি শব্দ। আপনি countTokens
ব্যবহার করে আপনার অনুরোধে টোকেনের মোট গণনা নির্ধারণ করতে পারেন।
সমর্থিত ফাইলের ধরন সম্পর্কে জানুন, কীভাবে MIME প্রকার নির্দিষ্ট করবেন এবং কীভাবে নিশ্চিত করবেন যে আপনার ফাইল এবং মাল্টিমোডাল অনুরোধগুলি প্রয়োজনীয়তাগুলি পূরণ করে এবং সমর্থিত ইনপুট ফাইলগুলিতে সেরা অনুশীলনগুলি অনুসরণ করে এবং Vertex AI Gemini API জন্য প্রয়োজনীয়তাগুলি অনুসরণ করে৷
মডেলের সংস্করণ
জেমিনি মডেলগুলি স্থিতিশীল , স্বয়ংক্রিয় আপডেট করা এবং পূর্বরূপ সংস্করণে অফার করা হয়৷
স্থিতিশীল সংস্করণগুলি সাধারণত উপলব্ধ বলে মনে করা হয়।
- স্থিতিশীল সংস্করণগুলির মডেল নামগুলি একটি নির্দিষ্ট তিন সংখ্যার সংস্করণ নম্বরের সাথে যুক্ত থাকে, উদাহরণস্বরূপ
gemini-1.5-pro-002
।
- স্থিতিশীল সংস্করণগুলির মডেল নামগুলি একটি নির্দিষ্ট তিন সংখ্যার সংস্করণ নম্বরের সাথে যুক্ত থাকে, উদাহরণস্বরূপ
স্বয়ংক্রিয় আপডেট হওয়া সংস্করণগুলি সর্বদা সেই মডেলের সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে; যদি একটি নতুন স্থিতিশীল সংস্করণ প্রকাশিত হয়, স্বয়ংক্রিয়ভাবে আপডেট হওয়া সংস্করণটি স্বয়ংক্রিয়ভাবে সেই নতুন স্থিতিশীল সংস্করণের দিকে নির্দেশ করা শুরু করে।
- স্বতঃ-আপডেট হওয়া সংস্করণের মডেলের নাম আছে যার কোনো পরিশিষ্ট নেই, উদাহরণস্বরূপ
gemini-1.5-pro
।
- স্বতঃ-আপডেট হওয়া সংস্করণের মডেলের নাম আছে যার কোনো পরিশিষ্ট নেই, উদাহরণস্বরূপ
পূর্বরূপ সংস্করণে নতুন ক্ষমতা রয়েছে এবং স্থিতিশীল নয় বলে মনে করা হয়। মনে রাখবেন যে পূর্বরূপ সংস্করণগুলি সর্বদা সেই মডেলের সর্বশেষ পূর্বরূপ সংস্করণের দিকে নির্দেশ করে; যদি একটি নতুন প্রিভিউ সংস্করণ প্রকাশ করা হয়, যে কোনো বিদ্যমান পূর্বরূপ সংস্করণ স্বয়ংক্রিয়ভাবে সেই নতুন পূর্বরূপ সংস্করণের দিকে নির্দেশ করতে শুরু করে।
- প্রিভিউ সংস্করণের সাথে মডেলের নাম যুক্ত থাকে
- মডেলের প্রাথমিক প্রকাশের তারিখ সহ -preview
(-MMDD
), উদাহরণস্বরূপgemini-1.5-pro-preview-0409
(এপ্রিল 9, 2024 এ প্রকাশিত)।
- প্রিভিউ সংস্করণের সাথে মডেলের নাম যুক্ত থাকে
Google Cloud ডকুমেন্টেশনে উপলব্ধ জেমিনি মডেল সংস্করণ এবং তাদের জীবনচক্র সম্পর্কে আরও জানুন।
উপলব্ধ মডেল নাম
মডেলের নাম হল সুস্পষ্ট মান যা আপনি জেনারেটিভ মডেল শুরু করার সময় আপনার কোডে অন্তর্ভুক্ত করেন (যা Gemini API কল করার জন্য একটি প্রয়োজনীয় পদক্ষেপ)। আপনার ভাষার জন্য প্রাথমিক উদাহরণের জন্য, শুরু করার নির্দেশিকা দেখুন।
Gemini 1.5 Flash মডেলের নাম
মডেলের নাম | বর্ণনা | মুক্তির মঞ্চ | প্রাথমিক প্রকাশের তারিখ | বন্ধের তারিখ |
---|---|---|---|---|
স্থিতিশীল সংস্করণ | ||||
gemini-1.5-flash-002 | জেমিনি 1.5 ফ্ল্যাশের সর্বশেষ স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-09-24 | 2025-09-24 এর আগে নয় |
gemini-1.5-flash-001 | জেমিনি 1.5 ফ্ল্যাশের প্রাথমিক স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-05-24 | 2025-05-24 এর আগে নয় |
স্বয়ংক্রিয় আপডেট সংস্করণ | ||||
gemini-1.5-flash | 1.5 ফ্ল্যাশের সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে৷ (বর্তমানে gemini-1.5-flash-002 ) | সাধারণ প্রাপ্যতা | 2024-09-24 | --- |
Gemini 1.5 Pro মডেলের নাম
মডেলের নাম | বর্ণনা | মুক্তির মঞ্চ | প্রাথমিক প্রকাশের তারিখ | বন্ধের তারিখ |
---|---|---|---|---|
স্থিতিশীল সংস্করণ | ||||
gemini-1.5-pro-002 | জেমিনি 1.5 প্রো এর সর্বশেষ স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-09-24 | 2025-09-24 এর আগে নয় |
gemini-1.5-pro-001 | জেমিনি 1.5 প্রো-এর প্রাথমিক স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-05-24 | 2025-05-24 এর আগে নয় |
স্বয়ংক্রিয় আপডেট সংস্করণ | ||||
gemini-1.5-pro | 1.5 প্রো এর সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে (বর্তমানে gemini-1.5-pro-002 ) | সাধারণ প্রাপ্যতা | 2024-09-24 | --- |
জেমিনি 1.0 প্রো ভিশন মডেলের নাম
মডেলের নাম | বর্ণনা | মুক্তির মঞ্চ | প্রাথমিক প্রকাশের তারিখ | বন্ধের তারিখ |
---|---|---|---|---|
স্থিতিশীল সংস্করণ | ||||
gemini-1.0-pro-vision-001 | জেমিনি 1.0 প্রো ভিশনের সর্বশেষ স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-02-15 | 2025-02-15 এর আগে নয় |
স্বয়ংক্রিয় আপডেট সংস্করণ | ||||
gemini-1.0-pro-vision | 1.5 প্রো ভিশনের সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে (বর্তমানে gemini-1.5-pro-vision-001 ) | সাধারণ প্রাপ্যতা | 2024-01-04 | --- |
Gemini 1.0 Pro মডেলের নাম
মডেলের নাম | বর্ণনা | মুক্তির মঞ্চ | প্রাথমিক প্রকাশের তারিখ | বন্ধের তারিখ |
---|---|---|---|---|
স্থিতিশীল সংস্করণ | ||||
gemini-1.0-pro-002 | Gemini 1.0 Pro এর সর্বশেষ স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-04-09 | 2025-04-09 এর আগে নয় |
gemini-1.0-pro-001 | Gemini 1.0 Pro এর স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-02-15 | 2025-02-15 এর আগে নয় |
স্বয়ংক্রিয় আপডেট সংস্করণ | ||||
gemini-1.0-pro | 1.0 প্রো এর সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে৷ (বর্তমানে gemini-1.0-pro-002 ) | সাধারণ প্রাপ্যতা | 2024-02-15 | --- |
সমর্থিত ভাষা
সমস্ত মিথুন মডেল নিম্নলিখিত ভাষায় বুঝতে এবং প্রতিক্রিয়া জানাতে পারে:
আরবি (আরবি), বাংলা (বিএন), বুলগেরিয়ান (বিজি), চাইনিজ সরলীকৃত এবং ঐতিহ্যবাহী (zh), ক্রোয়েশিয়ান (hr), চেক (cs), ডেনিশ (da), ডাচ (nl), ইংরেজি (en), এস্তোনিয়ান ( et), ফিনিশ (fi), ফ্রেঞ্চ (fr), জার্মান (de), গ্রীক (el), হিব্রু (iw), হিন্দি (hi), হাঙ্গেরিয়ান (hu), ইন্দোনেশিয়ান (id), ইতালীয় (it), জাপানি ( ja), কোরিয়ান (ko), লাটভিয়ান (lv), লিথুয়ানিয়ান (lt), নরওয়েজিয়ান (no), পোলিশ (pl), পর্তুগিজ (pt), রোমানিয়ান (ro), রাশিয়ান (ru), সার্বিয়ান (sr), স্লোভাক (sk), স্লোভেনিয়ান (sl), স্প্যানিশ (es), সোয়াহিলি (sw), সুইডিশ (sv), থাই (th), তুর্কি (tr), ইউক্রেনীয় (uk), ভিয়েতনামী (vi)
জেমিনি 1.5 প্রো এবং জেমিনি 1.5 ফ্ল্যাশ মডেলগুলি নিম্নলিখিত অতিরিক্ত ভাষায় বুঝতে এবং প্রতিক্রিয়া জানাতে পারে:
Afrikaans (af), আমহারিক (am), অসমীয়া (as), আজারবাইজানীয় (az), বেলারুশিয়ান (be), বসনিয়ান (bs), কাতালান (ca), Cebuano (ceb), Corsican (co), ওয়েলশ (cy), দিভেহি (ডিভি), এস্পেরান্তো (ইও), বাস্ক (ইউ), ফার্সি (ফা), ফিলিপিনো (তাগালগ) (ফিল), ফ্রিসিয়ান (ফাই), আইরিশ (গা), স্কটস গ্যালিক (gd), গ্যালিসিয়ান (gl), গুজরাটি (gu), হাউসা (ha), হাওয়াইয়ান (haw), Hmong (hmn), হাইতিয়ান ক্রেওল (ht), আর্মেনিয়ান (hy), Igbo (ig), আইসল্যান্ডিক (is), জাভানিজ (jv), জর্জিয়ান (ka), কাজাখ (kk), খেমার (কিমি), কন্নড় (kn), Krio (kri), কুর্দি (ku), কিরগিজ (ky), ল্যাটিন (la), লুক্সেমবার্গিশ (lb), লাও (lo), মালাগাসি (mg), মাওরি (mi), ম্যাসেডোনিয়ান (mk), মালায়ালাম (ml), মঙ্গোলিয়ান (mn), Meiteilon (মণিপুরি) (mni-Mtei), মারাঠি (mr), মালয় (ms), মাল্টিজ (mt), মায়ানমার (বর্মী) (আমার), নেপালি (ne), নানজা (চিচেওয়া) (ny), ওড়িয়া (ওড়িয়া) (বা), পাঞ্জাবি (পা), পশতু (পিএস), সিন্ধি (এসডি), সিংহলা (সিংহলি) (সি), সামোয়ান (এসএম), শোনা (এসএন), সোমালি (সো), আলবেনিয়ান (বর্গ) , সেসোথো (st), সুন্দানি (su), তামিল (ta), তেলেগু (te), তাজিক (tg), উইঘুর (ug), উর্দু (ur), উজবেক (uz), Xhosa (xh), ইদ্দিশ (yi), ইওরুবা (yo), জুলু (zu)
পরবর্তী পদক্ষেপ
Gemini API এর ক্ষমতা ব্যবহার করে দেখুন
- মাল্টি-টার্ন কথোপকথন তৈরি করুন (চ্যাট) ।
- শুধুমাত্র পাঠ্য প্রম্পট থেকে পাঠ্য তৈরি করুন।
- মাল্টিমোডাল প্রম্পট থেকে পাঠ্য তৈরি করুন (পাঠ্য, চিত্র, পিডিএফ, ভিডিও এবং অডিও সহ)।
- টেক্সট এবং মাল্টিমোডাল প্রম্পট উভয় থেকে কাঠামোগত আউটপুট (যেমন JSON) তৈরি করুন।
- বাহ্যিক সিস্টেম এবং তথ্যের সাথে জেনারেটিভ মডেল সংযোগ করতে ফাংশন কলিং ব্যবহার করুন।