Vertex AI Gemini API-এর জন্য সমর্থিত ইনপুট ফাইল এবং প্রয়োজনীয়তা, Vertex AI Gemini API-এর জন্য সমর্থিত ইনপুট ফাইল এবং প্রয়োজনীয়তা

Firebase SDK-তে Vertex AI ব্যবহার করে আপনার অ্যাপ থেকে Vertex AI Gemini API-কে কল করার সময়, আপনি একটি মাল্টিমডাল ইনপুটের উপর ভিত্তি করে টেক্সট তৈরি করতে জেমিনি মডেলকে প্রম্পট করতে পারেন। মাল্টিমোডাল প্রম্পটে একাধিক পদ্ধতি (বা ইনপুটের প্রকার) অন্তর্ভুক্ত থাকতে পারে, যেমন চিত্র, পিডিএফ, ভিডিও এবং অডিও সহ পাঠ্য।

ইনপুটের নন-টেক্সট অংশগুলির জন্য (যেমন মিডিয়া ফাইল), আপনাকে সমর্থিত ফাইল প্রকারগুলি ব্যবহার করতে হবে, একটি সমর্থিত MIME প্রকার নির্দিষ্ট করতে হবে এবং নিশ্চিত করুন যে আপনার ফাইল এবং মাল্টিমোডাল অনুরোধগুলি প্রয়োজনীয়তাগুলি পূরণ করে এবং সর্বোত্তম অনুশীলনগুলি অনুসরণ করে৷

এই পৃষ্ঠাটি নিম্নলিখিত বর্ণনা করে:

মাল্টিমোডাল অনুরোধে ফাইল প্রদানের বিকল্প

প্রতিটি মাল্টিমোডাল অনুরোধে, আপনাকে সর্বদা নিম্নলিখিতগুলি প্রদান করতে হবে:

অনুরোধে আপনি যে ফাইলগুলি প্রদান করতে পারেন তার আকার এবং সংখ্যা ইনপুট ফাইলের প্রকার, আপনি কীভাবে ফাইলটি প্রদান করেন এবং ব্যবহৃত মডেল দ্বারা নির্দেশিত হয় (বিশদ বিবরণের জন্য, এই পৃষ্ঠায় প্রতিটি ইনপুট ফাইল প্রকারের বিভাগ দেখুন)।

বিকল্প 1 : একটি URL বা URI ব্যবহার করে ফাইলটি প্রদান করুন৷

এখানে ইউআরএল বা ইউআরআই-এর গ্রহণযোগ্য ধরন রয়েছে:

  • Cloud Storage for Firebase : ফাইলের URL অবশ্যই সর্বজনীন হতে হবে বা সাইন ইন করা ব্যবহারকারী বা ক্লায়েন্টের ফাইলটিতে পর্যাপ্ত অ্যাক্সেস থাকতে হবে। Cloud Storage for Firebase সুবিধা , URL এর প্রয়োজনীয়তা এবং কোড নমুনার জন্য ক্লাউড স্টোরেজ সম্পর্কে আরও জানুন।

  • Google Cloud Storage বাকেট URL : ফাইলের URL অবশ্যই সর্বজনীন হতে হবে। এছাড়াও, Firebase-এ Vertex AI এর সাথে আপনি যেটি ব্যবহার করছেন তার থেকে যদি বালতিটি অন্য কোনো প্রজেক্টে থাকে, তাহলে URL-এর জন্য https://storage.googleapis.com/ BUCKET_NAME/PATH/TO/FILE ফর্ম্যাটটি ব্যবহার করুন৷

  • ব্রাউজার/HTTP URL : ফাইল URL অবশ্যই সর্বজনীনভাবে পাঠযোগ্য হতে হবে। উদাহরণগুলির মধ্যে রয়েছে মিডিয়া-হোস্টিং সাইটের URL, সরাসরি মিডিয়া দেখায় এমন URL (মিডিয়া হোস্ট করে এমন কোনো ওয়েব পৃষ্ঠা নয়), অথবা প্রকাশিত Google Drive বা Google Workspace ফাইল।

  • YouTube ভিডিও URL : YouTube ভিডিওটি অবশ্যই সর্বজনীন বা তালিকাবিহীন হতে হবে।

Google Cloud ডকুমেন্টেশনে URL এবং URI-এর প্রয়োজনীয়তা সম্পর্কে আরও জানুন।

বিকল্প 2 : ফাইলটিকে ইনলাইন ডেটা হিসাবে প্রদান করুন

ইনলাইন ডেটা হিসাবে প্রদত্ত ফাইল সম্পর্কে নিম্নলিখিত নোট করুন:

  • শুধুমাত্র ছোট ফাইলগুলি ইনলাইন ডেটা হিসাবে পাঠানো যেতে পারে কারণ মোট অনুরোধের আকার সীমা 20 এমবি।

  • ফাইলটি ট্রানজিটে base64 এ এনকোড করা হয়েছে (যা ফাইলের আকার বাড়ায়)।

ইনলাইন ডেটা হিসাবে ফাইলগুলিকে কীভাবে অন্তর্ভুক্ত করতে হয় তা দেখানোর উদাহরণগুলির জন্য, Gemini API ব্যবহার করে মাল্টিমোডাল প্রম্পট থেকে পাঠ্য তৈরি করুন দেখুন।



ছবি : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ছবি: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকারগুলি এবং চিত্রগুলির জন্য অনুরোধের সীমা সম্পর্কে জানুন৷

সমর্থিত MIME প্রকার

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত MIME প্রকারগুলিকে সমর্থন করে:

ছবি MIME প্রকার Gemini 2.0 Flash Gemini 2.0 Flash-Lite
PNG - image/png
JPEG - image/jpeg
ওয়েবপি - image/webp

অনুরোধ প্রতি সীমা

একটি ছবিতে পিক্সেল সংখ্যার একটি নির্দিষ্ট সীমা নেই। যাইহোক, বৃহত্তর চিত্রগুলিকে তাদের আসল আকৃতির অনুপাত সংরক্ষণ করার সময় সর্বাধিক 3072 x 3072 রেজোলিউশনে ফিট করার জন্য ছোট করে এবং প্যাড করা হয়।

এখানে একটি প্রম্পট অনুরোধে অনুমোদিত সর্বাধিক সংখ্যক চিত্র ফাইল রয়েছে:

  • জেমিনি 2.0 ফ্ল্যাশ এবং জেমিনি 2.0 ফ্ল্যাশ-লাইট : 3000 ছবি

ছবি: টোকেনাইজেশন

চিত্রের জন্য টোকেনগুলি কীভাবে গণনা করা হয় তা এখানে:

  • Gemini 2.0 Flash এবং Gemini 2.0 Flash-Lite :
    • যদি একটি চিত্রের উভয় মাত্রা 384 পিক্সেলের কম বা সমান হয়, তাহলে 258 টোকেন ব্যবহার করা হয়।
    • যদি একটি চিত্রের একটি মাত্রা 384 পিক্সেলের বেশি হয়, তাহলে ছবিটি টাইলগুলিতে কাটা হয়। প্রতিটি টাইলের আকার 1.5 দ্বারা বিভক্ত ক্ষুদ্রতম মাত্রা (প্রস্থ বা উচ্চতা) ডিফল্ট। প্রয়োজনে, প্রতিটি টাইল সামঞ্জস্য করা হয় যাতে এটি 256 পিক্সেলের চেয়ে ছোট না হয় এবং 768 পিক্সেলের বেশি না হয়। প্রতিটি টাইলের আকার পরিবর্তন করে 768x768 করা হয় এবং 258 টোকেন ব্যবহার করা হয়।

ছবি: সেরা অনুশীলন

ছবি ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

  • আপনি যদি একটি ছবিতে টেক্সট সনাক্ত করতে চান, তাহলে একাধিক ছবি সহ প্রম্পটের চেয়ে ভাল ফলাফল তৈরি করতে একটি একক চিত্র সহ প্রম্পট ব্যবহার করুন৷
  • যদি আপনার প্রম্পটে একটি একক ছবি থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে ছবিটি রাখুন।
  • যদি আপনার প্রম্পটে একাধিক ছবি থাকে, এবং আপনি পরবর্তীতে আপনার প্রম্পটে সেগুলি উল্লেখ করতে চান বা মডেলটিকে মডেল প্রতিক্রিয়ায় সেগুলি উল্লেখ করতে চান, তাহলে এটি প্রতিটি চিত্রকে ছবির আগে একটি সূচক দিতে সাহায্য করতে পারে৷ ব্যবহার করুন a b c বা আপনার সূচকের জন্য image 1 image 2 image 3 । নিম্নলিখিত একটি প্রম্পটে সূচীকৃত ছবি ব্যবহার করার একটি উদাহরণ:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • উচ্চ রেজোলিউশন সহ ছবি ব্যবহার করুন; তারা আরও ভাল ফলাফল দেয়।
  • প্রম্পটে কয়েকটি উদাহরণ অন্তর্ভুক্ত করুন।
  • ছবিগুলিকে প্রম্পটে যুক্ত করার আগে তাদের সঠিক অভিযোজনে ঘোরান৷
  • ঝাপসা ছবি এড়িয়ে চলুন।

ছবি: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • বিষয়বস্তু নিয়ন্ত্রণ : মডেলগুলি আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন চিত্রগুলির উত্তর দিতে অস্বীকার করে৷
  • স্থানিক যুক্তি : মডেলগুলি চিত্রগুলিতে পাঠ্য বা বস্তুগুলি সনাক্ত করার ক্ষেত্রে সুনির্দিষ্ট নয়। তারা শুধুমাত্র বস্তুর আনুমানিক সংখ্যা ফেরত দিতে পারে।
  • মেডিকেল ব্যবহার : মডেলগুলি মেডিকেল ইমেজ ব্যাখ্যা করার জন্য উপযুক্ত নয় (উদাহরণস্বরূপ, এক্স-রে এবং সিটি স্ক্যান) বা চিকিৎসা পরামর্শ প্রদানের জন্য।
  • লোকের স্বীকৃতি : মডেলগুলি এমন নয় যে ব্যক্তিদের চিহ্নিত করতে ব্যবহার করা হবে যারা ছবিতে সেলিব্রিটি নন৷
  • নির্ভুলতা : নিম্ন-মানের, ঘোরানো, বা অত্যন্ত নিম্ন-রেজোলিউশনের চিত্রগুলি ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট বা ভুল করতে পারে। চিত্র নথিতে হাতে লেখা পাঠ্য ব্যাখ্যা করার সময় মডেলগুলিও হ্যালুসিনেট হতে পারে।



ভিডিও : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ভিডিও: প্রয়োজনীয়তা

এই বিভাগে, ভিডিওর জন্য সমর্থিত MIME প্রকার এবং প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকার

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত ভিডিও MIME প্রকারগুলিকে সমর্থন করে:

ভিডিও MIME প্রকার Gemini 2.0 Flash Gemini 2.0 Flash-Lite
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

অনুরোধ প্রতি সীমা

এখানে একটি প্রম্পট অনুরোধে অনুমোদিত ভিডিও ফাইলের সর্বাধিক সংখ্যা রয়েছে:

  • জেমিনি 2.0 ফ্ল্যাশ এবং জেমিনি 2.0 ফ্ল্যাশ-লাইট : 10 ভিডিও ফাইল

ভিডিও: টোকেনাইজেশন

ভিডিওর জন্য টোকেনগুলি কীভাবে গণনা করা হয় তা এখানে:

  • জেমিনি 2.0 ফ্ল্যাশ এবং জেমিনি 2.0 ফ্ল্যাশ-লাইট : অডিও ট্র্যাকটি ভিডিও ফ্রেমের সাথে এনকোড করা হয়েছে৷ অডিও ট্র্যাকটিকেও 1-সেকেন্ডের ট্রাঙ্কে বিভক্ত করা হয়েছে যার প্রতিটির জন্য 32টি টোকেন রয়েছে৷ ভিডিও ফ্রেম এবং অডিও টোকেনগুলি তাদের টাইমস্ট্যাম্পের সাথে একত্রে আন্তঃলিভ করা হয়। টাইমস্ট্যাম্প 7 টোকেন হিসাবে উপস্থাপিত হয়.
  • সমস্ত জেমিনি মাল্টিমোডাল মডেল : ভিডিওগুলি প্রতি সেকেন্ডে 1 ফ্রেমে (fps) নমুনা করা হয়৷ প্রতিটি ভিডিও ফ্রেম 258 টোকেনের জন্য অ্যাকাউন্ট।

ভিডিও: সেরা অনুশীলন

ভিডিও ব্যবহার করার সময়, সর্বোত্তম ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

  • যদি আপনার প্রম্পটে একটি একক ভিডিও থাকে, তাহলে পাঠ্য প্রম্পটের আগে ভিডিওটি রাখুন।
  • আপনার যদি অডিও সহ একটি ভিডিওতে টাইমস্ট্যাম্প স্থানীয়করণের প্রয়োজন হয়, মডেলটিকে MM:SS ফর্ম্যাটে টাইমস্ট্যাম্প তৈরি করতে বলুন যেখানে প্রথম দুটি সংখ্যা মিনিট এবং শেষ দুটি সংখ্যা সেকেন্ডের প্রতিনিধিত্ব করে৷ একটি টাইমস্ট্যাম্প সম্পর্কে জিজ্ঞাসা করা প্রশ্নগুলির জন্য একই বিন্যাস ব্যবহার করুন।

ভিডিও: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • বিষয়বস্তু নিয়ন্ত্রণ : মডেলগুলি আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন ভিডিওগুলির উত্তর দিতে অস্বীকার করে৷
  • নন-স্পিচ সাউন্ড রিকগনিশন : যে মডেলগুলি অডিও সমর্থন করে সেগুলি স্পিচ নয় এমন শব্দ চিনতে ভুল করতে পারে।
  • হাই-স্পিড মোশন : মডেলগুলি ভিডিওতে হাই-স্পিড মোশন বুঝতে ভুল করতে পারে স্থির 1 ফ্রেম প্রতি সেকেন্ড (fps) নমুনা হারের কারণে।



অডিও : প্রয়োজনীয়তা এবং সীমাবদ্ধতা

অডিও: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং অডিওর জন্য অনুরোধ প্রতি সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকার

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত অডিও MIME প্রকারগুলিকে সমর্থন করে:

অডিও MIME প্রকার Gemini 2.0 Flash Gemini 2.0 Flash-Lite
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
পিসিএম - audio/pcm
WAV - audio/wav
WEBM - audio/webm

অনুরোধ প্রতি সীমা

আপনি একটি প্রম্পট অনুরোধে সর্বাধিক 1টি অডিও ফাইল অন্তর্ভুক্ত করতে পারেন।

অডিও: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • নন-স্পিচ সাউন্ড রিকগনিশন : যে মডেলগুলি অডিও সমর্থন করে সেগুলি স্পিচ নয় এমন শব্দ চিনতে ভুল করতে পারে।
  • শুধুমাত্র অডিও টাইমস্ট্যাম্প : শুধুমাত্র অডিও ফাইলের জন্য সঠিকভাবে টাইমস্ট্যাম্প তৈরি করতে, আপনাকে generation_config audio_timestamp প্যারামিটার কনফিগার করতে হবে।



নথি (পিডিএফের মতো) : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

নথি: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং নথিগুলির জন্য অনুরোধের সীমা (যেমন PDF) সম্পর্কে জানুন।

সমর্থিত MIME প্রকার

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত নথি MIME প্রকারগুলিকে সমর্থন করে:

নথি MIME প্রকার Gemini 2.0 Flash Gemini 2.0 Flash-Lite
পিডিএফ - application/pdf
টেক্সট - text/plain

অনুরোধ প্রতি সীমা

পিডিএফগুলিকে চিত্র হিসাবে বিবেচনা করা হয়, তাই একটি পিডিএফের একক পৃষ্ঠাকে একটি চিত্র হিসাবে বিবেচনা করা হয়। একটি প্রম্পটে অনুমোদিত পৃষ্ঠার সংখ্যা মডেলটি সমর্থন করতে পারে এমন চিত্রগুলির সংখ্যার মধ্যে সীমাবদ্ধ:

  • Gemini 2.0 Flash এবং Gemini 2.0 Flash-Lite :
    • অনুরোধ প্রতি সর্বোচ্চ ফাইল: 3,000
    • ফাইল প্রতি সর্বোচ্চ পৃষ্ঠা: 1,000
    • ফাইল প্রতি সর্বোচ্চ আকার: 50 MB

নথি: টোকেনাইজেশন

পিডিএফ টোকেনাইজেশন

পিডিএফগুলিকে চিত্র হিসাবে বিবেচনা করা হয়, তাই একটি পিডিএফের প্রতিটি পৃষ্ঠাকে একটি চিত্রের মতোই টোকেনাইজ করা হয়।

এছাড়াও, পিডিএফ-এর জন্য খরচ মিথুন ছবির মূল্য অনুসরণ করে। উদাহরণস্বরূপ, যদি আপনি একটি Gemini API কলে একটি দুই-পৃষ্ঠার PDF অন্তর্ভুক্ত করেন, তাহলে আপনাকে দুটি ছবি প্রসেস করার জন্য একটি ইনপুট ফি দিতে হবে।

প্লেইন টেক্সট টোকেনাইজেশন

প্লেইন টেক্সট ডকুমেন্ট টেক্সট হিসাবে টোকেনাইজ করা হয়। উদাহরণস্বরূপ, যদি আপনি একটি Gemini API কলে একটি 100-শব্দের প্লেইন টেক্সট নথি অন্তর্ভুক্ত করেন, তাহলে আপনাকে 100 শব্দ প্রক্রিয়াকরণের ইনপুট ফি দিতে হবে।

নথি: সর্বোত্তম অনুশীলন

পিডিএফ ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

  • যদি আপনার প্রম্পটে একটি পিডিএফ থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে PDF রাখুন।
  • আপনার যদি একটি দীর্ঘ নথি থাকে তবে এটি প্রক্রিয়া করার জন্য এটিকে একাধিক PDF এ বিভক্ত করার কথা বিবেচনা করুন।
  • স্ক্যান করা ছবিতে টেক্সট ব্যবহার না করে টেক্সট হিসেবে রেন্ডার করা টেক্সট দিয়ে তৈরি PDF ব্যবহার করুন। এই বিন্যাসটি নিশ্চিত করে যে পাঠ্যটি মেশিন-পঠনযোগ্য যাতে মডেলটির পক্ষে স্ক্যান করা চিত্র PDF এর তুলনায় সম্পাদনা, অনুসন্ধান এবং ম্যানিপুলেট করা সহজ হয়। চুক্তির মতো পাঠ্য-ভারী নথিগুলির সাথে কাজ করার সময় এই অনুশীলনটি সর্বোত্তম ফলাফল প্রদান করে।

নথি: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • স্থানিক যুক্তি : মডেলগুলি পিডিএফ-এ পাঠ্য বা বস্তুগুলি সনাক্ত করার ক্ষেত্রে সুনির্দিষ্ট নয়। তারা শুধুমাত্র বস্তুর আনুমানিক সংখ্যা ফেরত দিতে পারে।
  • যথার্থতা : পিডিএফ নথিতে হাতে লেখা পাঠ্য ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট হতে পারে।