این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

فایل های صوتی را با استفاده از API جمینی تجزیه و تحلیل کنید

می‌توانید از مدل Gemini بخواهید فایل‌های صوتی را که ارائه می‌دهید به صورت درون خطی (با کدگذاری پایه 64) یا از طریق URL تجزیه و تحلیل کند. وقتی از Firebase AI Logic استفاده می‌کنید، می‌توانید این درخواست را مستقیماً از برنامه خود ارسال کنید.

با این قابلیت می توانید کارهایی مانند:

درباره محتوای صوتی توضیح دهید، خلاصه کنید یا به سؤالات پاسخ دهید
رونویسی محتوای صوتی
بخش‌های خاصی از صدا را با استفاده از مهر زمانی تجزیه و تحلیل کنید

پرش به نمونه کد پرش به کد برای پاسخ های جریانی

راهنماهای دیگر را برای گزینه های اضافی برای کار با صدا ببینید
تولید خروجی ساختاریافته چت چند نوبتی جریان دوطرفه

قبل از شروع

برای مشاهده محتوا و کد ارائه دهنده خاص در این صفحه، روی ارائه دهنده API Gemini خود کلیک کنید.

اگر قبلاً این کار را نکرده‌اید، راهنمای شروع را کامل کنید، که نحوه راه‌اندازی پروژه Firebase را توضیح می‌دهد، برنامه خود را به Firebase متصل کنید، SDK را اضافه کنید، سرویس Backend را برای ارائه‌دهنده API Gemini انتخابی خود مقداردهی کنید و یک نمونه GenerativeModel ایجاد کنید.

برای آزمایش و تکرار در درخواست‌های خود و حتی دریافت یک قطعه کد تولید شده، توصیه می‌کنیم از Google AI Studio استفاده کنید.

به نمونه فایل صوتی نیاز دارید؟

می‌توانید از این فایل در دسترس عموم با نوع MIME audio/mp3 ( مشاهده یا دانلود فایل ) استفاده کنید. https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3

تولید متن از فایل‌های صوتی (با پایه 64 کدگذاری شده)

قبل از امتحان این نمونه، بخش قبل از شروع این راهنما را تکمیل کنید تا پروژه و برنامه خود را راه اندازی کنید.
در آن بخش، همچنین روی دکمه ای برای ارائه دهنده API Gemini انتخابی خود کلیک می کنید تا محتوای خاص ارائه دهنده را در این صفحه ببینید .

می‌توانید از یک مدل Gemini بخواهید که متن را با درخواست متن و صدا تولید کند—با ارائه mimeType فایل ورودی و خود فایل. الزامات و توصیه‌های مربوط به فایل‌های ورودی را بعداً در این صفحه پیدا کنید.