تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

تحليل الملفات الصوتية باستخدام Gemini API

يمكنك أن تطلب من نموذج Gemini تحليل ملفات صوتية تقدّمها إما بشكل مضمّن (ترميز base64) أو عبر عنوان URL. عند استخدام Firebase AI Logic، يمكنك تقديم هذا الطلب مباشرةً من تطبيقك.

باستخدام هذه الإمكانية، يمكنك تنفيذ إجراءات مثل:

وصف المحتوى الصوتي أو تلخيصه أو الإجابة عن أسئلة حوله
تحويل المحتوى الصوتي إلى نص
تحليل مقاطع صوتية معيّنة باستخدام الطوابع الزمنية

الانتقال إلى عيّنات التعليمات البرمجية الانتقال إلى التعليمات البرمجية للاستجابات المتدفّقة

الاطّلاع على أدلة أخرى تتضمّن خيارات إضافية للتعامل مع الصوت
إنشاء ناتج منظَّم المحادثة المتعددة الأدوار البث الثنائي الاتجاه

قبل البدء

انقر على مزوّد Gemini API لعرض المحتوى والرمز الخاصين بالمزوّد على هذه الصفحة.

إذا لم يسبق لك إجراء ذلك، أكمل دليل بدء الاستخدام الذي يوضّح كيفية إعداد مشروعك على Firebase وربط تطبيقك بـ Firebase وإضافة حزمة تطوير البرامج (SDK) وتهيئة خدمة الخلفية لمقدّم خدمة Gemini API الذي اخترته وإنشاء مثيل GenerativeModel.

لاختبار طلباتك وتكرارها، وحتى للحصول على مقتطف رمز برمجي من إنشاء الذكاء الاصطناعي، ننصحك باستخدام Google AI Studio.

هل تحتاج إلى ملف صوتي نموذجي؟

يمكنك استخدام هذا الملف المتاح للجميع بنوع MIME‏ audio/mp3 (عرض الملف أو تنزيله). https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3

إنشاء نص من ملفات صوتية (مشفرة بترميز Base64)

قبل تجربة هذا النموذج، أكمل القسم قبل البدء من هذا الدليل لإعداد مشروعك وتطبيقك.
في هذا القسم، ستنقر أيضًا على زر لمقدّم الخدمة الذي اخترته Gemini API حتى يظهر لك محتوى خاص بمقدّم الخدمة في هذه الصفحة.

يمكنك أن تطلب من نموذج Gemini إنشاء نص من خلال تقديم نص وصوت، أي توفير mimeType لملف الإدخال والملف نفسه. يمكنك الاطّلاع على المتطلبات والاقتراحات المتعلقة بملفات الإدخال لاحقًا في هذه الصفحة.