تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

تحليل الملفات الصوتية باستخدام Gemini API

يمكنك أن تطلب من أحد نماذج Gemini تحليل الملفات الصوتية التي تقدّمها، سواء كانت مضمّنة (مرمّزة بترميز base64) أو من خلال عنوان URL. عند استخدام Firebase AI Logic، يمكنك تقديم هذا الطلب مباشرةً من تطبيقك.

باستخدام هذه الميزة، يمكنك تنفيذ إجراءات، مثل:

وصف المحتوى الصوتي أو تلخيصه أو الإجابة عن أسئلة حوله
تحويل الصوت إلى نص
تحليل مقاطع صوتية معيّنة باستخدام الطوابع الزمنية

الانتقال إلى عيّنات الرموز البرمجية الانتقال إلى الرمز البرمجي للاستجابات التي يتم بثّها

الاطّلاع على أدلة أخرى للحصول على خيارات إضافية للعمل مع الصوت
إنشاء إخراج منظَّم المحادثة المتعدّدة المقاطع البثّ الثنائي الاتجاه

قبل البدء

انقر على مزوّد Gemini API لعرض المحتوى الخاص بالمزوّد والرمز البرمجي في هذه الصفحة.

إذا لم يسبق لك ذلك، أكمِل قراءة دليل البدء الذي يوضّح كيفية إعداد مشروعك على Firebase وربط تطبيقك بـ Firebase وإضافة حزمة تطوير البرامج (SDK) وبدء خدمة الخلفية لمزوّد Gemini API الذي اخترته، وإنشاء مثيل GenerativeModel.

لاختبار طلباتك وتكرارها وحتى الحصول على مقتطف رمز تم إنشاؤه، ننصحك باستخدام Google AI Studio.

هل تحتاج إلى نموذج ملف صوتي؟

يمكنك استخدام هذا الملف المتاح للجميع بنوع MIME‏ audio/mp3 (عرض الملف أو تنزيله). https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3

إنشاء نص من الملفات الصوتية (بترميز base64)

قبل تجربة هذا العيّنة، عليك إكمال القسم قبل البدء من هذا الدليل لإعداد مشروعك وتطبيقك.
في هذا القسم، عليك أيضًا النقر على زر Gemini API مقدّم الخدمة الذي اخترته حتى يظهر لك المحتوى الخاص بالمقدّم في هذه الصفحة.

يمكنك أن تطلب من نموذج Gemini إنشاء نص من خلال تقديم نص وصوت، مع توفير mimeType ملف الإدخال والملف نفسه. يمكنك الاطّلاع على المتطلبات والاقتراحات المتعلّقة بملفات الإدخال لاحقًا في هذه الصفحة.