يمكنك أن تطلب من نموذج Gemini تحليل ملفات صوتية تقدّمها إما بشكل مضمّن (ترميز base64) أو عبر عنوان URL. عند استخدام Firebase AI Logic، يمكنك تقديم هذا الطلب مباشرةً من تطبيقك.
باستخدام هذه الإمكانية، يمكنك تنفيذ إجراءات مثل:
- وصف المحتوى الصوتي أو تلخيصه أو الإجابة عن أسئلة حوله
- تحويل المحتوى الصوتي إلى نص
- تحليل مقاطع صوتية معيّنة باستخدام الطوابع الزمنية
الانتقال إلى عيّنات التعليمات البرمجية الانتقال إلى التعليمات البرمجية للاستجابات المتدفّقة
الاطّلاع على أدلة أخرى تتضمّن خيارات إضافية للتعامل مع الصوت إنشاء ناتج منظَّم المحادثة المتعددة الأدوار البث الثنائي الاتجاه |
قبل البدء
انقر على مزوّد Gemini API لعرض المحتوى والرمز الخاصين بالمزوّد على هذه الصفحة. |
إذا لم يسبق لك إجراء ذلك، أكمل دليل بدء الاستخدام الذي يوضّح كيفية إعداد مشروعك على Firebase وربط تطبيقك بـ Firebase وإضافة حزمة تطوير البرامج (SDK) وتهيئة خدمة الخلفية لمقدّم خدمة Gemini API الذي اخترته وإنشاء مثيل GenerativeModel
.
لاختبار طلباتك وتكرارها، وحتى للحصول على مقتطف رمز برمجي من إنشاء الذكاء الاصطناعي، ننصحك باستخدام Google AI Studio.
إنشاء نص من ملفات صوتية (مشفرة بترميز Base64)
قبل تجربة هذا النموذج، أكمل القسم
قبل البدء من هذا الدليل
لإعداد مشروعك وتطبيقك. في هذا القسم، ستنقر أيضًا على زر لمقدّم الخدمة الذي اخترته Gemini API حتى يظهر لك محتوى خاص بمقدّم الخدمة في هذه الصفحة. |
يمكنك أن تطلب من نموذج Gemini إنشاء نص من خلال تقديم نص وصوت، أي توفير mimeType
لملف الإدخال والملف نفسه. يمكنك الاطّلاع على
المتطلبات والاقتراحات المتعلقة بملفات الإدخال
لاحقًا في هذه الصفحة.
Swift
يمكنك استدعاء الدالة
generateContent()
لإنشاء نص من إدخال متعدّد الوسائط يتضمّن نصًا وملفًا صوتيًا واحدًا.
import FirebaseAI
// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())
// Create a `GenerativeModel` instance with a model that supports your use case
let model = ai.generativeModel(modelName: "gemini-2.5-flash")
// Provide the audio as `Data`
guard let audioData = try? Data(contentsOf: audioURL) else {
print("Error loading audio data.")
return // Or handle the error appropriately
}
// Specify the appropriate audio MIME type
let audio = InlineDataPart(data: audioData, mimeType: "audio/mpeg")
// Provide a text prompt to include with the audio
let prompt = "Transcribe what's said in this audio recording."
// To generate text output, call `generateContent` with the audio and text prompt
let response = try await model.generateContent(audio, prompt)
// Print the generated text, handling the case where it might be nil
print(response.text ?? "No text in response.")
Kotlin
يمكنك استدعاء الدالة
generateContent()
لإنشاء نص من إدخال متعدّد الوسائط يتضمّن نصًا وملفًا صوتيًا واحدًا.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel("gemini-2.5-flash")
val contentResolver = applicationContext.contentResolver
val inputStream = contentResolver.openInputStream(audioUri)
if (inputStream != null) { // Check if the audio loaded successfully
inputStream.use { stream ->
val bytes = stream.readBytes()
// Provide a prompt that includes the audio specified above and text
val prompt = content {
inlineData(bytes, "audio/mpeg") // Specify the appropriate audio MIME type
text("Transcribe what's said in this audio recording.")
}
// To generate text output, call `generateContent` with the prompt
val response = generativeModel.generateContent(prompt)
// Log the generated text, handling the case where it might be null
Log.d(TAG, response.text?: "")
}
} else {
Log.e(TAG, "Error getting input stream for audio.")
// Handle the error appropriately
}
Java
يمكنك استدعاء الدالة
generateContent()
لإنشاء نص من إدخال متعدّد الوسائط يتضمّن نصًا وملفًا صوتيًا واحدًا.
ListenableFuture
.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
GenerativeModel ai = FirebaseAI.getInstance(GenerativeBackend.googleAI())
.generativeModel("gemini-2.5-flash");
// Use the GenerativeModelFutures Java compatibility layer which offers
// support for ListenableFuture and Publisher APIs
GenerativeModelFutures model = GenerativeModelFutures.from(ai);
ContentResolver resolver = getApplicationContext().getContentResolver();
try (InputStream stream = resolver.openInputStream(audioUri)) {
File audioFile = new File(new URI(audioUri.toString()));
int audioSize = (int) audioFile.length();
byte audioBytes = new byte[audioSize];
if (stream != null) {
stream.read(audioBytes, 0, audioBytes.length);
stream.close();
// Provide a prompt that includes the audio specified above and text
Content prompt = new Content.Builder()
.addInlineData(audioBytes, "audio/mpeg") // Specify the appropriate audio MIME type
.addText("Transcribe what's said in this audio recording.")
.build();
// To generate text output, call `generateContent` with the prompt
ListenableFuture<GenerateContentResponse> response = model.generateContent(prompt);
Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
@Override
public void onSuccess(GenerateContentResponse result) {
String text = result.getText();
Log.d(TAG, (text == null) ? "" : text);
}
@Override
public void onFailure(Throwable t) {
Log.e(TAG, "Failed to generate a response", t);
}
}, executor);
} else {
Log.e(TAG, "Error getting input stream for file.");
// Handle the error appropriately
}
} catch (IOException e) {
Log.e(TAG, "Failed to read the audio file", e);
} catch (URISyntaxException e) {
Log.e(TAG, "Invalid audio file", e);
}
Web
يمكنك استدعاء الدالة
generateContent()
لإنشاء نص من إدخال متعدّد الوسائط يتضمّن نصًا وملفًا صوتيًا واحدًا.
import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";
// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
// ...
};
// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);
// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });
// Create a `GenerativeModel` instance with a model that supports your use case
const model = getGenerativeModel(ai, { model: "gemini-2.5-flash" });
// Converts a File object to a Part object.
async function fileToGenerativePart(file) {
const base64EncodedDataPromise = new Promise((resolve) => {
const reader = new FileReader();
reader.onloadend = () => resolve(reader.result.split(','));
reader.readAsDataURL(file);
});
return {
inlineData: { data: await base64EncodedDataPromise, mimeType: file.type },
};
}
async function run() {
// Provide a text prompt to include with the audio
const prompt = "Transcribe what's said in this audio recording.";
// Prepare audio for input
const fileInputEl = document.querySelector("input[type=file]");
const audioPart = await fileToGenerativePart(fileInputEl.files);
// To generate text output, call `generateContent` with the text and audio
const result = await model.generateContent([prompt, audioPart]);
// Log the generated text, handling the case where it might be undefined
console.log(result.response.text() ?? "No text in response.");
}
run();
Dart
يمكنك استدعاء الدالة
generateContent()
لإنشاء نص من إدخال متعدّد الوسائط يتضمّن نصًا وملفًا صوتيًا واحدًا.
import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';
// Initialize FirebaseApp
await Firebase.initializeApp(
options: DefaultFirebaseOptions.currentPlatform,
);
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
final model =
FirebaseAI.googleAI().generativeModel(model: 'gemini-2.5-flash');
// Provide a text prompt to include with the audio
final prompt = TextPart("Transcribe what's said in this audio recording.");
// Prepare audio for input
final audio = await File('audio0.mp3').readAsBytes();
// Provide the audio as `Data` with the appropriate audio MIME type
final audioPart = InlineDataPart('audio/mpeg', audio);
// To generate text output, call `generateContent` with the text and audio
final response = await model.generateContent([
Content.multi([prompt,audioPart])
]);
// Print the generated text
print(response.text);
Unity
يمكنك استدعاء الدالة
GenerateContentAsync()
لإنشاء نص من إدخال متعدّد الوسائط يتضمّن نصًا وملفًا صوتيًا واحدًا.
using Firebase;
using Firebase.AI;
// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());
// Create a `GenerativeModel` instance with a model that supports your use case
var model = ai.GetGenerativeModel(modelName: "gemini-2.5-flash");
// Provide a text prompt to include with the audio
var prompt = ModelContent.Text("Transcribe what's said in this audio recording.");
// Provide the audio as `data` with the appropriate audio MIME type
var audio = ModelContent.InlineData("audio/mpeg",
System.IO.File.ReadAllBytes(System.IO.Path.Combine(
UnityEngine.Application.streamingAssetsPath, "audio0.mp3")));
// To generate text output, call `GenerateContentAsync` with the text and audio
var response = await model.GenerateContentAsync(new [] { prompt, audio });
// Print the generated text
UnityEngine.Debug.Log(response.Text ?? "No text in response.");
تعرَّف على كيفية اختيار نموذج اختياري مناسبَين لحالة الاستخدام والتطبيق.
عرض الرد تدريجيًا
قبل تجربة هذا النموذج، أكمل القسم
قبل البدء من هذا الدليل
لإعداد مشروعك وتطبيقك. في هذا القسم، ستنقر أيضًا على زر لمقدّم الخدمة الذي اخترته Gemini API حتى يظهر لك محتوى خاص بمقدّم الخدمة في هذه الصفحة. |
يمكنك تحقيق تفاعلات أسرع من خلال عدم انتظار النتيجة الكاملة من إنشاء النموذج، واستخدام البث بدلاً من ذلك للتعامل مع النتائج الجزئية.
لبث الرد، اتّصِل بالرقم generateContentStream
.
المتطلبات والاقتراحات المتعلقة بملفات الصوت المدخلة
يُرجى العِلم أنّ الملف المقدَّم كبيانات مضمّنة يتم ترميزه إلى base64 أثناء نقله، ما يؤدي إلى زيادة حجم الطلب. يظهر لك الخطأ HTTP 413 إذا كان الطلب كبيرًا جدًا.
اطّلِع على "ملفات الإدخال المتوافقة ومتطلبات Vertex AI Gemini API" للحصول على معلومات مفصّلة حول ما يلي:
- خيارات مختلفة لتقديم ملف في طلب (إما بشكل مضمّن أو باستخدام عنوان URL أو URI الخاص بالملف)
- المتطلبات وأفضل الممارسات المتعلّقة بالملفات الصوتية
أنواع MIME المتوافقة مع الصوت
تتوافق Gemini النماذج المتعدّدة الوسائط مع أنواع MIME التالية للصوت:
نوع MIME للصوت | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
الحدود القصوى لكل طلب
يمكنك تضمين
ما هي الإجراءات الأخرى التي يمكنك تنفيذها؟
- تعرَّف على كيفية احتساب الرموز المميزة قبل إرسال طلبات طويلة إلى النموذج.
- إعداد Cloud Storage for Firebase لتتمكّن من تضمين ملفات كبيرة في طلباتك المتعددة الوسائط والحصول على حلّ أكثر إدارةً لتوفير الملفات في الطلبات يمكن أن تتضمّن الملفات صورًا وملفات PDF وفيديوهات وملفات صوتية.
-
ابدأ التفكير في الاستعداد للإنتاج (راجِع قائمة المهام لعملية الإنتاج)، بما في ذلك:
- إعداد Firebase App Check لحماية Gemini API من إساءة الاستخدام من قِبل العملاء غير المصرَّح لهم
- دمج Firebase Remote Config لتعديل القيم في تطبيقك (مثل اسم النموذج) بدون طرح إصدار جديد من التطبيق.
تجربة إمكانات أخرى
- إنشاء محادثات متعدّدة الأدوار (محادثة)
- إنشاء نص من طلبات نصية فقط
- إنشاء نتائج منظَّمة (مثل JSON) من الطلبات النصية والوسائط المتعددة
- إنشاء صور من طلبات نصية (Gemini أو Imagen)
- استخدِم استدعاء الدوال لربط النماذج التوليدية بالأنظمة والمعلومات الخارجية.
كيفية التحكّم في إنشاء المحتوى
- التعرّف على تصميم الطلبات، بما في ذلك أفضل الممارسات والاستراتيجيات وأمثلة على الطلبات
- ضبط مَعلمات النموذج مثل درجة الحرارة والحد الأقصى لعدد الرموز المميزة الناتجة (بالنسبة إلى Gemini) أو نسبة العرض إلى الارتفاع وإنشاء صور أشخاص (بالنسبة إلى Imagen)
- استخدام إعدادات الأمان لتعديل احتمالية تلقّي ردود قد تُعتبر ضارة
مزيد من المعلومات عن النماذج المتاحة
يمكنك الاطّلاع على النماذج المتاحة لمختلف حالات الاستخدام والحصص والأسعار الخاصة بها.تقديم ملاحظات حول تجربتك مع Firebase AI Logic