The latest Gemini models, like Gemini 3.6 Flash, are available to use with Firebase AI Logic! Learn more.

All Imagen models will shut down as early as June 30, 2026. Learn about migrating your apps to use Nano Banana.

Gemini 2.5 models will shut down in October 2026. To avoid service disruptions, update to a newer model (like gemini-3.6-flash or gemini-3.1-flash-image). Any stable Gemini Live API 2.5 models are not impacted. Learn more.

Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Audiodateien mit der Gemini API analysieren

Sie können ein Gemini Modell bitten, Audiodateien zu analysieren, die Sie bereitstellen entweder inline (base64-codiert) oder über eine URL. Wenn Sie Firebase AI Logic, verwenden, können Sie diese Anfrage direkt aus Ihrer App stellen.

Mit dieser Funktion können Sie beispielsweise Folgendes tun:

Audioinhalte beschreiben, zusammenfassen oder Fragen dazu beantworten
Audioinhalte transkribieren
Bestimmte Audiosegmente anhand von Zeitstempeln analysieren

In dieser Anleitung geht es darum, Text aus Audioeingaben zu generieren.

Zu Codebeispielen springen Zu Code für gestreamte Antworten springen

Weitere Anleitungen für zusätzliche Optionen für die Arbeit mit Audio
Strukturierte Ausgabe generieren Wechselseitiger Chat Bidirektionales Streaming

Hinweis

Klicken Sie auf Ihren Gemini API Anbieter, um anbieterspezifische Inhalte und Code auf dieser Seite aufzurufen.

Falls noch nicht geschehen, folgen Sie der Anleitung für den Einstieg. Dort wird beschrieben, wie Sie Ihr Firebase-Projekt einrichten, Ihre App mit Firebase verbinden, das SDK hinzufügen, den Back-End-Dienst für den ausgewählten Gemini API initialisieren und eine GenerativeModel erstellen.

Zum Testen und Optimieren Ihrer Prompts empfehlen wir Google AI Studio.

Benötigen Sie eine Audiobeispieldatei?

Sie können diese öffentlich verfügbare Datei mit dem MIME-Typ audio/mp3 (Datei ansehen oder herunterladen) verwenden. https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3

Modelle, die diese Funktion unterstützen

In dieser Anleitung geht es darum, Text aus Audioeingaben zu generieren. Sie gilt für die folgenden Gemini Modelle:

gemini-3.1-pro-preview
gemini-3.6-flash und das ältere gemini-3.5-flash
gemini-3.5-flash-lite und das ältere gemini-3.1-flash-lite

Die Gemini-Modelle für den allgemeinen Gebrauch Gemini 2.5 unterstützen diese Funktion, sind aber alle veraltet.

Text aus Audiodateien generieren (base64-codiert)

Bevor Sie dieses Beispiel ausprobieren, führen Sie die Schritte im Abschnitt Hinweis dieser Anleitung aus, um Ihr Projekt und Ihre App einzurichten.
In diesem Abschnitt klicken Sie auch auf eine Schaltfläche für den ausgewählten Gemini API Anbieter, damit auf dieser Seite anbieterspezifische Inhalte angezeigt werden.

Sie können ein Gemini Modell bitten, Text zu generieren, indem Sie einen Prompt mit Text und Audio erstellen. Dazu müssen Sie den `mimeType` der Eingabedatei mimeType und die Datei selbst angeben. Anforderungen und Empfehlungen für Eingabedateien finden Sie weiter unten auf dieser Seite.