Możesz poprosić model Gemini o przeanalizowanie przesłanych przez Ciebie plików wideo (w formacie wbudowanym lub w formacie Base64) lub za pomocą adresu URL. Jeśli używasz Firebase AI Logic, możesz wysłać to żądanie bezpośrednio z aplikacji.
Dzięki tej funkcji możesz:
- Dodawanie napisów i odpowiadanie na pytania dotyczące filmów
- Analizowanie poszczególnych segmentów filmu za pomocą sygnatur czasowych
- Transkrypcja treści wideo przez przetworzenie ścieżki audio i klatek wideo
- opisywanie, dzielenie na segmenty i wyodrębnianie informacji z filmów, w tym ścieżki audio i klatek;
Przejdź do przykładowych fragmentów kodu Przejdź do kodu dla odpowiedzi strumieniowych
Aby uzyskać więcej informacji o pracy z filmami, zapoznaj się z innymi przewodnikami Generowanie uporządkowanego wyjścia Czat wielostronny |
Zanim zaczniesz
Kliknij dostawcę Gemini API, aby wyświetlić na tej stronie treści i kod związane z tym dostawcą. |
Jeśli jeszcze tego nie zrobisz, przeczytaj przewodnik dla początkujących, w którym znajdziesz instrukcje konfigurowania projektu Firebase, łączenia aplikacji z Firebase, dodawania pakietu SDK, inicjowania usługi backendowej wybranego dostawcy Gemini API oraz tworzenia instancji GenerativeModel
.
Aby przetestować prompty i przeprowadzić ich iterację, a także uzyskać wygenerowany fragment kodu, zalecamy użycie Google AI Studio.
Generowanie tekstu na podstawie plików wideo (zakodowanych w standardzie base64)
Zanim użyjesz tego szablonu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika, aby skonfigurować projekt i aplikację. W tej sekcji kliknij też przycisk wybranegoGemini API dostawcy, aby wyświetlić na tej stronie treści związane z tym dostawcą. |
Możesz poprosić model Gemini o wygenerowanie tekstu, podając prompt z tekstem i wideo – udostępniając mimeType
każdego pliku wejściowego oraz sam plik. Wymagania i zalecenia dotyczące plików wejściowych znajdziesz dalej na tej stronie.
Swift
Możesz wywołać funkcję generateContent()
, aby wygenerować tekst z multimodalnych danych wejściowych w postaci plików tekstowych i wideo.
import FirebaseAI
// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())
// Create a `GenerativeModel` instance with a model that supports your use case
let model = ai.generativeModel(modelName: "gemini-2.0-flash")
// Provide the video as `Data` with the appropriate MIME type.
let video = InlineDataPart(data: try Data(contentsOf: videoURL), mimeType: "video/mp4")
// Provide a text prompt to include with the video
let prompt = "What is in the video?"
// To generate text output, call generateContent with the text and video
let response = try await model.generateContent(video, prompt)
print(response.text ?? "No text in response.")
Kotlin
Możesz wywołać funkcję generateContent()
, aby wygenerować tekst z multimodalnych danych wejściowych w postaci plików tekstowych i wideo.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel("gemini-2.0-flash")
val contentResolver = applicationContext.contentResolver
contentResolver.openInputStream(videoUri).use { stream ->
stream?.let {
val bytes = stream.readBytes()
// Provide a prompt that includes the video specified above and text
val prompt = content {
inlineData(bytes, "video/mp4")
text("What is in the video?")
}
// To generate text output, call generateContent with the prompt
val response = generativeModel.generateContent(prompt)
Log.d(TAG, response.text ?: "")
}
}
Java
Możesz wywołać funkcję generateContent()
, aby wygenerować tekst z multimodalnych danych wejściowych w postaci plików tekstowych i wideo.
ListenableFuture
.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
GenerativeModel ai = FirebaseAI.getInstance(GenerativeBackend.googleAI())
.generativeModel("gemini-2.0-flash");
// Use the GenerativeModelFutures Java compatibility layer which offers
// support for ListenableFuture and Publisher APIs
GenerativeModelFutures model = GenerativeModelFutures.from(ai);
ContentResolver resolver = getApplicationContext().getContentResolver();
try (InputStream stream = resolver.openInputStream(videoUri)) {
File videoFile = new File(new URI(videoUri.toString()));
int videoSize = (int) videoFile.length();
byte[] videoBytes = new byte[videoSize];
if (stream != null) {
stream.read(videoBytes, 0, videoBytes.length);
stream.close();
// Provide a prompt that includes the video specified above and text
Content prompt = new Content.Builder()
.addInlineData(videoBytes, "video/mp4")
.addText("What is in the video?")
.build();
// To generate text output, call generateContent with the prompt
ListenableFuture<GenerateContentResponse> response = model.generateContent(prompt);
Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
@Override
public void onSuccess(GenerateContentResponse result) {
String resultText = result.getText();
System.out.println(resultText);
}
@Override
public void onFailure(Throwable t) {
t.printStackTrace();
}
}, executor);
}
} catch (IOException e) {
e.printStackTrace();
} catch (URISyntaxException e) {
e.printStackTrace();
}
Web
Możesz wywołać funkcję generateContent()
, aby wygenerować tekst z multimodalnych danych wejściowych w postaci plików tekstowych i wideo.
import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";
// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
// ...
};
// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);
// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });
// Create a `GenerativeModel` instance with a model that supports your use case
const model = getGenerativeModel(ai, { model: "gemini-2.0-flash" });
// Converts a File object to a Part object.
async function fileToGenerativePart(file) {
const base64EncodedDataPromise = new Promise((resolve) => {
const reader = new FileReader();
reader.onloadend = () => resolve(reader.result.split(',')[1]);
reader.readAsDataURL(file);
});
return {
inlineData: { data: await base64EncodedDataPromise, mimeType: file.type },
};
}
async function run() {
// Provide a text prompt to include with the video
const prompt = "What do you see?";
const fileInputEl = document.querySelector("input[type=file]");
const videoPart = await fileToGenerativePart(fileInputEl.files[0]);
// To generate text output, call generateContent with the text and video
const result = await model.generateContent([prompt, videoPart]);
const response = result.response;
const text = response.text();
console.log(text);
}
run();
Dart
Możesz wywołać funkcję generateContent()
, aby wygenerować tekst z multimodalnych danych wejściowych w postaci plików tekstowych i wideo.
import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';
// Initialize FirebaseApp
await Firebase.initializeApp(
options: DefaultFirebaseOptions.currentPlatform,
);
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
final model =
FirebaseAI.googleAI().generativeModel(model: 'gemini-2.0-flash');
// Provide a text prompt to include with the video
final prompt = TextPart("What's in the video?");
// Prepare video for input
final video = await File('video0.mp4').readAsBytes();
// Provide the video as `Data` with the appropriate mimetype
final videoPart = InlineDataPart('video/mp4', video);
// To generate text output, call generateContent with the text and images
final response = await model.generateContent([
Content.multi([prompt, ...videoPart])
]);
print(response.text);
Unity
Możesz wywołać funkcję GenerateContentAsync()
, aby wygenerować tekst z multimodalnych danych wejściowych w postaci plików tekstowych i wideo.
using Firebase;
using Firebase.AI;
// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());
// Create a `GenerativeModel` instance with a model that supports your use case
var model = ai.GetGenerativeModel(modelName: "gemini-2.0-flash");
// Provide the video as `data` with the appropriate MIME type.
var video = ModelContent.InlineData("video/mp4",
System.IO.File.ReadAllBytes(System.IO.Path.Combine(
UnityEngine.Application.streamingAssetsPath, "yourVideo.mp4")));
// Provide a text prompt to include with the video
var prompt = ModelContent.Text("What is in the video?");
// To generate text output, call GenerateContentAsync with the text and video
var response = await model.GenerateContentAsync(new [] { video, prompt });
UnityEngine.Debug.Log(response.Text ?? "No text in response.");
Dowiedz się, jak wybrać model odpowiedni do Twojego przypadku użycia i aplikacji.
Odpowiadaj na pytania stopniowo
Zanim użyjesz tego szablonu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika, aby skonfigurować projekt i aplikację. W tej sekcji kliknij też przycisk wybranegoGemini API dostawcy, aby wyświetlić na tej stronie treści związane z tym dostawcą. |
Możesz uzyskać szybsze interakcje, nie czekając na pełny wynik wygenerowany przez model, a zamiast tego używać strumieniowego przetwarzania częściowych wyników.
Aby przesyłać strumieniowo odpowiedź, zadzwoń pod numer generateContentStream
.
Wymagania i zalecenia dotyczące plików wideo
Pamiętaj, że plik przesłany jako dane wstawione jest kodowany w trakcie przesyłania do formatu Base64, co zwiększa rozmiar żądania. Jeśli żądanie jest zbyt duże, pojawia się błąd HTTP 413.
Aby dowiedzieć się więcej o tych kwestiach:Vertex AI Gemini API
- Różne opcje udostępniania pliku w żądaniu (wbudowane lub za pomocą adresu URL lub identyfikatora URI pliku)
- Wymagania i sprawdzone metody dotyczące plików wideo
Obsługiwane typy MIME filmów
Gemini Modele multimodalne obsługują te typy MIME wideo:
Typ MIME reklamy wideo | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV – video/x-flv |
||
MOV – video/quicktime |
||
MPEG – video/mpeg |
||
MPEGPS – video/mpegps |
||
MPG – video/mpg |
||
MP4 – video/mp4 |
||
WEBM – video/webm |
||
WMV – video/wmv |
||
3GPP – video/3gpp |
Limity na żądanie
Maksymalna dozwolona liczba plików wideo w prośbie o prompt:
- Gemini 2.0 Flash i Gemini 2.0 Flash‑Lite: 10 plików wideo
Co jeszcze możesz zrobić?
- Dowiedz się, jak policzyć tokeny przed wysłaniem długich promptów do modelu.
- Skonfiguruj Cloud Storage for Firebase, aby móc dołączać duże pliki do żądań multimodalnych i mieć lepiej zarządzane rozwiązanie do dostarczania plików w promptach. Mogą to być obrazy, pliki PDF, filmy i pliki audio.
-
Zacznij myśleć o przygotowaniu aplikacji do wersji produkcyjnej (patrz lista kontrolna wersji produkcyjnej), w tym:
- Skonfiguruj Firebase App Check, aby chronić usługę Gemini API przed nadużyciami przez nieautoryzowanych klientów.
- Integrating Firebase Remote Config to update values in your app (like model name) without releasing a new app version.
Wypróbuj inne funkcje
- tworzyć rozmowy wieloetapowe (czat);
- generować tekst na podstawie promptów tekstowych,
- generować uporządkowane dane wyjściowe (np. w formacie JSON) zarówno na podstawie promptów tekstowych, jak i promptów multimodalnych;
- generować obrazy na podstawie promptów tekstowych;
- Użyj funkcji wywoływania, aby połączyć modele generatywne z zewnętrznymi systemami i informacjami.
Dowiedz się, jak kontrolować generowanie treści
- Zrozumieć projektowanie promptów, w tym sprawdzone metody, strategie i przykładowe prompty.
- Skonfiguruj parametry modelu, takie jak temperatura i maksymalna liczba tokenów wyjściowych (w przypadku Gemini) lub format obrazu i generowanie osób (w przypadku Imagen).
- Używaj ustawień bezpieczeństwa, aby dostosować prawdopodobieństwo otrzymywania odpowiedzi, które mogą być uważane za szkodliwe.
Więcej informacji o obsługiwanych modelach
Dowiedz się więcej o modelach dostępnych w różnych przypadkach użycia oraz o ich limitach i cenach.Prześlij opinię o swoich wrażeniach związanych z usługą Firebase AI Logic