Ratenlimits und Kontingente

Klicke auf deinen Gemini API-Anbieter, um dir anbieterspezifische Inhalte und Code auf dieser Seite anzusehen.


Mit Ratenlimits (häufig als Kontingente bezeichnet) wird die Anzahl der Anfragen geregelt, die Sie innerhalb eines bestimmten Zeitraums an die Gemini API senden können. Diese Limits tragen dazu bei, eine faire Nutzung zu ermöglichen, vor Missbrauch zu schützen und die Systemleistung für alle Nutzer aufrechtzuerhalten.

Wenn Sie Firebase AI Logic verwenden, um Anfragen an Gemini- und Imagen-Modelle zu senden, hängen die Ratenlimits Ihres Projekts vom ausgewählten Gemini API-Anbieter ab. Mit Firebase AI Logic können Sie auch Tarifbeschränkungen pro Nutzer festlegen.

Ratenlimits für die Gemini Developer API ansehen

So funktionieren Ratenlimits (Kontingente)

Die Ratenbegrenzungen (Kontingente) werden in vier Dimensionen gemessen:

  • Anfragen pro Minute (RPM)
  • Anfragen pro Tag (RPD)
  • Tokens pro Minute (TPM)
  • Tokens pro Tag (TPD)

Ihre Nutzung wird anhand der einzelnen Limits bewertet. Wenn eines davon überschritten wird, wird der Fehler 429 (Kontingent überschritten) ausgelöst. Wenn Ihr RPM-Limit beispielsweise 20 beträgt, führt das Senden von 21 Anfragen innerhalb einer Minute zu einem Fehler, auch wenn Sie Ihr TPM oder andere Limits nicht überschritten haben.

Die Ratenbegrenzungen werden auf Projektebene angewendet und gelten für alle Anwendungen und IP-Adressen, die dieses Firebase-Projekt verwenden.

Die Limits variieren je nach verwendetem Modell und einige gelten nur für bestimmte Modelle. „Bilder pro Minute“ (IPM) wird beispielsweise nur für Modelle berechnet, die Bilder generieren können (Imagen 3), ist aber konzeptionell mit „Textzeilen pro Minute“ vergleichbar.

Für experimentelle und Vorabversionen gelten strengere Ratenlimits.

Erhöhung der Ratenbeschränkung beantragen

Wenn Sie für die Gemini Developer API ein kostenpflichtiges Abo haben, können Sie eine Erhöhung des Limits für die Rate anfordern.

Ratenlimits pro Nutzer festlegen

Wenn Sie Firebase AI Logic verwenden möchten, muss in Ihrem Projekt der von Ihnen ausgewählte Gemini API-Anbieter aktiviert sein. Außerdem muss die Firebase AI Logic API aktiviert sein, die als Gateway zwischen unseren Client-SDKs und Ihrem Gemini API-Anbieter dient. Diese API wird für Sie aktiviert, wenn Sie Firebase AI Logic in Ihrem Firebase-Projekt zum ersten Mal einrichten.

Sie können das Firebase AI Logic API-Limit (Kontingent) als Ratenlimit „pro Nutzer“ für Ihre App verwenden, insbesondere für die KI-Funktionen, die auf Firebase AI Logic basieren. Sie sollten dieses Limit so festlegen, dass es für einen einzelnen Nutzer, der auf Ihre KI-Funktionen zugreift, angemessen ist, und gleichzeitig dafür sorgen, dass kein einzelner Nutzer die Limits Ihres Gemini API-Anbieters überschreitet, der von allen Ihren Nutzern gemeinsam genutzt werden soll.

Details zum Preislimit pro Nutzer

Hier sind einige wichtige Details zu den Ratenlimits (Kontingenten) der Firebase AI Logic API, insbesondere zu Anfragen pro Minute (RPM):

  • Sie basiert auf der Anzahl der generierten Inhaltsanfragen pro Nutzer, pro Region und pro Minute und nicht auf dem Modell.

  • Sie gilt auf Projektebene und für alle Anwendungen und IP-Adressen, die dieses Firebase-Projekt verwenden.

  • Sie gilt für alle Aufrufe, die speziell von einem Firebase AI Logic-SDK stammen.

  • Die standardmäßige Ratenbegrenzung beträgt 100 Anfragen pro Minute und Nutzer.
    Beachten Sie, dass Sie die Limits für Ihren Gemini API-Anbieter (siehe oben) berücksichtigen müssen, die Vorrang vor der Firebase AI Logic API haben.

Ratenlimit „pro Nutzer“ anpassen

Wenn Sie eine Ratenbeschränkung (Kontingent) anpassen möchten, benötigen Sie die Berechtigung serviceusage.quotas.update. Diese ist standardmäßig in den Rollen „Inhaber“ und „Bearbeiter“ enthalten.

So bearbeiten Sie Ihr Ratenlimit (Kontingent) oder beantragen eine Erhöhung:

  1. Rufen Sie in der Google Cloud Console die Seite für die Firebase AI Logic API auf.

  2. Klicken Sie auf Verwalten.

  3. Klicken Sie weiter unten auf der Seite auf den Tab Kontingente und Seite zu den Systemlimits.

  4. Filtern Sie die Tabelle, um die gewünschten Kontingente anzuzeigen, z. B. die Funktion (Anfragen zum Generieren von Inhalten) und die Region.

    Wenn Sie beispielsweise die Kontingente pro Nutzer für das Generieren von Inhaltsanfragen in einer der unterstützten asiatischen Regionen aufrufen möchten, sieht Ihr Filter in etwa so aus: Generate content requests + Dimension:region:asia

  5. Klicken Sie das Kästchen links neben jedem gewünschten Kontingent an.

  6. Klicken Sie am Ende der Zeile mit dem Kontingent auf  und wählen Sie Kontingent bearbeiten aus.

  7. Führen Sie im Formular Kontingentänderungen die folgenden Schritte aus:

    1. Geben Sie das erhöhte Kontingent in das Feld Neuer Wert ein.

      Dieses Kontingent gilt auf Projektebene und wird von allen Anwendungen und IP-Adressen geteilt, die dieses Firebase-Projekt verwenden.

    2. Füllen Sie die zusätzlichen Felder im Formular aus und klicken Sie dann auf Fertig.

    3. Klicken Sie auf Anfrage senden.