Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Gemini API를 사용하여 문서 (예: PDF) 분석

Gemini 모델에 인라인(base64로 인코딩됨) 또는 URL을 통해 제공하는 문서 파일 (예: PDF 및 일반 텍스트 파일)을 분석해 달라고 요청할 수 있습니다. Firebase AI Logic를 사용하는 경우 앱에서 직접 이 요청을 할 수 있습니다.

이 기능을 사용하면 다음과 같은 작업을 할 수 있습니다.

문서 내 다이어그램, 차트, 표 분석
구조화된 출력 형식으로 정보 추출
문서의 시각적 콘텐츠 및 텍스트 콘텐츠에 관한 질문에 답변
문서 요약
다운스트림 애플리케이션 (예: RAG 파이프라인)에서 사용할 수 있도록 레이아웃과 서식을 유지하면서 문서 콘텐츠를 트랜스크립션합니다 (예: HTML로).

코드 샘플로 이동 스트리밍된 응답의 코드로 이동

문서 (예: PDF)로 작업하는 추가 옵션은 다른 가이드를 참고하세요.
구조화된 출력 생성 여러 차례의 대화

시작하기 전에

Gemini API 제공업체를 클릭하여 이 페이지에서 제공업체별 콘텐츠와 코드를 확인합니다.

아직 완료하지 않았다면 Firebase 프로젝트를 설정하고, 앱을 Firebase에 연결하고, SDK를 추가하고, 선택한 Gemini API 제공업체의 백엔드 서비스를 초기화하고, GenerativeModel 인스턴스를 만드는 방법을 설명하는 시작 가이드를 완료합니다.

프롬프트를 테스트하고 반복하려면 Google AI Studio를 사용하는 것이 좋습니다.

샘플 PDF 파일이 필요하신가요?

MIME 유형이 application/pdf인 공개 파일을 사용할 수 있습니다(파일 보기 또는 다운로드). https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf

참고: Firebase AI Logic은 아직 입력 미디어 해상도 구성을 지원하지 않지만 곧 지원될 예정입니다.

PDF 파일에서 텍스트 생성 (base64 인코딩)

이 샘플을 사용해 보기 전에 이 가이드의 시작하기 전에 섹션을 완료하여 프로젝트와 앱을 설정하세요.
이 섹션에서는 선택한 Gemini API 제공업체의 버튼을 클릭하여 이 페이지에 제공업체별 콘텐츠가 표시되도록 합니다.

텍스트와 PDF로 프롬프트를 지정하여 Gemini 모델에 텍스트를 생성해 달라고 요청할 수 있습니다. 각 입력 파일의 mimeType와 파일을 제공하면 됩니다. 이 페이지의 뒷부분에서 입력 파일 요구사항 및 권장사항을 확인하세요.