무료로 Gemini API에 액세스하고 사용하는 방법 - KDnuggets

플라톤에 의해 재발행

팔로워 : 0

무료로 Gemini API에 액세스하고 사용하는 방법
작성자 별 이미지

Gemini는 Google이 개발한 새로운 모델이며 Bard는 다시 사용할 수 있게 되었습니다. Gemini를 사용하면 이제 이미지, 오디오 및 텍스트를 제공하여 쿼리에 대한 거의 완벽한 답변을 얻을 수 있습니다.

이 튜토리얼에서는 Gemini API와 이를 컴퓨터에 설정하는 방법에 대해 알아봅니다. 또한 텍스트 생성 및 이미지 이해를 포함한 다양한 Python API 기능을 살펴보겠습니다.

쌍둥이 자리 Google Research, Google DeepMind 등 Google 팀 간의 협업을 통해 개발된 새로운 AI 모델입니다. 이는 다중 모드로 특별히 제작되었습니다. 즉, 텍스트, 코드, 오디오, 이미지 및 비디오와 같은 다양한 유형의 데이터를 이해하고 사용할 수 있습니다.

Gemini는 현재까지 Google이 개발한 가장 발전되고 규모가 큰 AI 모델입니다. 데이터 센터에서 모바일 장치에 이르기까지 광범위한 시스템에서 효율적으로 작동할 수 있도록 유연성이 뛰어나도록 설계되었습니다. 이는 기업과 개발자가 AI 애플리케이션을 구축하고 확장할 수 있는 방식을 혁신할 수 있는 잠재력이 있음을 의미합니다.

다음은 다양한 사용 사례에 맞게 설계된 세 가지 버전의 Gemini 모델입니다.

제미니 울트라: 복잡한 작업을 수행할 수 있는 가장 크고 가장 발전된 AI입니다.
제미니 프로: 좋은 성능과 확장성을 갖춘 균형 잡힌 모델입니다.
제미니 나노: 모바일 장치에 가장 효율적입니다.

무료로 Gemini API에 액세스하고 사용하는 방법
이미지 출처 : 쌍둥이자리를 소개합니다

Gemini Ultra는 여러 지표에서 GPT-4의 성능을 능가하는 최첨단 성능을 갖추고 있습니다. 이는 57개의 다양한 주제에 걸쳐 세계 지식과 문제 해결을 테스트하는 Massive Multitask Language Understanding 벤치마크에서 인간 전문가를 능가하는 최초의 모델입니다. 이는 고급 이해 및 문제 해결 능력을 보여줍니다.

API를 사용하려면 먼저 여기(https://ai.google.dev/tutorials/setup)에서 사용할 수 있는 API 키를 받아야 합니다.

무료로 Gemini API에 액세스하고 사용하는 방법

그런 다음 “API 키 가져오기” 버튼을 클릭하고 “새 프로젝트에서 API 키 생성”을 클릭합니다.

무료로 Gemini API에 액세스하고 사용하는 방법

API 키를 복사하여 환경 변수로 설정합니다. 우리는 Deepnote를 사용하고 있으며 "GEMINI_API_KEY"라는 이름으로 키를 설정하는 것은 매우 쉽습니다. 통합으로 이동하여 아래로 스크롤하여 환경 변수를 선택하세요.

무료로 Gemini API에 액세스하고 사용하는 방법

다음 단계에서는 PIP를 사용하여 Python API를 설치합니다.

pip install -q -U google-generativeai

그런 다음 API 키를 Google의 GenAI로 설정하고 인스턴스를 시작하겠습니다.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

API 키를 설정한 후 Gemini Pro 모델을 사용하여 콘텐츠를 생성하는 것은 간단합니다. `generate_content` 함수에 프롬프트를 제공하고 출력을 Markdown으로 표시합니다.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

정말 놀랍습니다. 하지만 저는 그 목록에 동의하지 않습니다. 하지만 개인 취향에 따른 문제라는 점은 이해합니다.

무료로 Gemini API에 액세스하고 사용하는 방법

Gemini는 단일 프롬프트에 대해 후보라고 하는 여러 응답을 생성할 수 있습니다. 가장 적합한 것을 선택할 수 있습니다. 우리의 경우에는 응답이 하나뿐이었습니다.

response.candidates

무료로 Gemini API에 액세스하고 사용하는 방법

Python으로 간단한 게임을 작성하도록 요청해 보겠습니다.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

결과는 간단하고 요점입니다. 대부분의 LLM은 Python 코드를 작성하는 대신 설명하기 시작합니다.

무료로 Gemini API에 액세스하고 사용하는 방법

` Generation_config` 인수를 사용하여 응답을 맞춤설정할 수 있습니다. 우리는 후보 수를 1로 제한하고, 불용어 "space"를 추가하고, 최대 토큰 및 온도를 설정합니다.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

보시다시피, "space"라는 단어 앞에서 응답이 중단되었습니다. 놀라운.

무료로 Gemini API에 액세스하고 사용하는 방법

`stream` 인수를 사용하여 응답을 스트리밍할 수도 있습니다. Anthropic 및 OpenAI API와 유사하지만 더 빠릅니다.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

무료로 Gemini API에 액세스하고 사용하는 방법

이 섹션에서는 로드합니다. 마수드 아슬라미 사진을 다운로드하여 Gemini Pro Vision의 다중 모드를 테스트하는 데 사용하세요.

이미지를 `PIL`에 로드하고 표시합니다.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

우리는 Rua Augusta Arch의 고품질 사진을 가지고 있습니다.

무료로 Gemini API에 액세스하고 사용하는 방법

Gemini Pro Vision 모델을 로드하고 이미지를 제공하겠습니다.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

이 모델은 궁전을 정확하게 식별하고 궁전의 역사와 건축에 대한 추가 정보를 제공했습니다.

무료로 Gemini API에 액세스하고 사용하는 방법

GPT-4에 동일한 이미지를 제공하고 이미지에 대해 물어보겠습니다. 두 모델 모두 거의 비슷한 답변을 제공했습니다. 하지만 나는 GPT-4 응답을 더 좋아합니다.

무료로 Gemini API에 액세스하고 사용하는 방법

이제 API에 텍스트와 이미지를 제공하겠습니다. 우리는 비전 모델에게 해당 이미지를 참고하여 여행 블로그를 작성해 달라고 요청했습니다.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

그것은 나에게 짧은 블로그를 제공했습니다. 나는 더 긴 형식을 기대하고있었습니다.

무료로 Gemini API에 액세스하고 사용하는 방법

GPT-4와 비교하여 Gemini Pro Vision 모델은 긴 형식의 블로그를 생성하는 데 어려움을 겪었습니다.

무료로 Gemini API에 액세스하고 사용하는 방법

양방향 채팅 세션을 갖도록 모델을 설정할 수 있습니다. 이런 방식으로 모델은 이전 대화를 사용하여 컨텍스트와 응답을 기억합니다.

우리의 경우 채팅 세션을 시작하고 모델에게 Dota 2 게임을 시작하는 데 도움을 달라고 요청했습니다.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

보시다시피 `chat` 개체는 사용자 및 모드 채팅 기록을 저장합니다.

무료로 Gemini API에 액세스하고 사용하는 방법

무료로 Gemini API에 액세스하고 사용하는 방법

Markdown 스타일로 표시할 수도 있습니다.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

무료로 Gemini API에 액세스하고 사용하는 방법

후속 질문을 해보자.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

아래로 스크롤하여 모델의 전체 세션을 볼 수 있습니다.

무료로 Gemini API에 액세스하고 사용하는 방법

컨텍스트 인식 애플리케이션에 임베딩 모델이 점점 인기를 얻고 있습니다. Gemini embedding-001 모델을 사용하면 단어, 문장 또는 전체 문서를 의미론적 의미를 인코딩하는 밀집된 벡터로 표현할 수 있습니다. 이 벡터 표현을 사용하면 해당 임베딩 벡터를 비교하여 서로 다른 텍스트 조각 간의 유사성을 쉽게 비교할 수 있습니다.

'embed_content'에 콘텐츠를 제공하고 텍스트를 임베딩으로 변환할 수 있습니다. 그것은 그렇게 간단합니다.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

문자열 목록을 'content' 인수에 전달하여 여러 텍스트 덩어리를 임베딩으로 변환할 수 있습니다.

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])

[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

동일한 결과를 재현하는 데 문제가 있는 경우 내 딥노트 작업공간.

이 입문 튜토리얼에서 다루지 않은 고급 기능이 너무 많습니다. Gemini API에 대해 자세히 알아보려면 Gemini API: Python을 사용한 빠른 시작.

이 튜토리얼에서는 Gemini와 Python API에 액세스하여 응답을 생성하는 방법에 대해 배웠습니다. 특히 텍스트 생성, 시각적 이해, 스트리밍, 대화 기록, 사용자 정의 출력 및 임베딩에 대해 배웠습니다. 그러나 이는 Gemini가 할 수 있는 작업의 표면에 불과합니다.

무료 Gemini API를 사용하여 구축한 내용을 저에게 자유롭게 공유해 주세요. 가능성은 무한합니다.

아비드 알리 아완 (@1abidaliawan)은 기계 학습 모델 구축을 좋아하는 공인 데이터 과학자 전문가입니다. 현재 그는 콘텐츠 제작에 집중하고 있으며 머신 러닝 및 데이터 과학 기술에 대한 기술 블로그를 작성하고 있습니다. Abid는 기술 관리 석사 학위와 통신 공학 학사 학위를 보유하고 있습니다. 그의 비전은 정신 질환으로 고생하는 학생들을 위해 그래프 신경망을 사용하여 AI 제품을 만드는 것입니다.