Spaces:

carlosdelfino
/

QnA-Granite

Sleeping

App Files Files Community

QnA-Granite / README.md

carlosdelfino

Documentação

c568e8b 4 months ago

preview code

raw

history blame contribute delete

2.62 kB

metadata

title: QnA Granite
emoji: 🤯
colorFrom: yellow
colorTo: green
sdk: docker
pinned: false

You is

19/07/2025

Sobre

Space de Perguntas e Respostas (QnA) em Português usando o modelo carlosdelfino/OSCAR-2025-pt, servido via FastAPI + Uvicorn. O container (sdk: docker) inicializa um endpoint /qna para gerar respostas condicionadas a uma pergunta e, opcionalmente, um contexto.

Endpoints

GET /health — healthcheck simples e id do modelo
POST /qna — gera uma resposta

Request body:

{
  "question": "Qual é a capital do Brasil?",
  "context": "O Brasil é um país da América do Sul.",
  "max_new_tokens": 256,
  "temperature": 0.2,
  "top_p": 0.9
}

Resposta:

{
  "answer": "Brasília.",
  "model": "carlosdelfino/OSCAR-2025-pt",
  "tokens_generated": 12
}

Exemplo com curl

curl -sS -X POST "http://localhost:7860/qna" \
  -H "Content-Type: application/json" \
  -d '{
    "question": "Explique o que é aprendizado de máquina em poucas palavras.",
    "context": "",
    "max_new_tokens": 128,
    "temperature": 0.3,
    "top_p": 0.9
  }' | jq .

Execução Local

Python 3.11 recomendado. Instale Torch CPU e dependências:

pip install --index-url https://download.pytorch.org/whl/cpu \
  torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1
pip install -r requirements.txt

Rode o servidor:

uvicorn app.main:app --host 0.0.0.0 --port 7860

Docker

Build e run (CPU):

docker build -t qna-granite:latest .
docker run --rm -it -p 7860:7860 \
  -e MODEL_ID=carlosdelfino/OSCAR-2025-pt \
  qna-granite:latest

Notas

Carregamento lazy do pipeline em app/main.py para reduzir cold start.
Variável MODEL_ID pode ser alterada via env. Padrão: carlosdelfino/OSCAR-2025-pt.
Este Space usa sdk: docker. Referência: https://huggingface.co/docs/hub/spaces-config-reference