Spaces:
Sleeping
Sleeping
metadata
title: QnA Granite
emoji: 🤯
colorFrom: yellow
colorTo: green
sdk: docker
pinned: false
You is
Sobre
Space de Perguntas e Respostas (QnA) em Português usando o modelo carlosdelfino/OSCAR-2025-pt, servido via FastAPI + Uvicorn. O container (sdk: docker) inicializa um endpoint /qna para gerar respostas condicionadas a uma pergunta e, opcionalmente, um contexto.
Endpoints
GET /health— healthcheck simples e id do modeloPOST /qna— gera uma resposta
Request body:
{
"question": "Qual é a capital do Brasil?",
"context": "O Brasil é um país da América do Sul.",
"max_new_tokens": 256,
"temperature": 0.2,
"top_p": 0.9
}
Resposta:
{
"answer": "Brasília.",
"model": "carlosdelfino/OSCAR-2025-pt",
"tokens_generated": 12
}
Exemplo com curl
curl -sS -X POST "http://localhost:7860/qna" \
-H "Content-Type: application/json" \
-d '{
"question": "Explique o que é aprendizado de máquina em poucas palavras.",
"context": "",
"max_new_tokens": 128,
"temperature": 0.3,
"top_p": 0.9
}' | jq .
Execução Local
- Python 3.11 recomendado. Instale Torch CPU e dependências:
pip install --index-url https://download.pytorch.org/whl/cpu \
torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1
pip install -r requirements.txt
- Rode o servidor:
uvicorn app.main:app --host 0.0.0.0 --port 7860
Docker
Build e run (CPU):
docker build -t qna-granite:latest .
docker run --rm -it -p 7860:7860 \
-e MODEL_ID=carlosdelfino/OSCAR-2025-pt \
qna-granite:latest
Notas
- Carregamento lazy do pipeline em
app/main.pypara reduzir cold start. - Variável
MODEL_IDpode ser alterada via env. Padrão:carlosdelfino/OSCAR-2025-pt. - Este Space usa sdk: docker. Referência: https://huggingface.co/docs/hub/spaces-config-reference