Spaces:

DomiDelgado2314
/

ejemploClase

Sleeping

App Files Files Community

JDomingoDelgadoAlonso commited on Apr 24

Commit

2283654

1 Parent(s): 0b1ff79

aa

Browse files

Files changed (2) hide show

app3.py +67 -53
requirements.txt +2 -1

app3.py CHANGED Viewed

@@ -7,21 +7,34 @@ import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 # Detectar si hay GPU
-device = "cuda" if torch.cuda.is_available() else "cpu"
-# Cargar el modelo de Stable Diffusion
 pipe = StableDiffusionPipeline.from_pretrained(
-    "CompVis/stable-diffusion-v1-4",  # Modelo general para fantasía
-    torch_dtype=torch.float16 if device == "cuda" else torch.float32,
-    revision="fp16" if device == "cuda" else None,
-    use_auth_token=True  # Asegúrate de estar logueado en Hugging Face CLI o usar token
 )
 pipe = pipe.to(device)
-# Función para analizar la imagen y obtener una descripción literal
 def analizar_rostro(image):
     image_np = np.array(image)
     result = DeepFace.analyze(image_np, actions=["age", "gender", "emotion", "race"], enforce_detection=False)
     if isinstance(result, list):
@@ -39,68 +52,67 @@ def analizar_rostro(image):
         "latino hispanic": "latino/hispano"
     }
     color_piel = raza.get(result.get('dominant_race', '').lower(), "de piel desconocida")
-    # Asignar valores predeterminados para ojos y cabello
-    color_ojos = "con ojos azules"  # Valor predeterminado
-    color_pelo = "y pelo rubio"    # Valor predeterminado
-    descripcion_literal = (
         f"Una persona {color_piel}, {color_ojos} {color_pelo}, de aproximadamente {result.get('age', 'una edad desconocida')} años, "
         f"que parece estar {result.get('dominant_emotion', 'sin emoción destacada')}. Esta persona es {gender_text}."
     )
-    return descripcion_literal
-# Cargar el modelo GPT-Neo o GPT-J y su tokenizador desde Hugging Face
-model_name = "EleutherAI/gpt-neo-1.3B"  # Modelo GPT-Neo 1.3B
-model = AutoModelForCausalLM.from_pretrained(model_name)
-tokenizer = AutoTokenizer.from_pretrained(model_name)
 def generar_fantasia(descripcion_literal):
-    # Agregar descripción breve de ropa mágica y lugar fantástico
-    prompt = (
-        f"{descripcion_literal} Esta persona lleva una capa brillante que cambia de color según la luz. "
-        "Su atuendo está adornado con gemas que brillan con una luz etérea. "
-        "Está en un mundo lleno de paisajes impresionantes: castillos flotantes, cielos con auroras mágicas, "
-        "y un bosque donde los árboles hablan y el aire está lleno de magia."
     )
-    # Generar el texto basado en el prompt
-    inputs = tokenizer(prompt, return_tensors="pt")
-    # Generar la salida con el modelo, controlando la longitud y la creatividad
     outputs = model.generate(
         **inputs,
-        max_new_tokens=50,  # Limitar la longitud del texto para que no se enrede
-        num_return_sequences=1,  # Solo una salida
-        temperature=0.7,  # Control de creatividad
-        no_repeat_ngram_size=2,  # Evitar repeticiones
-        top_p=0.9,  # Nucleus sampling
-        top_k=50  # Limitar las opciones de palabras
     )
-    # Decodificar la salida y asegurarse de que solo generemos lo necesario
-    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    # Asegurarse de que no repita el prompt y solo genere lo necesario
-    if generated_text.startswith(prompt):
-        generated_text = generated_text[len(prompt):].strip()
-    # Devolver la descripción literal junto con lo generado (ropa mágica + lugar fantástico)
-    return descripcion_literal + " " + generated_text.strip()
-# Generar imagen con Stable Diffusion
-def generar_imagen_fantasia(descripcion_fantasia):
-    # Genera la imagen usando el modelo Stable Diffusion
-    image = pipe(descripcion_fantasia).images[0]
     return image
-# Interfaz con Gradio
 with gr.Blocks() as demo:
     with gr.Row():
         image_input = gr.Image(type="pil", label="Sube tu imagen")
         descripcion_output = gr.Textbox(label="Descripción literal", interactive=True)
     with gr.Row():
         boton_fantasia = gr.Button("Generar personaje de fantasía")
         descripcion_fantasia_output = gr.Textbox(label="Descripción de fantasía", interactive=False)
@@ -109,13 +121,15 @@ with gr.Blocks() as demo:
         boton_imagen = gr.Button("Generar imagen de fantasía")
         output_image = gr.Image(label="Imagen de fantasía")
-    # Procesos de análisis y generación de fantasía
     image_input.change(analizar_rostro, inputs=image_input, outputs=descripcion_output)
     boton_fantasia.click(generar_fantasia, inputs=descripcion_output, outputs=descripcion_fantasia_output)
     boton_imagen.click(generar_imagen_fantasia, inputs=descripcion_fantasia_output, outputs=output_image)
 print(f"Usando dispositivo: {device}")
-import torch
-print("CUDA disponible:", torch.cuda.is_available())
-print("Dispositivo actual:", torch.cuda.get_device_name(0) if torch.cuda.is_available() else "Ninguno")
-demo.launch()

 from transformers import AutoModelForCausalLM, AutoTokenizer
 # Detectar si hay GPU
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# Cargar modelo de difusión especializado en fantasía (modelo público)
 pipe = StableDiffusionPipeline.from_pretrained(
+    "nitrosocke/Arcane-Diffusion",  # o el que prefieras
+    torch_dtype=torch.float16 if device.type == "cuda" else torch.float32
 )
 pipe = pipe.to(device)
+# Modelo GPT-Neo para enriquecer la descripción
+model_name = "EleutherAI/gpt-neo-1.3B"
+model = AutoModelForCausalLM.from_pretrained(model_name).to(device)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+# Función para recortar el prompt a 77 tokens
+def recortar_prompt(prompt, max_tokens=77):
+    # Tokenizamos el texto para obtener el número de tokens
+    tokens = tokenizer(prompt, return_tensors="pt")["input_ids"]
+    # Si excede el límite de tokens, recortamos el prompt
+    if len(tokens[0]) > max_tokens:
+        tokens = tokens[0][:max_tokens]
+        # Decodificamos nuevamente para obtener el texto recortado
+        prompt = tokenizer.decode(tokens, skip_special_tokens=True)
+    return prompt
+# Analizar rostro
 def analizar_rostro(image):
     image_np = np.array(image)
     result = DeepFace.analyze(image_np, actions=["age", "gender", "emotion", "race"], enforce_detection=False)
     if isinstance(result, list):
         "latino hispanic": "latino/hispano"
     }
     color_piel = raza.get(result.get('dominant_race', '').lower(), "de piel desconocida")
+    color_ojos = "con ojos azules"
+    color_pelo = "y pelo rubio"
+    descripcion = (
         f"Una persona {color_piel}, {color_ojos} {color_pelo}, de aproximadamente {result.get('age', 'una edad desconocida')} años, "
         f"que parece estar {result.get('dominant_emotion', 'sin emoción destacada')}. Esta persona es {gender_text}."
     )
+    return descripcion
+# Generar descripción de fantasía
 def generar_fantasia(descripcion_literal):
+    prompt_base = (
+        f"{descripcion_literal} Lleva una capa mágica que cambia de color con la luz, y su ropa está adornada con gemas brillantes. "
+        "Está en un mundo fantástico con castillos flotantes, cielos con auroras mágicas y un bosque encantado donde los árboles susurran secretos. Allí, esta persona..."
     )
+    inputs = tokenizer(prompt_base, return_tensors="pt").to(device)
     outputs = model.generate(
         **inputs,
+        max_new_tokens=50,
+        temperature=0.7,
+        no_repeat_ngram_size=2,
+        top_p=0.9,
+        top_k=50
     )
+    generated = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    if generated.startswith(prompt_base):
+        generated = generated[len(prompt_base):].strip()
+    return prompt_base + " " + generated
+# Generar imagen con prompt mejorado y negative prompt
+def generar_imagen_fantasia(descripcion_fantasia):
+    # Recortamos el prompt para asegurarnos de que no exceda el límite de tokens
+    descripcion_fantasia_recortada = recortar_prompt(descripcion_fantasia)
+    prompt_visual = (
+        f"{descripcion_fantasia_recortada}. Fantasy portrait, glowing magical cloak, enchanted gems, floating castles, magical auroras in the sky, enchanted forest, cinematic lighting, fantasy art style, 8k"
+    )
+    # Recortamos también el prompt visual para no exceder el límite de tokens
+    descripcion_fantasia_recortada = recortar_prompt(prompt_visual)
+    # Mostrar por pantalla el prompt que se utiliza para generar la imagen
+    print("Prompt para generar la imagen:", descripcion_fantasia_recortada)
+    image = pipe(
+        descripcion_fantasia_recortada,
+        negative_prompt="modern clothing, blurry, low quality, photo style, watermark, nsfw, ugly, bad anatomy, disfigured, deformed, extra limbs, close up, out of frame, mutation, mutated, ugly, poorly drawn face, mutation",
+        num_inference_steps=50,
+        guidance_scale=7.5,
+    ).images[0]
     return image
+# Interfaz Gradio
 with gr.Blocks() as demo:
     with gr.Row():
         image_input = gr.Image(type="pil", label="Sube tu imagen")
         descripcion_output = gr.Textbox(label="Descripción literal", interactive=True)
     with gr.Row():
         boton_fantasia = gr.Button("Generar personaje de fantasía")
         descripcion_fantasia_output = gr.Textbox(label="Descripción de fantasía", interactive=False)
         boton_imagen = gr.Button("Generar imagen de fantasía")
         output_image = gr.Image(label="Imagen de fantasía")
     image_input.change(analizar_rostro, inputs=image_input, outputs=descripcion_output)
     boton_fantasia.click(generar_fantasia, inputs=descripcion_output, outputs=descripcion_fantasia_output)
     boton_imagen.click(generar_imagen_fantasia, inputs=descripcion_fantasia_output, outputs=output_image)
 print(f"Usando dispositivo: {device}")
+if device.type == "cuda":
+    print("CUDA disponible:", torch.cuda.is_available())
+    print("Dispositivo actual:", torch.cuda.get_device_name(0))
+else:
+    print("Dispositivo actual: CPU")
+demo.launch()

requirements.txt CHANGED Viewed

@@ -7,4 +7,5 @@ tf-keras
 diffusers==0.32.2
 accelerate==1.5.2
 pydantic==2.10.6
-hf_xet

 diffusers==0.32.2
 accelerate==1.5.2
 pydantic==2.10.6
+hf_xet
+scipy