Spaces:

ErzhanAb
/

Russian_Language_Toxic_Comments

Sleeping

App Files Files Community

ErzhanAb commited on Aug 24

Commit

0f016d8

verified ·

1 Parent(s): 0249c73

Update app.py

Browse files

Files changed (1) hide show

app.py +53 -43

app.py CHANGED Viewed

@@ -5,13 +5,12 @@ import gradio as gr
 import numpy as np
 # ==============================
-# 1) КОНФИГ
 # ==============================
-MODEL_DIR = "rubert_tiny2_toxic_minprep"   # <-- папка с checkpoint'ом
 MAX_LEN = 256
-DEFAULT_THRESHOLD = 0.65  # дефолт, если нет файла с рекомендацией
-# подхватываем рекомендованный порог, сохранённый при обучении
 cfg_path = os.path.join(MODEL_DIR, "inference_config.json")
 try:
     if os.path.exists(cfg_path):
@@ -21,7 +20,7 @@ except Exception:
     pass
 # ==============================
-# 2) ЗАГРУЗКА МОДЕЛИ
 # ==============================
 TRANSFORMER = {"model": None, "tokenizer": None, "device": "cpu", "loaded": False}
 try:
@@ -44,13 +43,12 @@ except Exception as e:
     print(f"[WARN] Не удалось загрузить модель из '{MODEL_DIR}': {e}")
 # ==============================
-# 3) ИНФЕРЕНС
 # ==============================
 def infer(comment: str, threshold: float):
     """
-    Возвращает (вердикт, распределение вероятностей).
-    Текст подаём в токенизатор как есть (без стемминга/очистки),
-    потому что так модель обучалась (minprep).
     """
     text = (comment or "").strip()
     if not text:
@@ -70,65 +68,77 @@ def infer(comment: str, threshold: float):
     dist = {"Токсичный": p_toxic, "Не токсичный": 1.0 - p_toxic}
     return verdict, dist
 def clear_all():
-    """Сброс полей UI к дефолту."""
-    return "", DEFAULT_THRESHOLD, "—", {"Токсичный": 0.0, "Не токсичный": 1.0}
 # ==============================
-# 4) UI
 # ==============================
-TITLE = "Анализатор токсичности (ruBERT-tiny2, minprep)"
-DESCRIPTION = "Введите комментарий и при необходимости настройте порог классификации."
 CUSTOM_CSS = """
 @import url('https://fonts.googleapis.com/css2?family=Inter:wght@400;600;700&display=swap');
 :root { --font: 'Inter', system-ui, -apple-system, Segoe UI, Roboto, sans-serif; }
-.gradio-container { max-width: 960px !important; margin: auto !important; }
-#verdict-output span { font-size: 1.8rem !important; font-weight: 700 !important; }
 """
-with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="sky"), css=CUSTOM_CSS) as demo:
-    gr.Markdown(f"# {TITLE}")
-    gr.Markdown(DESCRIPTION)
-    with gr.Row(variant="panel"):
-        with gr.Column(scale=2):
             comment_input = gr.Textbox(
-                label="Текст комментария",
-                lines=6,
-                placeholder="Напишите что-нибудь…"
             )
             thr = gr.Slider(
                 label="Порог классификации",
                 minimum=0.0, maximum=1.0,
                 value=DEFAULT_THRESHOLD, step=0.01
             )
             with gr.Row():
-                analyze_btn = gr.Button("Анализ", variant="primary", scale=2)
-                clear_btn = gr.Button("Очистить", variant="secondary", scale=1)
-        with gr.Column(scale=1):
-            verdict_output = gr.Text(label="Вердикт", elem_id="verdict-output", value="—")
             result_label = gr.Label(
-                label="Распределение вероятностей",
                 value={"Токсичный": 0.0, "Не токсичный": 1.0},
                 num_top_classes=2
             )
-    with gr.Accordion("О модели", open=False):
-        gr.Markdown(
-            """
-**База:** `cointegrated/rubert-tiny2` (облегчённый BERT для русского), дообучен на задаче токсичности.
-**Предобработка:** минимальная (сырой текст; без стемминга и удаления пунктуации).
-**Макс. длина:** 256 токенов.
-**Рекомендованный порог:** ~**0.65** (по валидации для лучшего F1). Для более строгой фильтрации используйте 0.70+.
-            """
-        )
-    analyze_btn.click(infer, [comment_input, thr], [verdict_output, result_label])
-    comment_input.submit(infer, [comment_input, thr], [verdict_output, result_label])
-    clear_btn.click(clear_all, [], [comment_input, thr, verdict_output, result_label])
 if __name__ == "__main__":
     demo.launch()

 import numpy as np
 # ==============================
+# 1) КОНФИГ (без изменений)
 # ==============================
+MODEL_DIR = "rubert_tiny2_toxic_minprep"
 MAX_LEN = 256
+DEFAULT_THRESHOLD = 0.65
 cfg_path = os.path.join(MODEL_DIR, "inference_config.json")
 try:
     if os.path.exists(cfg_path):
     pass
 # ==============================
+# 2) ЗАГРУЗКА МОДЕЛИ (без изменений)
 # ==============================
 TRANSFORMER = {"model": None, "tokenizer": None, "device": "cpu", "loaded": False}
 try:
     print(f"[WARN] Не удалось загрузить модель из '{MODEL_DIR}': {e}")
 # ==============================
+# 3) ИНФЕРЕНС (без изменений)
 # ==============================
 def infer(comment: str, threshold: float):
     """
+    Основная логика, возвращает (вердикт, распределение).
+    Функционал не меняется.
     """
     text = (comment or "").strip()
     if not text:
     dist = {"Токсичный": p_toxic, "Не токсичный": 1.0 - p_toxic}
     return verdict, dist
+# ==============================
+# 4) ФУНКЦИИ-ОБЁРТКИ ДЛЯ UI (ИЗМЕНЕНО)
+# ==============================
+def predict_for_ui(comment: str, threshold: float):
+    """
+    Вызывает infer, но возвращает только распределение,
+    так как блок "Вердикт" убран.
+    """
+    verdict, dist = infer(comment, threshold)
+    return dist
 def clear_all():
+    """Сброс полей UI к дефолту (без поля 'вердикт')."""
+    return "", DEFAULT_THRESHOLD, {"Токсичный": 0.0, "Не токсичный": 1.0}
 # ==============================
+# 5) UI (ПОЛНОСТЬЮ ПЕРЕРАБОТАНО)
 # ==============================
+TITLE = "Анализатор токсичности комментариев"
+DESCRIPTION = "Модель на базе `ruBERT-tiny2` для определения токсичности в русскоязычном тексте."
+# Убрали лишний CSS, так как тема Default справляется сама
 CUSTOM_CSS = """
 @import url('https://fonts.googleapis.com/css2?family=Inter:wght@400;600;700&display=swap');
 :root { --font: 'Inter', system-ui, -apple-system, Segoe UI, Roboto, sans-serif; }
 """
+# Используем gr.themes.Default для идеальной адаптации к светлой/тёмной теме
+with gr.Blocks(theme=gr.themes.Default(), css=CUSTOM_CSS) as demo:
+    gr.Markdown(f"<div style='text-align: center;'><h1>{TITLE}</h1><p>{DESCRIPTION}</p></div>")
+    with gr.Row():
+        with gr.Column(scale=3):
             comment_input = gr.Textbox(
+                label="Текст для анализа",
+                lines=8,
+                placeholder="Напишите что-нибудь..."
             )
             thr = gr.Slider(
                 label="Порог классификации",
+                info="Визуально не меняет результат, но влияет на вердикт 'Токсичный'/'Не токсичный' в вашей интерпретации.",
                 minimum=0.0, maximum=1.0,
                 value=DEFAULT_THRESHOLD, step=0.01
             )
             with gr.Row():
+                clear_btn = gr.Button("Очистить", variant="secondary")
+                analyze_btn = gr.Button("Анализировать", variant="primary")
+        with gr.Column(scale=2):
             result_label = gr.Label(
+                label="Результат",
                 value={"Токсичный": 0.0, "Не токсичный": 1.0},
                 num_top_classes=2
             )
+            # Блок "О модели" теперь всегда видим и оформлен в gr.Box
+            with gr.Box():
+                gr.Markdown(
+                    """
+                    ### О модели
+                    - **База:** `cointegrated/rubert-tiny2` (облегчённый BERT для русского), дообучен на задаче классификации токсичности.
+                    - **Предобработка:** Минимальная (модель принимает сырой текст).
+                    - **Макс. длина:** 256 токенов.
+                    - **Рекомендованный порог:** `~0.65`. Повышение порога (до 0.70+) делает модель более строгой, снижая количество ложных срабатываний.
+                    """
+                )
+    # Привязываем UI к функциям-обёрткам
+    analyze_btn.click(predict_for_ui, [comment_input, thr], [result_label])
+    comment_input.submit(predict_for_ui, [comment_input, thr], [result_label])
+    clear_btn.click(clear_all, [], [comment_input, thr, result_label])
 if __name__ == "__main__":
     demo.launch()