Spaces:

ErzhanAb
/

Russian_Language_Toxic_Comments

Sleeping

App Files Files Community

ErzhanAb commited on Aug 22

Commit

af1fd59

verified ·

1 Parent(s): 7304485

Update app.py

Browse files

Files changed (1) hide show

app.py +108 -33

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import joblib, json, re
 from html import unescape
 # -----------------------------
-# 1) Точная копия preprocessor
 # -----------------------------
 _URL_RE = re.compile(r'https?://\S+|www\.\S+')
 _TAG_RE = re.compile(r'[@#]\w+')
@@ -23,7 +23,7 @@ def clean_text(s: str) -> str:
     return s
 # ---------------------------------
-# 2) Загрузка пайплайна и конфига
 # ---------------------------------
 PIPE = joblib.load("model.joblib")
@@ -33,43 +33,118 @@ try:
         cfg = json.load(f)
         DEFAULT_THRESHOLD = float(cfg.get("threshold", DEFAULT_THRESHOLD))
 except Exception:
-    pass  # если файла нет — оставим дефолт 0.4
 # ---------------------------------
-# 3) Инференс
 # ---------------------------------
 def predict(comment: str, threshold: float):
-    if comment is None or not str(comment).strip():
-        return "Пустой ввод", 0.0
-    proba = float(PIPE.predict_proba([comment])[0, 1])  # preprocessor внутри PIPE
-    label = "Токсичный" if proba >= threshold else "Не токсичный"
-    return label, round(proba, 4)
-DESCRIPTION = """
-Модель для классификации токсичных комментариев (русский язык).
-Архитектура: **TF-IDF (char_wb 4–5) + Logistic Regression (L1, class_weight=balanced)**.
 """
-demo = gr.Interface(
-    fn=predict,
-    inputs=[
-        gr.Textbox(label="Комментарий", lines=4, placeholder="Введите текст на русском..."),
-        gr.Slider(0.0, 1.0, value=DEFAULT_THRESHOLD, step=0.01, label="Порог классификации"),
-    ],
-    outputs=[
-        gr.Textbox(label="Класс"),
-        gr.Number(label="Вероятность токсичности"),
-    ],
-    title="Russian Toxic Comment Classifier — TF-IDF + Logistic Regression",
-    description=DESCRIPTION,
-    flagging_mode="never",        # <-- новое API
-    cache_examples=False,         # <-- чтобы стартап не падал на кэше
-    examples=[
-        ["Ты полный идиот!", DEFAULT_THRESHOLD],
-        ["Спасибо большое за помощь!", DEFAULT_THRESHOLD],
-        ["Посмотри это <url> и скажи, что думаешь", DEFAULT_THRESHOLD],
-    ],
-)
 if __name__ == "__main__":
-    demo.launch()

 from html import unescape
 # -----------------------------
+# 1) Точная копия preprocessor (без изменений)
 # -----------------------------
 _URL_RE = re.compile(r'https?://\S+|www\.\S+')
 _TAG_RE = re.compile(r'[@#]\w+')
     return s
 # ---------------------------------
+# 2) Загрузка пайплайна и конфига (без изменений)
 # ---------------------------------
 PIPE = joblib.load("model.joblib")
         cfg = json.load(f)
         DEFAULT_THRESHOLD = float(cfg.get("threshold", DEFAULT_THRESHOLD))
 except Exception:
+    pass
 # ---------------------------------
+# 3) Обновленный инференс для нового интерфейса
 # ---------------------------------
 def predict(comment: str, threshold: float):
+    """
+    Функция инференса, адаптированная для вывода в компонент gr.Label.
+    Возвращает словарь {метка: вероятность}.
+    """
+    if not comment or not comment.strip():
+        return None # Возвращаем None, чтобы очистить поле вывода
+    proba_toxic = float(PIPE.predict_proba([comment])[0, 1])
+    proba_not_toxic = 1 - proba_toxic
+    # gr.Label автоматически выделит класс с большей вероятностью,
+    # но мы также можем сделать это наглядно, сравнив с порогом.
+    # Для простоты и наглядности, вернем вероятности для обоих классов.
+    # Компонент gr.Label сам подсветит тот, у которого значение выше.
+    if proba_toxic >= threshold:
+        # Если превышен порог, то "Токсичный" должен быть основным результатом
+        return {"Токсичный": proba_toxic, "Не токсичный": proba_not_toxic}
+    else:
+        # Иначе - "Не токсичный"
+        return {"Не токсичный": proba_not_toxic, "Токсичный": proba_toxic}
+# ---------------------------------
+# 4) Новый стильный и минималистичный интерфейс на gr.Blocks
+# ---------------------------------
+# Описание выносим в отдельную переменную для чистоты
+TITLE = "Анализатор токсичности комментариев"
+DESCRIPTION = "Введите комментарий на русском языке, чтобы определить его токсичность. Модель вернет вероятность принадлежности к классу 'Токсичный'."
+ARTICLE = """
+---
+### Детали модели
+*   **Архитектура**: TF-IDF (char_wb, n-граммы 4-5) + Логистическая регрессия (L1, class_weight=balanced).
+*   **Назначение**: Классификация русскоязычных текстов на 'Токсичный' и 'Не токсичный'.
+*   **Разработано для**: Демонстрации работы простой, но эффективной baseline-модели.
 """
+# Используем gr.Blocks для кастомного дизайна
+with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="sky")) as demo:
+    # Заголовок и описание
+    gr.Markdown(f"# {TITLE}")
+    gr.Markdown(DESCRIPTION)
+    # Основная раскладка в две колонки
+    with gr.Row():
+        # Левая колонка для ввода
+        with gr.Column(scale=2):
+            comment_input = gr.Textbox(
+                label="Текст комментария",
+                lines=5,
+                placeholder="Например: Ты полный идиот!",
+            )
+            with gr.Row():
+                clear_btn = gr.Button("Очистить", variant="secondary")
+                analyze_btn = gr.Button("Анализ", variant="primary")
+            # Примеры для быстрого тестирования
+            gr.Examples(
+                examples=[
+                    "Ты полный идиот!",
+                    "Спасибо большое за помощь!",
+                    "Посмотри это <url> и скажи, что думаешь",
+                    "Что за бред ты несешь?",
+                    "Отличная работа, продолжайте в том же духе!",
+                ],
+                inputs=comment_input,
+            )
+        # Правая колонка для вывода
+        with gr.Column(scale=1):
+            result_label = gr.Label(label="Результат", num_top_classes=2)
+    # Выпадающий блок с настройками
+    with gr.Accordion("Настройки", open=False):
+        threshold_slider = gr.Slider(
+            minimum=0.0,
+            maximum=1.0,
+            value=DEFAULT_THRESHOLD,
+            step=0.01,
+            label="Порог классификации",
+            info="Комментарий считается токсичным, если вероятность превышает это значение."
+        )
+    # Техническая информация о модели в самом низу
+    gr.Markdown(ARTICLE)
+    # --- Логика взаимодействия компонентов ---
+    # Функция для очистки полей
+    def clear_all():
+        return "", None # Очищает текстовое поле и поле с результатом
+    # Привязка функций к кнопкам и событиям
+    analyze_btn.click(
+        fn=predict,
+        inputs=[comment_input, threshold_slider],
+        outputs=result_label
+    )
+    # Также запускаем анализ по нажатию Enter в текстовом поле
+    comment_input.submit(
+        fn=predict,
+        inputs=[comment_input, threshold_slider],
+        outputs=result_label
+    )
+    clear_btn.click(fn=clear_all, inputs=[], outputs=[comment_input, result_label])
 if __name__ == "__main__":
+    demo.launch(debug=True) # debug=True помогает при отладке