Spaces:

ErzhanAb
/

Russian_Language_Toxic_Comments

Running

App Files Files Community

ErzhanAb commited on Aug 24

Commit

783893f

verified ·

1 Parent(s): 8f752fe

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -88

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import gradio as gr
 import numpy as np
 # ==============================
-# 1. ПРЕПРОЦЕССОР ДЛЯ TF-IDF (ВАЖНО: ДОЛЖЕН БЫТЬ ОПРЕДЕЛЕН ПЕРЕД ЗАГРУЗКОЙ)
 # ==============================
 _URL_RE_TFIDF = re.compile(r'https?://\S+|www\.\S+')
 _TAG_RE_TFIDF = re.compile(r'[@#]\w+')
@@ -13,10 +13,7 @@ _NUM_RE_TFIDF = re.compile(r'\d+')
 _WS_RE_TFIDF  = re.compile(r'\s+')
 def clean_text(s: str) -> str:
-    """
-    Эта функция нужна для корректной загрузки model.joblib.
-    Она должна полностью совпадать с той, что использовалась при обучении.
-    """
     if not isinstance(s, str):
         s = str(s)
     s = unescape(s).lower()
@@ -28,8 +25,9 @@ def clean_text(s: str) -> str:
     return s
 # ==============================
-# 2. TF-IDF + LR (joblib / sklearn)
 # ==============================
 PIPE, PIPE_PATH = None, "model.joblib"
 try:
     import joblib
@@ -41,27 +39,22 @@ except Exception as e:
     print(f"[WARN] Не удалось инициализировать TF-IDF: {e}")
     PIPE = None
-# ==============================
-# 3. Transformer (ruBERT-tiny2) - БЕЗ ИЗМЕНЕНИЙ
-# ==============================
 TRANSFORMER = {"model": None, "tokenizer": None, "device": "cpu"}
 try:
     import torch
     from transformers import AutoTokenizer, AutoModelForSequenceClassification
-    MODEL_DIR = "."  # файлы трансформера лежат в корне Space
     device = "cuda" if torch.cuda.is_available() else "cpu"
     tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, local_files_only=True)
     model = AutoModelForSequenceClassification.from_pretrained(MODEL_DIR, local_files_only=True)
     model.to(device).eval()
     TRANSFORMER.update({"model": model, "tokenizer": tokenizer, "device": device})
 except Exception as e:
     print(f"[WARN] Не удалось загрузить ruBERT: {e}")
 # ==============================
-# Порог по умолчанию - БЕЗ ИЗМЕНЕНИЙ
 # ==============================
 DEFAULT_THRESHOLD = 0.70
 try:
@@ -73,11 +66,10 @@ except Exception:
     pass
 # ==============================
-# Предобработка (как при обучении трансформера) - БЕЗ ИЗМЕНЕНИЙ
 # ==============================
 from nltk.stem.snowball import RussianStemmer
 stemmer = RussianStemmer(ignore_stopwords=False)
 _URL_RE   = re.compile(r'https?://\S+|www\.\S+')
 _TAG_RE   = re.compile(r'[@#]\w+')
 _NUM_RE   = re.compile(r'\d+')
@@ -85,49 +77,31 @@ _PUNCT_RE = re.compile(r"[^\w\s]+", flags=re.UNICODE)
 _WS_RE    = re.compile(r"\s+")
 def clean_and_stem(s: str) -> str:
-    if not isinstance(s, str):
-        s = str(s)
     s = unescape(s).lower()
-    s = _URL_RE.sub(" url ", s)
-    s = _TAG_RE.sub(" tag ", s)
-    s = _NUM_RE.sub(" num ", s)
-    s = _PUNCT_RE.sub(" ", s)
-    s = _WS_RE.sub(" ", s).strip()
-    if not s:
-        return s
-    out = []
-    for t in s.split(" "):
-        out.append(t if t in {"url", "tag", "num"} else stemmer.stem(t))
-    return " ".join(out)
 # ==============================
-# Инференс - ИСПРАВЛЕНО СООБЩЕНИЕ ОБ ОШИБКЕ
 # ==============================
 def infer_tfidf(text: str):
     if PIPE is None:
-        # Указываем точный путь к файлу в сообщении об ошибке
-        return None, f"TF-IDF модель не загружена (ожидался файл '{PIPE_PATH}'). Проверьте логи запуска."
     try:
-        if hasattr(PIPE, "predict_proba"):
-            proba = PIPE.predict_proba([text])[0, 1]
-        elif hasattr(PIPE, "decision_function"):
-            z = PIPE.decision_function([text])[0]
-            proba = 1.0 / (1.0 + np.exp(-z))
-        else:
-            return None, "У модели нет методов predict_proba/decision_function."
-        proba = float(np.clip(proba, 0.0, 1.0))
-        return proba, None
     except Exception as e:
         return None, f"Ошибка инференса TF-IDF: {e}"
-# Остальная часть файла без изменений
 def infer_transformer(text: str):
     if TRANSFORMER["model"] is None:
         return None, "Модель ruBERT не загружена."
     import torch
     text_prep = clean_and_stem(text)
-    if not text_prep:
-        return 0.0, None
     tok = TRANSFORMER["tokenizer"](text_prep, return_tensors="pt", truncation=True, max_length=256)
     tok = {k: v.to(TRANSFORMER["device"]) for k, v in tok.items()}
     try:
@@ -138,12 +112,13 @@ def infer_transformer(text: str):
     except Exception as e:
         return None, f"Ошибка инференса ruBERT: {e}"
 def predict(model_name: str, comment: str, threshold: float):
     comment = (comment or "").strip()
     if not comment:
-        return {"Токсичный": 0.0, "Не токсичный": 1.0}, "—"
-    if model_name == "ruBERT-tiny2 (трансформер)":
         p_toxic, err = infer_transformer(comment)
     else:
         p_toxic, err = infer_tfidf(comment)
@@ -151,74 +126,93 @@ def predict(model_name: str, comment: str, threshold: float):
     if err is not None or p_toxic is None:
         dist = {"Токсичный": 0.0, "Не токсичный": 1.0}
         expl = f"Модель: **{model_name}**\n\n⚠️ {err}"
-        return dist, expl
-    pred = "Токсичный" if p_toxic >= threshold else "Не токсичный"
     dist = {"Токсичный": p_toxic, "Не токсичный": 1 - p_toxic}
     expl = (
-        f"Модель: **{model_name}**  \n"
-        f"Порог: **{threshold:.2f}**  \n"
-        f"Вероятность токсичности: **{p_toxic:.3f}**  \n"
-        f"Предсказание: **{pred}**"
     )
-    return dist, expl
 def clear_all():
-    return "ruBERT-tiny2 (трансформер)", "", DEFAULT_THRESHOLD, {"Токсичный": 0.0, "Не токсичный": 1.0}, "—"
 # ==============================
-# UI - БЕЗ ИЗМЕНЕНИЙ
 # ==============================
-TITLE = "Анализатор токсичности (две модели)"
-DESCRIPTION = "Выберите модель, задайте порог (по умолчанию 0.70) и введите комментарий."
 CUSTOM_CSS = """
 @import url('https://fonts.googleapis.com/css2?family=Inter:wght@400;600;700&display=swap');
 :root { --font: 'Inter', system-ui, -apple-system, Segoe UI, Roboto, sans-serif; }
-"""
-ABOUT_MD = """
-### Параметры и описание моделей
-**1) ruBERT-tiny2 (трансформер)**
-- База: `cointegrated/rubert-tiny2` (BERT-tiny для русского).
-- Токенизация: BERT WordPiece.
-- Предобработка: удаление пунктуации, нормализация спец-токенов (`url`, `tag`, `num`), стемминг Snowball.
-- Обучение: 10 эпох с early stopping (по macro-F1), class weights (balanced).
-- Рекомендованный порог: ~**0.70**.
-**2) TF-IDF + Логистическая регрессия**
-- `TfidfVectorizer(analyzer="char_wb", ngram_range=(4,5), max_features≈200k, min_df≈1.75e-4, max_df≈0.96)`.
-- `LogisticRegression(penalty="l1", solver="liblinear", C≈5.52, class_weight="balanced", max_iter=5000, tol≈2.4e-4)`.
-- Рекомендованный порог: ~**0.40**.
-> Порог можно свободно менять слайдером — подбирайте нужный баланс precision/recall.
 """
 with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="sky"), css=CUSTOM_CSS) as demo:
     gr.Markdown(f"# {TITLE}")
     gr.Markdown(DESCRIPTION)
-    with gr.Row():
         with gr.Column(scale=2):
             model_sel = gr.Dropdown(
                 ["ruBERT-tiny2 (трансформер)", "TF-IDF + Логистическая регрессия"],
-                value="ruBERT-tiny2 (трансформер)",
-                label="Модель"
             )
-            comment_input = gr.Textbox(label="Текст комментария", lines=6, placeholder="Напишите что-нибудь…")
-            thr = gr.Slider(label="Порог классификации", minimum=0.0, maximum=1.0,
-                            value=DEFAULT_THRESHOLD, step=0.01)
             with gr.Row():
-                analyze_btn = gr.Button("Анализ", variant="primary")
-                clear_btn = gr.Button("Очистить", variant="secondary")
         with gr.Column(scale=1):
-            result_label = gr.Label(label="Распределение по классам", num_top_classes=2)
-            result_md = gr.Markdown(value="—")
-    gr.Markdown(ABOUT_MD)
-    analyze_btn.click(predict, [model_sel, comment_input, thr], [result_label, result_md])
-    comment_input.submit(predict, [model_sel, comment_input, thr], [result_label, result_md])
-    clear_btn.click(clear_all, [], [model_sel, comment_input, thr, result_label, result_md])
 if __name__ == "__main__":
     demo.launch()

 import numpy as np
 # ==============================
+# 1. ПРЕПРОЦЕССОР ДЛЯ TF-IDF
 # ==============================
 _URL_RE_TFIDF = re.compile(r'https?://\S+|www\.\S+')
 _TAG_RE_TFIDF = re.compile(r'[@#]\w+')
 _WS_RE_TFIDF  = re.compile(r'\s+')
 def clean_text(s: str) -> str:
+    """Эта функция нужна для корректной загрузки model.joblib."""
     if not isinstance(s, str):
         s = str(s)
     s = unescape(s).lower()
     return s
 # ==============================
+# 2. ЗАГРУЗКА МОДЕЛЕЙ
 # ==============================
+# TF-IDF + LR
 PIPE, PIPE_PATH = None, "model.joblib"
 try:
     import joblib
     print(f"[WARN] Не удалось инициализировать TF-IDF: {e}")
     PIPE = None
+# Transformer (ruBERT-tiny2)
 TRANSFORMER = {"model": None, "tokenizer": None, "device": "cpu"}
 try:
     import torch
     from transformers import AutoTokenizer, AutoModelForSequenceClassification
+    MODEL_DIR = "."
     device = "cuda" if torch.cuda.is_available() else "cpu"
     tokenizer = AutoTokenizer.from_pretrained(MODEL_DIR, local_files_only=True)
     model = AutoModelForSequenceClassification.from_pretrained(MODEL_DIR, local_files_only=True)
     model.to(device).eval()
     TRANSFORMER.update({"model": model, "tokenizer": tokenizer, "device": device})
 except Exception as e:
     print(f"[WARN] Не удалось загрузить ruBERT: {e}")
 # ==============================
+# 3. КОНФИГУРАЦИЯ
 # ==============================
 DEFAULT_THRESHOLD = 0.70
 try:
     pass
 # ==============================
+# 4. ПРЕПРОЦЕССОР ДЛЯ ТРАНСФОРМЕРА
 # ==============================
 from nltk.stem.snowball import RussianStemmer
 stemmer = RussianStemmer(ignore_stopwords=False)
 _URL_RE   = re.compile(r'https?://\S+|www\.\S+')
 _TAG_RE   = re.compile(r'[@#]\w+')
 _NUM_RE   = re.compile(r'\d+')
 _WS_RE    = re.compile(r"\s+")
 def clean_and_stem(s: str) -> str:
+    if not isinstance(s, str): s = str(s)
     s = unescape(s).lower()
+    s = _URL_RE.sub(" url ", s); s = _TAG_RE.sub(" tag ", s); s = _NUM_RE.sub(" num ", s)
+    s = _PUNCT_RE.sub(" ", s); s = _WS_RE.sub(" ", s).strip()
+    if not s: return s
+    return " ".join([t if t in {"url", "tag", "num"} else stemmer.stem(t) for t in s.split(" ")])
 # ==============================
+# 5. ФУНКЦИИ ИНФЕРЕНСА
 # ==============================
 def infer_tfidf(text: str):
     if PIPE is None:
+        return None, f"TF-IDF модель не загружена (ожидался файл '{PIPE_PATH}'). Проверьте логи."
     try:
+        proba = PIPE.predict_proba([text])[0, 1]
+        return float(np.clip(proba, 0.0, 1.0)), None
     except Exception as e:
         return None, f"Ошибка инференса TF-IDF: {e}"
 def infer_transformer(text: str):
     if TRANSFORMER["model"] is None:
         return None, "Модель ruBERT не загружена."
     import torch
     text_prep = clean_and_stem(text)
+    if not text_prep: return 0.0, None
     tok = TRANSFORMER["tokenizer"](text_prep, return_tensors="pt", truncation=True, max_length=256)
     tok = {k: v.to(TRANSFORMER["device"]) for k, v in tok.items()}
     try:
     except Exception as e:
         return None, f"Ошибка инференса ruBERT: {e}"
+# ИЗМЕНЕНО: теперь возвращает 3 значения, включая вердикт
 def predict(model_name: str, comment: str, threshold: float):
     comment = (comment or "").strip()
     if not comment:
+        return "—", {"Токсичный": 0.0, "Не токсичный": 1.0}, "Введите текст для анализа"
+    if "ruBERT" in model_name:
         p_toxic, err = infer_transformer(comment)
     else:
         p_toxic, err = infer_tfidf(comment)
     if err is not None or p_toxic is None:
         dist = {"Токсичный": 0.0, "Не токсичный": 1.0}
         expl = f"Модель: **{model_name}**\n\n⚠️ {err}"
+        return "Ошибка", dist, expl
+    # ГЛАВНОЕ ИЗМЕНЕНИЕ: вердикт определяется порогом
+    verdict = "Токсичный" if p_toxic >= threshold else "Не токсичный"
     dist = {"Токсичный": p_toxic, "Не токсичный": 1 - p_toxic}
     expl = (
+        f"**Модель:** {model_name}\n\n"
+        f"**Вероятность токсичности:** `{p_toxic:.3f}`\n\n"
+        f"**Порог:** `{threshold:.2f}`"
     )
+    return verdict, dist, expl
+# ИЗМЕНЕНО: добавлено начальное значение для нового поля вердикта
 def clear_all():
+    return "ruBERT-tiny2 (трансформер)", "", DEFAULT_THRESHOLD, "—", None, "—"
 # ==============================
+# 6. ИНТЕРФЕЙС (UI)
 # ==============================
+TITLE = "Анализатор токсичности комментариев"
+DESCRIPTION = "Выберите модель, введите комментарий и при необходимости настройте порог классификации."
 CUSTOM_CSS = """
 @import url('https://fonts.googleapis.com/css2?family=Inter:wght@400;600;700&display=swap');
 :root { --font: 'Inter', system-ui, -apple-system, Segoe UI, Roboto, sans-serif; }
+.gradio-container { max-width: 960px !important; margin: auto !important; }
+#verdict-output span { font-size: 1.8rem !important; font-weight: 700 !important; }
 """
 with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="sky"), css=CUSTOM_CSS) as demo:
     gr.Markdown(f"# {TITLE}")
     gr.Markdown(DESCRIPTION)
+    with gr.Row(variant="panel"):
         with gr.Column(scale=2):
             model_sel = gr.Dropdown(
                 ["ruBERT-tiny2 (трансформер)", "TF-IDF + Логистическая регрессия"],
+                value="ruBERT-tiny2 (трансформер)", label="Модель для анализа"
+            )
+            comment_input = gr.Textbox(
+                label="Текст комментария", lines=6, placeholder="Напишите что-нибудь…"
+            )
+            thr = gr.Slider(
+                label="Порог классификации", minimum=0.0, maximum=1.0,
+                value=DEFAULT_THRESHOLD, step=0.01
             )
             with gr.Row():
+                analyze_btn = gr.Button("Анализ", variant="primary", scale=2)
+                clear_btn = gr.Button("Очистить", variant="secondary", scale=1)
         with gr.Column(scale=1):
+            # ИЗМЕНЕНО: Добавлено отдельное поле для вердикта
+            verdict_output = gr.Text(label="Вердикт", elem_id="verdict-output", value="—")
+            result_label = gr.Label(label="Распределение вероятностей", num_top_classes=2)
+            result_md = gr.Markdown(value="—", label="Детали")
+    # ИЗМЕНЕНО: Описание моделей теперь в красивых выпадающих блоках
+    with gr.Accordion("Параметры и описание моделей", open=False):
+        gr.Markdown(
+            """
+            ### 🧠 Модель 1: ruBERT-tiny2 (трансформер)
+            - **Архитектура:** Нейросеть `cointegrated/rubert-tiny2` (облегченная версия BERT для русского языка), дообученная на задаче классификации.
+            - **Особенности:** Хорошо понимает контекст и семантику, но медленнее и требовательнее к ресурсам.
+            - **Предобработка:** Удаление пунктуации, стемминг (приведение слов к основе), нормализация URL, тегов и чисел.
+            - **Рекомендованный порог:** **~0.70**. При таком пороге модель реже ошибается, когда помечает комментарий как токсичный (высокий `precision`).
+            """
+        )
+        gr.Markdown(
+            """
+            ### 📊 Модель 2: TF-IDF + Логистическая регрессия
+            - **Архитектура:** Классический ML-пайплайн. `TfidfVectorizer` анализирует текст на уровне символьных n-грамм (4-5 символа), а `LogisticRegression` принимает решение.
+            - **Особенности:** Очень быстрая и легковесная модель. Хорошо улавливает "токсичные" слова и фразы, но не понимает сложный контекст.
+            - **Регуляризация:** L1 (Lasso) для отбора наиболее важных признаков.
+            - **Рекомендованный порог:** **~0.40**. Оптимальный баланс между поиском всех токсичных комментариев (`recall`) и точностью вердиктов (`precision`).
+            """
+        )
+        gr.Markdown("> Порог можно свободно менять слайдером, чтобы найти нужный баланс между точностью (precision) и полнотой (recall) для вашей задачи.")
+    # ИЗМЕНЕНО: Обработчики событий теперь обновляют 3 поля вывода
+    outputs_list = [verdict_output, result_label, result_md]
+    inputs_list = [model_sel, comment_input, thr]
+    analyze_btn.click(predict, inputs_list, outputs_list)
+    comment_input.submit(predict, inputs_list, outputs_list)
+    clear_outputs_list = [model_sel, comment_input, thr, verdict_output, result_label, result_md]
+    clear_btn.click(clear_all, [], clear_outputs_list)
 if __name__ == "__main__":
     demo.launch()