Spaces:

ErzhanAb
/

Russian_Language_Toxic_Comments

Sleeping

App Files Files Community

ErzhanAb commited on Aug 24

Commit

fb9ddca

verified ·

1 Parent(s): 783893f

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -54

app.py CHANGED Viewed

@@ -14,32 +14,25 @@ _WS_RE_TFIDF  = re.compile(r'\s+')
 def clean_text(s: str) -> str:
     """Эта функция нужна для корректной загрузки model.joblib."""
-    if not isinstance(s, str):
-        s = str(s)
     s = unescape(s).lower()
-    s = _URL_RE_TFIDF.sub(' <url> ', s)
-    s = _TAG_RE_TFIDF.sub(' <tag> ', s)
-    s = _NUM_RE_TFIDF.sub(' <num> ', s)
-    s = s.replace('\n', ' ').replace('\t', ' ')
     s = _WS_RE_TFIDF.sub(' ', s).strip()
     return s
 # ==============================
 # 2. ЗАГРУЗКА МОДЕЛЕЙ
 # ==============================
-# TF-IDF + LR
 PIPE, PIPE_PATH = None, "model.joblib"
 try:
     import joblib
-    if os.path.exists(PIPE_PATH):
-        PIPE = joblib.load(PIPE_PATH)
-    else:
-        print(f"[WARN] TF-IDF model not found at {PIPE_PATH}")
 except Exception as e:
     print(f"[WARN] Не удалось инициализировать TF-IDF: {e}")
     PIPE = None
-# Transformer (ruBERT-tiny2)
 TRANSFORMER = {"model": None, "tokenizer": None, "device": "cpu"}
 try:
     import torch
@@ -88,17 +81,14 @@ def clean_and_stem(s: str) -> str:
 # 5. ФУНКЦИИ ИНФЕРЕНСА
 # ==============================
 def infer_tfidf(text: str):
-    if PIPE is None:
-        return None, f"TF-IDF модель не загружена (ожидался файл '{PIPE_PATH}'). Проверьте логи."
     try:
         proba = PIPE.predict_proba([text])[0, 1]
         return float(np.clip(proba, 0.0, 1.0)), None
-    except Exception as e:
-        return None, f"Ошибка инференса TF-IDF: {e}"
 def infer_transformer(text: str):
-    if TRANSFORMER["model"] is None:
-        return None, "Модель ruBERT не загружена."
     import torch
     text_prep = clean_and_stem(text)
     if not text_prep: return 0.0, None
@@ -109,14 +99,13 @@ def infer_transformer(text: str):
             logits = TRANSFORMER["model"](**tok).logits
             proba = torch.softmax(logits, dim=1)[0, 1].detach().cpu().item()
         return float(proba), None
-    except Exception as e:
-        return None, f"Ошибка инференса ruBERT: {e}"
-# ИЗМЕНЕНО: теперь возвращает 3 значения, включая вердикт
 def predict(model_name: str, comment: str, threshold: float):
     comment = (comment or "").strip()
     if not comment:
-        return "—", {"Токсичный": 0.0, "Не токсичный": 1.0}, "Введите текст для анализа"
     if "ruBERT" in model_name:
         p_toxic, err = infer_transformer(comment)
@@ -124,23 +113,16 @@ def predict(model_name: str, comment: str, threshold: float):
         p_toxic, err = infer_tfidf(comment)
     if err is not None or p_toxic is None:
-        dist = {"Токсичный": 0.0, "Не токсичный": 1.0}
-        expl = f"Модель: **{model_name}**\n\n⚠️ {err}"
-        return "Ошибка", dist, expl
-    # ГЛАВНОЕ ИЗМЕНЕНИЕ: вердикт определяется порогом
     verdict = "Токсичный" if p_toxic >= threshold else "Не токсичный"
     dist = {"Токсичный": p_toxic, "Не токсичный": 1 - p_toxic}
-    expl = (
-        f"**Модель:** {model_name}\n\n"
-        f"**Вероятность токсичности:** `{p_toxic:.3f}`\n\n"
-        f"**Порог:** `{threshold:.2f}`"
-    )
-    return verdict, dist, expl
-# ИЗМЕНЕНО: добавлено начальное значение для нового поля вердикта
 def clear_all():
-    return "ruBERT-tiny2 (трансформер)", "", DEFAULT_THRESHOLD, "—", None, "—"
 # ==============================
 # 6. ИНТЕРФЕЙС (UI)
@@ -161,32 +143,24 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="sky"), cs
     with gr.Row(variant="panel"):
         with gr.Column(scale=2):
-            model_sel = gr.Dropdown(
-                ["ruBERT-tiny2 (трансформер)", "TF-IDF + Логистическая регрессия"],
-                value="ruBERT-tiny2 (трансформер)", label="Модель для анализа"
-            )
-            comment_input = gr.Textbox(
-                label="Текст комментария", lines=6, placeholder="Напишите что-нибудь…"
-            )
-            thr = gr.Slider(
-                label="Порог классификации", minimum=0.0, maximum=1.0,
-                value=DEFAULT_THRESHOLD, step=0.01
-            )
             with gr.Row():
                 analyze_btn = gr.Button("Анализ", variant="primary", scale=2)
                 clear_btn = gr.Button("Очистить", variant="secondary", scale=1)
         with gr.Column(scale=1):
-            # ИЗМЕНЕНО: Добавлено отдельное поле для вердикта
             verdict_output = gr.Text(label="Вердикт", elem_id="verdict-output", value="—")
             result_label = gr.Label(label="Распределение вероятностей", num_top_classes=2)
-            result_md = gr.Markdown(value="—", label="Детали")
-    # ИЗМЕНЕНО: Описание моделей теперь в красивых выпадающих блоках
     with gr.Accordion("Параметры и описание моделей", open=False):
         gr.Markdown(
             """
-            ### 🧠 Модель 1: ruBERT-tiny2 (трансформер)
             - **Архитектура:** Нейросеть `cointegrated/rubert-tiny2` (облегченная версия BERT для русского языка), дообученная на задаче классификации.
             - **Особенности:** Хорошо понимает контекст и семантику, но медленнее и требовательнее к ресурсам.
             - **Предобработка:** Удаление пунктуации, стемминг (приведение слов к основе), нормализация URL, тегов и чисел.
@@ -195,7 +169,7 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="sky"), cs
         )
         gr.Markdown(
             """
-            ### 📊 Модель 2: TF-IDF + Логистическая регрессия
             - **Архитектура:** Классический ML-пайплайн. `TfidfVectorizer` анализирует текст на уровне символьных n-грамм (4-5 символа), а `LogisticRegression` принимает решение.
             - **Особенности:** Очень быстрая и легковесная модель. Хорошо улавливает "токсичные" слова и фразы, но не понимает сложный контекст.
             - **Регуляризация:** L1 (Lasso) для отбора наиболее важных признаков.
@@ -204,14 +178,14 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="sky"), cs
         )
         gr.Markdown("> Порог можно свободно менять слайдером, чтобы найти нужный баланс между точностью (precision) и полнотой (recall) для вашей задачи.")
-    # ИЗМЕНЕНО: Обработчики событий теперь обновляют 3 поля вывода
-    outputs_list = [verdict_output, result_label, result_md]
     inputs_list = [model_sel, comment_input, thr]
     analyze_btn.click(predict, inputs_list, outputs_list)
     comment_input.submit(predict, inputs_list, outputs_list)
-    clear_outputs_list = [model_sel, comment_input, thr, verdict_output, result_label, result_md]
     clear_btn.click(clear_all, [], clear_outputs_list)
 if __name__ == "__main__":

 def clean_text(s: str) -> str:
     """Эта функция нужна для корректной загрузки model.joblib."""
+    if not isinstance(s, str): s = str(s)
     s = unescape(s).lower()
+    s = _URL_RE_TFIDF.sub(' <url> ', s); s = _TAG_RE_TFIDF.sub(' <tag> ', s)
+    s = _NUM_RE_TFIDF.sub(' <num> ', s); s = s.replace('\n', ' ').replace('\t', ' ')
     s = _WS_RE_TFIDF.sub(' ', s).strip()
     return s
 # ==============================
 # 2. ЗАГРУЗКА МОДЕЛЕЙ
 # ==============================
 PIPE, PIPE_PATH = None, "model.joblib"
 try:
     import joblib
+    if os.path.exists(PIPE_PATH): PIPE = joblib.load(PIPE_PATH)
+    else: print(f"[WARN] TF-IDF model not found at {PIPE_PATH}")
 except Exception as e:
     print(f"[WARN] Не удалось инициализировать TF-IDF: {e}")
     PIPE = None
 TRANSFORMER = {"model": None, "tokenizer": None, "device": "cpu"}
 try:
     import torch
 # 5. ФУНКЦИИ ИНФЕРЕНСА
 # ==============================
 def infer_tfidf(text: str):
+    if PIPE is None: return None, f"TF-IDF модель не загружена (ожидался файл '{PIPE_PATH}')."
     try:
         proba = PIPE.predict_proba([text])[0, 1]
         return float(np.clip(proba, 0.0, 1.0)), None
+    except Exception as e: return None, f"Ошибка инференса TF-IDF: {e}"
 def infer_transformer(text: str):
+    if TRANSFORMER["model"] is None: return None, "Модель ruBERT не загружена."
     import torch
     text_prep = clean_and_stem(text)
     if not text_prep: return 0.0, None
             logits = TRANSFORMER["model"](**tok).logits
             proba = torch.softmax(logits, dim=1)[0, 1].detach().cpu().item()
         return float(proba), None
+    except Exception as e: return None, f"Ошибка инференса ruBERT: {e}"
+# ИЗМЕНЕНО: функция возвращает только 2 значения
 def predict(model_name: str, comment: str, threshold: float):
     comment = (comment or "").strip()
     if not comment:
+        return "—", {"Токсичный": 0.0, "Не токсичный": 1.0}
     if "ruBERT" in model_name:
         p_toxic, err = infer_transformer(comment)
         p_toxic, err = infer_tfidf(comment)
     if err is not None or p_toxic is None:
+        # Выводим ошибку прямо в поле вердикта
+        return f"⚠️ {err}", {"Токсичный": 0.0, "Не токсичный": 1.0}
     verdict = "Токсичный" if p_toxic >= threshold else "Не токсичный"
     dist = {"Токсичный": p_toxic, "Не токсичный": 1 - p_toxic}
+    return verdict, dist
+# ИЗМЕНЕНО: функция очистки стала короче
 def clear_all():
+    return "ruBERT-tiny2 (трансформер)", "", DEFAULT_THRESHOLD, "—", None
 # ==============================
 # 6. ИНТЕРФЕЙС (UI)
     with gr.Row(variant="panel"):
         with gr.Column(scale=2):
+            model_sel = gr.Dropdown(["ruBERT-tiny2 (трансформер)", "TF-IDF + Логистическая регрессия"],
+                                    value="ruBERT-tiny2 (трансформер)", label="Модель для анализа")
+            comment_input = gr.Textbox(label="Текст комментария", lines=6, placeholder="Напишите что-нибудь…")
+            thr = gr.Slider(label="Порог классификации", minimum=0.0, maximum=1.0, value=DEFAULT_THRESHOLD, step=0.01)
             with gr.Row():
                 analyze_btn = gr.Button("Анализ", variant="primary", scale=2)
                 clear_btn = gr.Button("Очистить", variant="secondary", scale=1)
         with gr.Column(scale=1):
             verdict_output = gr.Text(label="Вердикт", elem_id="verdict-output", value="—")
             result_label = gr.Label(label="Распределение вероятностей", num_top_classes=2)
+            # ИЗМЕНЕНО: блок с деталями (result_md) полностью удален
+    # ИЗМЕНЕНО: убраны смайлики из описания
     with gr.Accordion("Параметры и описание моделей", open=False):
         gr.Markdown(
             """
+            ### Модель 1: ruBERT-tiny2 (трансформер)
             - **Архитектура:** Нейросеть `cointegrated/rubert-tiny2` (облегченная версия BERT для русского языка), дообученная на задаче классификации.
             - **Особенности:** Хорошо понимает контекст и семантику, но медленнее и требовательнее к ресурсам.
             - **Предобработка:** Удаление пунктуации, стемминг (приведение слов к основе), нормализация URL, тегов и чисел.
         )
         gr.Markdown(
             """
+            ### Модель 2: TF-IDF + Логистическая регрессия
             - **Архитектура:** Классический ML-пайплайн. `TfidfVectorizer` анализирует текст на уровне символьных n-грамм (4-5 символа), а `LogisticRegression` принимает решение.
             - **Особенности:** Очень быстрая и легковесная модель. Хорошо улавливает "токсичные" слова и фразы, но не понимает сложный контекст.
             - **Регуляризация:** L1 (Lasso) для отбора наиболее важных признаков.
         )
         gr.Markdown("> Порог можно свободно менять слайдером, чтобы найти нужный баланс между точностью (precision) и полнотой (recall) для вашей задачи.")
+    # ИЗМЕНЕНО: обновлены списки для обработчиков событий
+    outputs_list = [verdict_output, result_label]
     inputs_list = [model_sel, comment_input, thr]
     analyze_btn.click(predict, inputs_list, outputs_list)
     comment_input.submit(predict, inputs_list, outputs_list)
+    clear_outputs_list = [model_sel, comment_input, thr, verdict_output, result_label]
     clear_btn.click(clear_all, [], clear_outputs_list)
 if __name__ == "__main__":