Spaces:

ErzhanAb
/

Russian_Language_Toxic_Comments

Sleeping

App Files Files Community

ErzhanAb commited on Aug 22

Commit

73b552b

verified ·

1 Parent(s): 0c002a7

Create app.py

Browse files

Files changed (1) hide show

app.py +76 -0

app.py ADDED Viewed

	@@ -0,0 +1,76 @@

+import gradio as gr
+import joblib, json, re
+from html import unescape
+# -----------------------------
+# 1) Точная копия preprocessor
+# -----------------------------
+_URL_RE = re.compile(r'https?://\S+|www\.\S+')
+_TAG_RE = re.compile(r'[@#]\w+')
+_NUM_RE = re.compile(r'\d+')
+_WS_RE  = re.compile(r'\s+')
+def clean_text(s: str) -> str:
+    """ДОЛЖНА совпадать с версией из обучения, иначе pickle не найдёт функцию."""
+    if not isinstance(s, str):
+        s = str(s)
+    s = unescape(s).lower()
+    s = _URL_RE.sub(' <url> ', s)
+    s = _TAG_RE.sub(' <tag> ', s)
+    s = _NUM_RE.sub(' <num> ', s)
+    s = s.replace('\n', ' ').replace('\t', ' ')
+    s = _WS_RE.sub(' ', s).strip()
+    return s
+# ---------------------------------
+# 2) Загрузка пайплайна и конфига
+# ---------------------------------
+# Важно: clean_text определён ДО загрузки, чтобы joblib смог десериализовать Vectorizer
+PIPE = joblib.load("model.joblib")
+DEFAULT_THRESHOLD = 0.4
+try:
+    with open("config.json", "r", encoding="utf-8") as f:
+        cfg = json.load(f)
+        DEFAULT_THRESHOLD = float(cfg.get("threshold", DEFAULT_THRESHOLD))
+except Exception:
+    pass  # если файла нет — оставим дефолт 0.4
+# ---------------------------------
+# 3) Инференс
+# ---------------------------------
+def predict(comment: str, threshold: float):
+    if comment is None or not str(comment).strip():
+        return "Пустой ввод", 0.0
+    # В PIPE уже внутри есть preprocessor=clean_text, поэтому подаём сырой текст
+    proba = float(PIPE.predict_proba([comment])[0, 1])
+    label = "Токсичный" if proba >= threshold else "Не токсичный"
+    return label, round(proba, 4)
+DESCRIPTION = """
+Модель для классификации токсичных комментариев (русский язык).
+Архитектура: **TF-IDF (char_wb 4–5) + Logistic Regression (L1, class_weight=balanced)**.
+"""
+demo = gr.Interface(
+    fn=predict,
+    inputs=[
+        gr.Textbox(label="Комментарий", lines=4, placeholder="Введите текст на русском..."),
+        gr.Slider(0.0, 1.0, value=DEFAULT_THRESHOLD, step=0.01, label="Порог классификации"),
+    ],
+    outputs=[
+        gr.Textbox(label="Класс"),
+        gr.Number(label="Вероятность токсичности"),
+    ],
+    title="Russian Toxic Comment Classifier — TF-IDF + Logistic Regression",
+    description=DESCRIPTION,
+    allow_flagging="never",
+    examples=[
+        ["Ты полный идиот!"],
+        ["Спасибо большое за помощь!"],
+        ["Посмотри это <url> и скажи, что думаешь"]
+    ],
+)
+if __name__ == "__main__":
+    demo.launch()