Spaces:

DamLoan
/

Check

Runtime error

App Files Files Community

DamLoan commited on Jul 2

Commit

1f51108

verified ·

1 Parent(s): 17e5f34

Update preprocess.py

Browse files

Files changed (1) hide show

preprocess.py +3 -49

preprocess.py CHANGED Viewed

@@ -1,12 +1,4 @@
-# ### Step 1: Reading PDF Files
-# Setup directories
-pdf_directory = r"F:\Preprocessing"
-output_directory = r"F:\Images"
-os.makedirs(output_directory, exist_ok=True)
-pages = convert_from_path(pdf_path, dpi=dpi)
-# ### Step 2: Convert PDF files to Images
 import os
 import cv2
@@ -40,24 +32,7 @@ def process_all_pdfs():
         num_pages = pdf_to_images(pdf_file, output_directory)
         total_images += num_pages
-    print(f"\n✓ Tổng số file PDF: {len(pdf_files)}")
-    print(f"✓ Tổng số ảnh đã chuyển đổi: {total_images}")
-# MAIN EXECUTION
-if __name__ == "__main__":
-    print("PDF TO IMAGES CONVERTER")
-    print(f"Input directory: {pdf_directory}")
-    print(f"Output directory: {output_directory}")
-    print()
-    if not os.path.exists(pdf_directory):
-        print(f"✗ Input directory does not exist: {pdf_directory}")
-        exit(1)
-    process_all_pdfs()
-    print("\n✓ Processing completed!")
-# ### Step 3: Image Preprocessing
 import os
 import cv2
@@ -75,25 +50,4 @@ def preprocess_image(image_path):
     kernel = np.ones((1, 1), np.uint8)
     bold_img = cv2.dilate(binary, kernel, iterations=1)
-    return bold_img
-# Thư mục đầu vào và đầu ra
-input_folder = r"F:\Images"
-output_folder = r"F:\Images_Processed"
-os.makedirs(output_folder, exist_ok=True)
-# Duyệt qua tất cả ảnh
-for filename in os.listdir(input_folder):
-    if filename.lower().endswith((".jpg", ".jpeg", ".png", ".bmp")):
-        input_path = os.path.join(input_folder, filename)
-        output_path = os.path.join(output_folder, filename)
-        try:
-            processed_img = preprocess_image(input_path)
-            # Chuyển ảnh về PIL để lưu với Unicode path
-            pil_result = Image.fromarray(processed_img)
-            pil_result.save(output_path)
-        except Exception as e:
-            print(f"❌ Lỗi xử lý {filename}: {e}")

+# Convert PDF files to Images
 import os
 import cv2
         num_pages = pdf_to_images(pdf_file, output_directory)
         total_images += num_pages
+# Image Preprocessing
 import os
 import cv2
     kernel = np.ones((1, 1), np.uint8)
     bold_img = cv2.dilate(binary, kernel, iterations=1)
+    return bold_img