Spaces:

shaun3141
/

caribbean-voices-hackathon

Sleeping

shaun3141 commited on 21 days ago

Commit

ef24863

1 Parent(s): aceac12

Fix entity extraction column name mismatch

The HF dataset uses lowercase column names ('transcription', 'id') while the local CSV uses
capitalized names ('Transcription', 'ID'). Updated extract_entities.py to support both naming
conventions by checking which column exists before accessing it.

This fixes the KeyError: 'Transcription' error in the Extract Entities tab.

Files changed (1) hide show

extract_entities.py +5 -2

extract_entities.py CHANGED Viewed

@@ -31,7 +31,7 @@ def extract_entities_from_transcripts(train_df: pd.DataFrame,
     4. Proximity to known Caribbean keywords (optional filter)
     Args:
-        train_df: DataFrame with 'Transcription' column
         min_frequency: Minimum occurrences for single-word entities
         min_frequency_multiword: Minimum occurrences for multi-word entities
         capitalization_threshold: Minimum ratio of capitalized occurrences (0-1)
@@ -84,7 +84,10 @@ def extract_entities_from_transcripts(train_df: pd.DataFrame,
     if verbose:
         print("\n[1/3] Analyzing single words and multi-word phrases...")
-    for transcription in train_df['Transcription']:
         if pd.isna(transcription):
             continue

     4. Proximity to known Caribbean keywords (optional filter)
     Args:
+        train_df: DataFrame with 'transcription' column (lowercase)
         min_frequency: Minimum occurrences for single-word entities
         min_frequency_multiword: Minimum occurrences for multi-word entities
         capitalization_threshold: Minimum ratio of capitalized occurrences (0-1)
     if verbose:
         print("\n[1/3] Analyzing single words and multi-word phrases...")
+    # Support both 'Transcription' (CSV) and 'transcription' (HF dataset)
+    transcription_col = 'transcription' if 'transcription' in train_df.columns else 'Transcription'
+    for transcription in train_df[transcription_col]:
         if pd.isna(transcription):
             continue