Spaces:

Luigi
/

dinercall-intent-demo

Paused

App Files Files Community

Luigi commited on Apr 12

Commit

b36759a

1 Parent(s): 960ccaf

make whisper pipeline read file instead of numpy array

Browse files

Files changed (1) hide show

app.py +25 -18

app.py CHANGED Viewed

@@ -118,21 +118,24 @@ def tts_audio_output(message: str, voice: str = 'af_heart'):
 def transcribe_audio(audio_input):
     whisper_pipe = load_whisper_pipeline()
-    # If Gradio returns a tuple (sample_rate, audio_array), extract the numpy array.
-    if isinstance(audio_input, tuple):
         audio_array = audio_input[1]
     else:
-        audio_array = audio_input
-    # Ensure input is mono by averaging channels if necessary.
-    if audio_array.ndim > 1:
-        audio_array = np.mean(audio_array, axis=-1)
-    result = whisper_pipe(audio_array)
-    return result["text"]
 # ------------------- Main Processing Function -------------------
 @spaces.GPU  # Decorate to run on GPU when processing
 def classify_intent(mode, mic_audio, text_input, file_audio, model_choice):
-    # Choose the input and prepare debug audio
     if mode == "Microphone" and mic_audio is not None:
         chosen_audio = mic_audio
         transcription = transcribe_audio(chosen_audio)
@@ -145,18 +148,21 @@ def classify_intent(mode, mic_audio, text_input, file_audio, model_choice):
     else:
         return "請提供語音或文字輸入", "", None, None
-    # For debugging: process chosen_audio similarly to transcribe_audio to ensure mono.
     debug_audio = None
     if chosen_audio is not None:
-        if isinstance(chosen_audio, tuple):
             audio_array = chosen_audio[1]
             sample_rate = chosen_audio[0]
-        else:
-            audio_array = chosen_audio
-            sample_rate = 16000  # default fallback sample rate
-        if audio_array.ndim > 1:
-            audio_array = np.mean(audio_array, axis=-1)
-        debug_audio = (sample_rate, audio_array)
     # Classify the transcribed or provided text.
     if available_models[model_choice] == "qwen":
@@ -181,7 +187,8 @@ with gr.Blocks() as demo:
         # Three input components: microphone, text, and file upload.
         mic_audio = gr.Audio(sources=["microphone"], type="numpy", label="語音輸入 (點擊錄音)")
         text_input = gr.Textbox(lines=2, placeholder="請輸入文字", label="文字輸入")
-        file_audio = gr.Audio(sources=["upload"], type="numpy", label="上傳語音檔案")
     # Initially, only the microphone input is visible.
     text_input.visible = False

 def transcribe_audio(audio_input):
     whisper_pipe = load_whisper_pipeline()
+    # For file input, audio_input is a filepath string.
+    if isinstance(audio_input, str):
+        result = whisper_pipe(audio_input)
+        return result["text"]
+    # For microphone input, Gradio returns a tuple (sample_rate, audio_array).
+    elif isinstance(audio_input, tuple):
         audio_array = audio_input[1]
+        if audio_array.ndim > 1:
+            audio_array = np.mean(audio_array, axis=-1)
+        result = whisper_pipe(audio_array)
+        return result["text"]
     else:
+        return ""
 # ------------------- Main Processing Function -------------------
 @spaces.GPU  # Decorate to run on GPU when processing
 def classify_intent(mode, mic_audio, text_input, file_audio, model_choice):
+    # Determine input and choose appropriately.
     if mode == "Microphone" and mic_audio is not None:
         chosen_audio = mic_audio
         transcription = transcribe_audio(chosen_audio)
     else:
         return "請提供語音或文字輸入", "", None, None
+    # For debugging: prepare debug audio.
     debug_audio = None
     if chosen_audio is not None:
+        if isinstance(chosen_audio, str):
+            # For file input, read using soundfile to get raw audio.
+            audio_array, sample_rate = sf.read(chosen_audio)
+            if audio_array.ndim > 1:
+                audio_array = np.mean(audio_array, axis=-1)
+            debug_audio = (sample_rate, audio_array)
+        elif isinstance(chosen_audio, tuple):
             audio_array = chosen_audio[1]
             sample_rate = chosen_audio[0]
+            if audio_array.ndim > 1:
+                audio_array = np.mean(audio_array, axis=-1)
+            debug_audio = (sample_rate, audio_array)
     # Classify the transcribed or provided text.
     if available_models[model_choice] == "qwen":
         # Three input components: microphone, text, and file upload.
         mic_audio = gr.Audio(sources=["microphone"], type="numpy", label="語音輸入 (點擊錄音)")
         text_input = gr.Textbox(lines=2, placeholder="請輸入文字", label="文字輸入")
+        # For file input, use 'filepath' so Whisper pipeline gets the file and can convert it internally.
+        file_audio = gr.Audio(sources=["upload"], type="filepath", label="上傳語音檔案")
     # Initially, only the microphone input is visible.
     text_input.visible = False