Spaces:

Luigi
/

dinercall-intent-demo

Paused

Luigi commited on Apr 12, 2025

Commit

6f6f431

1 Parent(s): d7367c4

add audio preprocessing to make sure asr input is single channel audio

Files changed (1) hide show

app.py CHANGED Viewed

@@ -121,6 +121,9 @@ def transcribe_audio(audio_input):
         audio_array = audio_input[1]
     else:
         audio_array = audio_input
     result = whisper_pipe(audio_array)
     return result["text"]
@@ -156,8 +159,7 @@ with gr.Blocks() as demo:
     with gr.Row():
         # Audio and Text inputs – only one will be visible based on mode selection.
-        # Changed gr.Audio type from "filepath" to "numpy" to capture audio in memory,
-        # which helps release the recording resource faster.
         audio_input = gr.Audio(sources=["microphone"], type="numpy", label="語音輸入 (點擊錄音)")
         text_input = gr.Textbox(lines=2, placeholder="請輸入文字", label="文字輸入")
@@ -186,7 +188,7 @@ with gr.Blocks() as demo:
     with gr.Row():
         tts_output = gr.Audio(type="numpy", label="TTS 語音輸出")
-    # Button event triggers the classification. Gradio will show a spinner during processing.
     classify_btn.click(fn=classify_intent,
                        inputs=[mode, audio_input, text_input, model_dropdown],
                        outputs=[transcription_output, classification_output, tts_output])

         audio_array = audio_input[1]
     else:
         audio_array = audio_input
+    # Ensure input is mono by averaging channels if necessary.
+    if audio_array.ndim > 1:
+        audio_array = np.mean(audio_array, axis=-1)
     result = whisper_pipe(audio_array)
     return result["text"]
     with gr.Row():
         # Audio and Text inputs – only one will be visible based on mode selection.
+        # Use gr.Audio type "numpy" for in-memory capture.
         audio_input = gr.Audio(sources=["microphone"], type="numpy", label="語音輸入 (點擊錄音)")
         text_input = gr.Textbox(lines=2, placeholder="請輸入文字", label="文字輸入")
     with gr.Row():
         tts_output = gr.Audio(type="numpy", label="TTS 語音輸出")
+    # Button event triggers the classification.
     classify_btn.click(fn=classify_intent,
                        inputs=[mode, audio_input, text_input, model_dropdown],
                        outputs=[transcription_output, classification_output, tts_output])