{
  "architectures": [
    "UltravoxModel"
  ],
  "attn_implementation": null,
  "audio_config": {
    "_name_or_path": "openai/whisper-large-v3-turbo",
    "activation_dropout": 0.0,
    "activation_function": "gelu",
    "apply_spec_augment": false,
    "architectures": [
      "WhisperForConditionalGeneration"
    ],
    "attention_dropout": 0.0,
    "bos_token_id": 50257,
    "classifier_proj_size": 256,
    "d_model": 1280,
    "decoder_attention_heads": 20,
    "decoder_ffn_dim": 5120,
    "decoder_layerdrop": 0.0,
    "decoder_layers": 4,
    "decoder_start_token_id": 50258,
    "dropout": 0.0,
    "dtype": "float16",
    "encoder_attention_heads": 20,
    "encoder_ffn_dim": 5120,
    "encoder_layerdrop": 0.0,
    "encoder_layers": 32,
    "eos_token_id": 50257,
    "init_std": 0.02,
    "mask_feature_length": 10,
    "mask_feature_min_masks": 0,
    "mask_feature_prob": 0.0,
    "mask_time_length": 10,
    "mask_time_min_masks": 2,
    "mask_time_prob": 0.05,
    "max_source_positions": 1500,
    "max_target_positions": 448,
    "median_filter_width": 7,
    "model_type": "whisper",
    "num_hidden_layers": 32,
    "num_mel_bins": 128,
    "pad_token_id": 50257,
    "scale_embedding": false,
    "use_cache": true,
    "use_weighted_layer_sum": false,
    "vocab_size": 51866
  },
  "audio_latency_block_size": null,
  "audio_model_id": null,
  "audio_token_index": 151365,
  "auto_map": {
    "AutoConfig": "ultravox_config.UltravoxConfig",
    "AutoModel": "ultravox_model.UltravoxModel"
  },
  "custom_pipelines": {
    "ultravox-pipeline": {
      "impl": "ultravox_pipeline.UltravoxPipeline",
      "pt": [
        "AutoModel"
      ],
      "tf": [],
      "type": "multimodal"
    }
  },
  "dtype": "bfloat16",
  "hidden_logits_layers": null,
  "hidden_size": 4096,
  "ignore_index": -100,
  "initializer_range": 0.02,
  "llm_only_training": false,
  "model_type": "ultravox",
  "moe_capture_layers": [
    5,
    25,
    45,
    65,
    85
  ],
  "norm_init": 0.4,
  "num_llm_layers": -1,
  "num_projector_layers": 4,
  "pad_token_id": 151329,
  "projector_act": "swiglu",
  "projector_ln_mid": true,
  "stack_factor": 8,
  "text_model_id": "zai-org/GLM-4.6",
  "text_model_quantization": null,
  "transformers_version": "4.56.2",
  "use_fsdp": true,
  "vocab_size": 151552
}