Aleph-Alpha
/

llama-3_1-70b-tfree-hat-sft

hierarchical_autoregressive_transformer

Aleph Alpha Research

Hirarchical Autoregressive Transformer

Model card Files Files and versions

llama-3_1-70b-tfree-hat-sft / config.json

nvedant07's picture

Upload config.json with huggingface_hub

70e5454 verified 4 months ago

history blame contribute delete

2.92 kB

	{
	"architectures": [
	"HATForCausalLM"
	],
	"auto_map": {
	"AutoConfig": "config.HATArchitectureConfig",
	"AutoModelForCausalLM": "model.HATForCausalLM"
	},
	"backbone_config": {
	"hidden_size": 8192,
	"intermediate_size": 28672,
	"is_neox_style": false,
	"key_query_norm": false,
	"key_query_norm_per_head": false,
	"max_position_embeddings": 12288,
	"mlp_bias": false,
	"num_attention_heads": 64,
	"num_hidden_layers": 80,
	"num_key_value_heads": 8,
	"rms_norm_eps": 1e-05,
	"rope_scaling": {
	"factor": 8.0,
	"high_freq_factor": 4.0,
	"low_freq_factor": 1.0,
	"original_max_position_embeddings": 8192,
	"rope_type": "llama3"
	},
	"rope_theta": 500000,
	"sliding_window": null,
	"transformers_version": null,
	"use_cache": true,
	"vocab_size": 0
	},
	"decoder_config": {
	"cross_attention_config": {
	"attention_num_kv_heads": 16,
	"hidden_size": 2048,
	"hidden_size_kv": 8192,
	"hidden_size_q": 2048,
	"key_query_norm": false,
	"key_query_norm_per_head": false,
	"num_attention_heads": 16,
	"word_window_size": 1
	},
	"cross_attn_every_layer": true,
	"hidden_size": 2048,
	"intermediate_size": 5632,
	"is_neox_style": false,
	"key_query_norm": false,
	"key_query_norm_per_head": false,
	"max_position_embeddings": 98304,
	"mlp_bias": false,
	"num_attention_heads": 16,
	"num_hidden_layers": 4,
	"num_key_value_heads": 16,
	"rms_norm_eps": 1e-05,
	"rope_scaling": {
	"rope_type": "default"
	},
	"rope_theta": 100000,
	"sliding_window": 768,
	"transformers_version": null,
	"use_cache": true,
	"vocab_size": 256
	},
	"encoder_config": {
	"cross_attention_config": {
	"attention_num_kv_heads": 64,
	"hidden_size": 8192,
	"hidden_size_kv": 2048,
	"hidden_size_q": 8192,
	"key_query_norm": false,
	"key_query_norm_per_head": false,
	"num_attention_heads": 64,
	"word_window_size": 1
	},
	"hidden_size": 2048,
	"intermediate_size": 5632,
	"is_neox_style": false,
	"key_query_norm": false,
	"key_query_norm_per_head": false,
	"max_position_embeddings": 98304,
	"mlp_bias": false,
	"num_attention_heads": 16,
	"num_hidden_layers": 6,
	"num_key_value_heads": 16,
	"rms_norm_eps": 1e-05,
	"rope_scaling": {
	"rope_type": "default"
	},
	"rope_theta": 100000,
	"sliding_window": 768,
	"transformers_version": null,
	"use_cache": true,
	"vocab_size": 256
	},
	"max_position_embeddings": 98304,
	"max_word_size": 100,
	"model_type": "hierarchical_autoregressive_transformer",
	"sliding_window": 768,
	"special_token_dict": {
	"<\|begin_of_text\|>": 250,
	"<\|end_header_id\|>": 252,
	"<\|eot_id\|>": 192,
	"<\|start_header_id\|>": 251
	},
	"torch_dtype": "bfloat16",
	"transformers_version": "4.46.3"
	}