KV Cache Quantization - a inference-optimization Collection

inference-optimization 's Collections

Mixed Precision Models

KV Cache Quantization

KV Cache Quantization

updated 2 days ago

Collection on FP8 Quantization of Weights, Activations and KV Cache

inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

8B • Updated 1 day ago • 25
inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Tensor

8B • Updated 2 days ago • 9
inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

8B • Updated 2 days ago • 9
inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

8B • Updated 2 days ago • 4
inference-optimization/Llama-3.3-70B-Instruct-QKV-Cache-FP8-Per-Head

71B • Updated 2 days ago • 6
inference-optimization/Llama-3.3-70B-Instruct-QKV-Cache-FP8-Per-Tensor

71B • Updated 2 days ago • 6
inference-optimization/Llama-3.3-70B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

71B • Updated 2 days ago • 9
inference-optimization/Llama-3.3-70B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

71B • Updated 2 days ago • 9
inference-optimization/Qwen3-32B-QKV-Cache-FP8-Per-Head

33B • Updated 2 days ago • 8
inference-optimization/Qwen3-32B-QKV-Cache-FP8-Per-Tensor

33B • Updated 2 days ago • 9
inference-optimization/Qwen3-32B-FP8-dynamic-QKV-Cache-FP8-Per-Head

33B • Updated 2 days ago • 5
inference-optimization/Qwen3-32B-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

33B • Updated 2 days ago • 9