Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

ChibuUkachi updated a model about 15 hours ago

inference-optimization/Qwen3-4B-Thinking-2507.w4a16

krishnateja95 updated a model about 20 hours ago

inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

ChibuUkachi updated a model about 21 hours ago

inference-optimization/Qwen3-30B-A3B-Instruct-2507.w4a16

View all activity

Collections 2

models 24

inference-optimization/Qwen3-4B-Thinking-2507.w4a16

Text Generation • 1B • Updated about 15 hours ago • 171

inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

8B • Updated about 20 hours ago • 25

inference-optimization/Qwen3-30B-A3B-Instruct-2507.w4a16

5B • Updated about 21 hours ago • 15

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w4a16

5B • Updated about 22 hours ago • 13

inference-optimization/Qwen3-4B-Instruct-2507.w4a16

1B • Updated 1 day ago • 21

inference-optimization/Llama-3.1-8B-Instruct-Mixed-NVFP4-FP8_DYNAMIC-gate_up_proj-all

7B • Updated 1 day ago • 12

inference-optimization/Llama-3.1-8B-Instruct-Mixed-NVFP4-FP8_DYNAMIC-down_proj-all

6B • Updated 1 day ago • 12

inference-optimization/Llama-3.1-8B-Instruct-Mixed-NVFP4-FP8_DYNAMIC-qkv_proj-all

5B • Updated 1 day ago • 16

inference-optimization/Llama-3.1-8B-Instruct-Mixed-NVFP4-FP8_DYNAMIC-out_proj-all

5B • Updated 1 day ago • 8

inference-optimization/Llama-3.1-8B-Instruct-Mixed-NVFP4-FP8_BLOCK-gate_up_proj-all

7B • Updated 1 day ago • 16

datasets 0

None public yet