LocalScore - Test #2273 Results

TEST #2273 RESULTS

01/13/2026 - 3:01 AM

ACCELERATOR

NVIDIA RTX 4000 SFF Ada Generation

GPU

MODEL

Meta Llama 3.1 8B Instruct

Q4_K - Medium

8.0Bparams

44.1

tokens/s

generation

691

time to first token

1995

tokens/s

prompt

503

LocalScore

HOW YOU STACK UP

Explore All Results

Meta Llama 3.1 8B Instruct - Q4_K - Medium

SYSTEM

CPU

Intel Xeon W-2133 CPU @ 3.60GHz (skylake-avx512)

RAM

94.3GB

Linux

Kernel Release

6.8.0-90-generic

Architecture

x86_64

Version

Cosmopolitan 3.9.7 MODE=x86_64; #91-Ubuntu SMP PREEMPT_DYNAMIC Tue Nov 18 14:14:30 UTC 2025

RUNTIME

Name

llamafile

Version

0.9.2

Commit Hash

a30b324

DETAILED RESULTS

TEST NAME

PROMPT

GENERATION

TTFT

pp1024+tg16

2326

tokens/s

45.4

tokens/s

463

pp4096+tg256

1722

tokens/s

41.0

tokens/s

2.40

sec

pp2048+tg256

2068

tokens/s

43.7

tokens/s

1.01

sec

pp2048+tg768

2080

tokens/s

43.3

tokens/s

1.01

sec

pp1024+tg1024

2360

tokens/s

44.7

tokens/s

456

pp1280+tg3072

2236

tokens/s

42.5

tokens/s

595

pp384+tg1152

2675

tokens/s

45.2

tokens/s

166

pp64+tg1024

2090

tokens/s

45.7

tokens/s

pp16+tg1536

401

tokens/s

45.4

tokens/s