Meta Llama 3.1 8B Instruct - Q4_K

Meta Llama 3.1 8B Instruct

Q4_K - Medium

8.0Bparams

COMPARE ACCELERATORS

387 accelerators tested

Select Accelerators

NVIDIA GeForce RTX 4090

23GB

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

95GB

NVIDIA RTX 6000 Ada Generation

47GB

NVIDIA GeForce RTX 4090

24GB

NVIDIA H100 PCIe

79GB

Meta Llama 3.1 8B Instruct - Q4_K - Medium

LEADERBOARD

ACCELERATOR

PROMPT

GENERATION

TTFT

LOCALSCORE

NVIDIA GeForce RTX 4090

GPU / 23GB

PROMPT

7594

tokens/s

GENERATION

120

tokens/s

TTFT

176

LOCALSCORE

1727

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

GPU / 95GB

PROMPT

7237

tokens/s

GENERATION

103

tokens/s

TTFT

183

LOCALSCORE

1616

NVIDIA RTX 6000 Ada Generation

GPU / 47GB

PROMPT

6808

tokens/s

GENERATION

121

tokens/s

TTFT

199

LOCALSCORE

1605

NVIDIA GeForce RTX 4090

GPU / 24GB

PROMPT

6697

tokens/s

GENERATION

91.0

tokens/s

TTFT

203

LOCALSCORE

1449

NVIDIA H100 PCIe

GPU / 79GB

PROMPT

5202

tokens/s

GENERATION

120

tokens/s

TTFT

236

LOCALSCORE

1382

NVIDIA GeForce RTX 5090

GPU / 31GB

PROMPT

6297

tokens/s

GENERATION

66.3

tokens/s

TTFT

266

LOCALSCORE

1193

NVIDIA GeForce RTX 4080

GPU / 16GB

PROMPT

4792

tokens/s

GENERATION

88.3

tokens/s

TTFT

279

LOCALSCORE

1149

NVIDIA GeForce RTX 4080 SUPER

GPU / 32GB

PROMPT

4979

tokens/s

GENERATION

78.7

tokens/s

TTFT

267

LOCALSCORE

1136

NVIDIA GeForce RTX 3090 Ti

GPU / 24GB

PROMPT

4024

tokens/s

GENERATION

110

tokens/s

TTFT

320

LOCALSCORE

1113

NVIDIA A100-SXM4-80GB

GPU / 79GB

PROMPT

3571

tokens/s

GENERATION

110

tokens/s

TTFT

336

LOCALSCORE

1054

NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition

GPU / 95GB

PROMPT

5544

tokens/s

GENERATION

46.2

tokens/s

TTFT

228

LOCALSCORE

1039

NVIDIA RTX 6000 Ada Generation

GPU / 48GB

PROMPT

5487

tokens/s

GENERATION

51.3

tokens/s

TTFT

252

LOCALSCORE

1038

NVIDIA L40S

GPU / 45GB

PROMPT

5328

tokens/s

GENERATION

45.9

tokens/s

TTFT

262

LOCALSCORE

977

NVIDIA GeForce RTX 3090

GPU / 24GB

PROMPT

3536

tokens/s

GENERATION

95.7

tokens/s

TTFT

476

LOCALSCORE

960

NVIDIA L40

GPU / 44GB

PROMPT

5065

tokens/s

GENERATION

45.1

tokens/s

TTFT

274

LOCALSCORE

941

NVIDIA RTX A6000

GPU / 48GB

PROMPT

3447

tokens/s

GENERATION

90.5

tokens/s

TTFT

378

LOCALSCORE

938

NVIDIA GeForce RTX 3080 Ti

GPU / 12GB

PROMPT

3458

tokens/s

GENERATION

87.1

tokens/s

TTFT

371

LOCALSCORE

933

NVIDIA GeForce RTX 4080 SUPER

GPU / 16GB

PROMPT

4461

tokens/s

GENERATION

54.4

tokens/s

TTFT

301

LOCALSCORE

931

NVIDIA H100 80GB HBM3

GPU / 79GB

PROMPT

4687

tokens/s

GENERATION

42.4

tokens/s

TTFT

263

LOCALSCORE

911

NVIDIA GeForce RTX 5080

GPU / 15GB

PROMPT

4428

tokens/s

GENERATION

44.9

tokens/s

TTFT

289

LOCALSCORE

883

NVIDIA GeForce RTX 5070 Ti

GPU / 15GB

PROMPT

3657

tokens/s

GENERATION

65.5

tokens/s

TTFT

363

LOCALSCORE

875

NVIDIA A40

GPU / 44GB

PROMPT

3270

tokens/s

GENERATION

80.6

tokens/s

TTFT

401

LOCALSCORE

870

NVIDIA GeForce RTX 4070 Ti

GPU / 12GB

PROMPT

3692

tokens/s

GENERATION

60.0

tokens/s

TTFT

371

LOCALSCORE

839

NVIDIA GeForce RTX 4070

GPU / 12GB

PROMPT

3192

tokens/s

GENERATION

76.3

tokens/s

TTFT

415

LOCALSCORE

838

NVIDIA GeForce RTX 3080

GPU / 20GB

PROMPT

3031

tokens/s

GENERATION

81.6

tokens/s

TTFT

422

LOCALSCORE

836

NVIDIA RTX A5000

GPU / 24GB

PROMPT

2891

tokens/s

GENERATION

89.1

tokens/s

TTFT

446

LOCALSCORE

832

NVIDIA GeForce RTX 3080

GPU / 10GB

PROMPT

3015

tokens/s

GENERATION

80.7

tokens/s

TTFT

424

LOCALSCORE

830

NVIDIA H100 NVL

GPU / 93GB

PROMPT

4299

tokens/s

GENERATION

37.1

tokens/s

TTFT

289

LOCALSCORE

820

NVIDIA GeForce RTX 4070 Ti SUPER

GPU / 16GB

PROMPT

3561

tokens/s

GENERATION

53.9

tokens/s

TTFT

364

LOCALSCORE

808

NVIDIA GeForce RTX 5090 Laptop GPU

GPU / 24GB

PROMPT

3104

tokens/s

GENERATION

71.3

tokens/s

TTFT

438

LOCALSCORE

797

NVIDIA GeForce RTX 5070 Ti Laptop GPU

GPU / 12GB

PROMPT

2931

tokens/s

GENERATION

66.8

tokens/s

TTFT

453

LOCALSCORE

757

NVIDIA GeForce RTX 3070 Ti

GPU / 8GB

PROMPT

2509

tokens/s

GENERATION

83.2

tokens/s

TTFT

520

LOCALSCORE

738

Tesla V100-SXM2-16GB

GPU / 16GB

PROMPT

2256

tokens/s

GENERATION

90.8

tokens/s

TTFT

521

LOCALSCORE

733

NVIDIA RTX A4500

GPU / 20GB

PROMPT

2498

tokens/s

GENERATION

77.9

tokens/s

TTFT

521

LOCALSCORE

720

NVIDIA GeForce RTX 5070

GPU / 12GB

PROMPT

2927

tokens/s

GENERATION

55.9

tokens/s

TTFT

477

LOCALSCORE

709

Tesla V100-SXM2-32GB

GPU / 32GB

PROMPT

2177

tokens/s

GENERATION

88.2

tokens/s

TTFT

539

LOCALSCORE

709

NVIDIA GeForce RTX 4070 SUPER

GPU / 12GB

PROMPT

3216

tokens/s

GENERATION

45.3

tokens/s

TTFT

414

LOCALSCORE

703

NVIDIA TITAN RTX

GPU / 24GB

PROMPT

2226

tokens/s

GENERATION

71.2

tokens/s

TTFT

574

LOCALSCORE

651

NVIDIA RTX 4000 Ada Generation

GPU / 20GB

PROMPT

2608

tokens/s

GENERATION

53.5

tokens/s

TTFT

520

LOCALSCORE

645

NVIDIA GeForce RTX 2080 Ti

GPU / 11GB

PROMPT

2027

tokens/s

GENERATION

72.9

tokens/s

TTFT

617

LOCALSCORE

621

NVIDIA GeForce RTX 5060 Ti

GPU / 15GB

PROMPT

2365

tokens/s

GENERATION

59.0

tokens/s

TTFT

812

LOCALSCORE

600

NVIDIA TITAN V

GPU / 12GB

PROMPT

1823

tokens/s

GENERATION

73.3

tokens/s

TTFT

647

LOCALSCORE

591

NVIDIA GeForce RTX 5060 Ti

GPU / 16GB

PROMPT

2328

tokens/s

GENERATION

49.6

tokens/s

TTFT

563

LOCALSCORE

589

Quadro RTX 6000

GPU / 22GB

PROMPT

1891

tokens/s

GENERATION

64.9

tokens/s

TTFT

656

LOCALSCORE

572

NVIDIA A100 80GB PCIe

GPU / 79GB

PROMPT

2601

tokens/s

GENERATION

37.1

tokens/s

TTFT

519

LOCALSCORE

571

NVIDIA RTX 3500 Ada Generation Laptop GPU

GPU / 12GB

PROMPT

2445

tokens/s

GENERATION

41.8

tokens/s

TTFT

543

LOCALSCORE

564

NVIDIA GeForce RTX 5070 Ti

GPU / 16GB

PROMPT

2575

tokens/s

GENERATION

34.7

tokens/s

TTFT

528

LOCALSCORE

562

NVIDIA GeForce RTX 3070

GPU / 8GB

PROMPT

2006

tokens/s

GENERATION

59.6

tokens/s

TTFT

710

LOCALSCORE

560

NVIDIA GeForce RTX 3070 Ti Laptop GPU

GPU / 8GB

PROMPT

1910

tokens/s

GENERATION

62.4

tokens/s

TTFT

683

LOCALSCORE

559

NVIDIA GeForce RTX 3080 Laptop GPU

GPU / 8GB

PROMPT

2052

tokens/s

GENERATION

53.9

tokens/s

TTFT

635

LOCALSCORE

558

NVIDIA GeForce RTX 4060 Ti

GPU / 16GB

PROMPT

2215

tokens/s

GENERATION

48.2

tokens/s

TTFT

623

LOCALSCORE

555

NVIDIA RTX A4000

GPU / 16GB

PROMPT

1931

tokens/s

GENERATION

56.5

tokens/s

TTFT

675

LOCALSCORE

544

NVIDIA GeForce RTX 3060 Ti

GPU / 8GB

PROMPT

1839

tokens/s

GENERATION

60.2

tokens/s

TTFT

724

LOCALSCORE

538

NVIDIA GeForce RTX 3080 Laptop GPU

GPU / 16GB

PROMPT

1885

tokens/s

GENERATION

52.3

tokens/s

TTFT

699

LOCALSCORE

521

NVIDIA GeForce RTX 4070 Laptop GPU

GPU / 8GB

PROMPT

2131

tokens/s

GENERATION

40.9

tokens/s

TTFT

648

LOCALSCORE

512

NVIDIA GeForce RTX 2080 SUPER

GPU / 8GB

PROMPT

1693

tokens/s

GENERATION

59.8

tokens/s

TTFT

756

LOCALSCORE

512

NVIDIA L4

GPU / 22GB

PROMPT

2056

tokens/s

GENERATION

42.9

tokens/s

TTFT

669

LOCALSCORE

509

NVIDIA RTX 4000 SFF Ada Generation

GPU / 20GB

PROMPT

2004

tokens/s

GENERATION

44.4

tokens/s

TTFT

690

LOCALSCORE

505

NVIDIA GeForce RTX 4060 Ti

GPU / 8GB

PROMPT

2087

tokens/s

GENERATION

38.3

tokens/s

TTFT

639

LOCALSCORE

497

NVIDIA A10

GPU / 22GB

PROMPT

2085

tokens/s

GENERATION

36.5

tokens/s

TTFT

629

LOCALSCORE

495

Quadro RTX 8000

GPU / 47GB

PROMPT

1677

tokens/s

GENERATION

74.0

tokens/s

TTFT

1.05

sec

LOCALSCORE

491

NVIDIA GeForce RTX 2080

GPU / 8GB

PROMPT

1546

tokens/s

GENERATION

58.4

tokens/s

TTFT

823

LOCALSCORE

479

NVIDIA GB10

GPU / 122GB

PROMPT

2010

tokens/s

GENERATION

34.7

tokens/s

TTFT

692

LOCALSCORE

466

NVIDIA GB10

GPU / 120GB

PROMPT

1986

tokens/s

GENERATION

33.6

tokens/s

TTFT

717

LOCALSCORE

456

NVIDIA GeForce RTX 2070 SUPER

GPU / 8GB

PROMPT

1444

tokens/s

GENERATION

57.6

tokens/s

TTFT

884

LOCALSCORE

455

NVIDIA GeForce RTX 3060

GPU / 12GB

PROMPT

1488

tokens/s

GENERATION

51.6

tokens/s

TTFT

880

LOCALSCORE

444

NVIDIA RTX A5000 Laptop GPU

GPU / 16GB

PROMPT

1497

tokens/s

GENERATION

45.5

tokens/s

TTFT

917

LOCALSCORE

420

Apple M3 Ultra 24P+8E+80GPU

GPU / 512GB

PROMPT

1109

tokens/s

GENERATION

62.7

tokens/s

TTFT

1.06

sec

LOCALSCORE

403

NVIDIA GeForce RTX 2070

GPU / 8GB

PROMPT

1252

tokens/s

GENERATION

52.4

tokens/s

TTFT

1.02

sec

LOCALSCORE

401

NVIDIA RTX PRO 2000 Blackwell Generation Laptop GPU

GPU / 8GB

PROMPT

1453

tokens/s

GENERATION

40.4

tokens/s

TTFT

920

LOCALSCORE

400

NVIDIA GeForce RTX 4060

GPU / 8GB

PROMPT

1528

tokens/s

GENERATION

38.1

tokens/s

TTFT

1.08

sec

LOCALSCORE

399

Apple M3 Ultra 24P+8E+80GPU

GPU / 256GB

PROMPT

1062

tokens/s

GENERATION

63.3

tokens/s

TTFT

1.10

sec

LOCALSCORE

394

NVIDIA GeForce RTX 2060 SUPER

GPU / 8GB

PROMPT

1223

tokens/s

GENERATION

51.3

tokens/s

TTFT

1.04

sec

LOCALSCORE

392

NVIDIA RTX 2000 Ada Generation

GPU / 16GB

PROMPT

1357

tokens/s

GENERATION

37.5

tokens/s

TTFT

1.00

sec

LOCALSCORE

370

NVIDIA GeForce RTX 3070 Laptop GPU

GPU / 8GB

PROMPT

1176

tokens/s

GENERATION

41.9

tokens/s

TTFT

1.02

sec

LOCALSCORE

364

NVIDIA GeForce RTX 3060 Laptop GPU

GPU / 6GB

PROMPT

1253

tokens/s

GENERATION

40.8

tokens/s

TTFT

1.82

sec

LOCALSCORE

353

NVIDIA GeForce RTX 4060 Laptop GPU

GPU / 8GB

PROMPT

1365

tokens/s

GENERATION

36.0

tokens/s

TTFT

3.58

sec

LOCALSCORE

334

AMD Radeon RX 6900 XT

GPU / 16GB

PROMPT

1082

tokens/s

GENERATION

42.4

tokens/s

TTFT

1.31

sec

LOCALSCORE

328

Quadro RTX 4000

GPU / 8GB

PROMPT

992

tokens/s

GENERATION

40.0

tokens/s

TTFT

1.29

sec

LOCALSCORE

315

NVIDIA GeForce RTX 4050 Laptop GPU

GPU / 6GB

PROMPT

1201

tokens/s

GENERATION

31.4

tokens/s

TTFT

1.28

sec

LOCALSCORE

310

Radeon RX 7900 XTX

GPU / 24GB

PROMPT

885

tokens/s

GENERATION

45.3

tokens/s

TTFT

1.42

sec

LOCALSCORE

305

NVIDIA GeForce RTX 2060

GPU / 6GB

PROMPT

960

tokens/s

GENERATION

38.1

tokens/s

TTFT

1.30

sec

LOCALSCORE

304

NVIDIA RTX 2000 Ada Generation Laptop GPU

GPU / 8GB

PROMPT

1151

tokens/s

GENERATION

29.5

tokens/s

TTFT

1.22

sec

LOCALSCORE

303

NVIDIA RTX A2000 12GB

GPU / 12GB

PROMPT

976

tokens/s

GENERATION

35.7

tokens/s

TTFT

1.35

sec

LOCALSCORE

296

Apple M2 Ultra 16P+8E+60GPU

GPU / 64GB

PROMPT

706

tokens/s

GENERATION

59.4

tokens/s

TTFT

1.64

sec

LOCALSCORE

295

NVIDIA GeForce RTX 3050

GPU / 8GB

PROMPT

979

tokens/s

GENERATION

34.5

tokens/s

TTFT

1.33

sec

LOCALSCORE

294

NVIDIA GeForce RTX 3050 OEM

GPU / 8GB

PROMPT

965

tokens/s

GENERATION

35.0

tokens/s

TTFT

1.36

sec

LOCALSCORE

291

AMD Radeon RX 6800 XT

GPU / 16GB

PROMPT

951

tokens/s

GENERATION

37.6

tokens/s

TTFT

1.52

sec

LOCALSCORE

286

Apple M1 Ultra 16P+4E+64GPU

GPU / 128GB

PROMPT

668

tokens/s

GENERATION

54.3

tokens/s

TTFT

1.69

sec

LOCALSCORE

278

Apple M4 Max 12P+4E+40GPU

GPU / 48GB

PROMPT

663

tokens/s

GENERATION

55.1

tokens/s

TTFT

1.79

sec

LOCALSCORE

273

AMD Radeon RX 7900 XTX

GPU / 24GB

PROMPT

865

tokens/s

GENERATION

39.3

tokens/s

TTFT

1.49

sec

LOCALSCORE

273

Apple M5 Max 6P+12E+32GPU

GPU / 36GB

PROMPT

633

tokens/s

GENERATION

61.9

tokens/s

TTFT

1.93

sec

LOCALSCORE

273

Apple M4 Max 12P+4E+40GPU

GPU / 128GB

PROMPT

632

tokens/s

GENERATION

52.9

tokens/s

TTFT

1.91

sec

LOCALSCORE

260

NVIDIA RTX 1000 Ada Generation Laptop GPU

GPU / 6GB

PROMPT

955

tokens/s

GENERATION

24.2

tokens/s

TTFT

1.36

sec

LOCALSCORE

257

Apple M4 Max 12P+4E+40GPU

GPU / 64GB

PROMPT

566

tokens/s

GENERATION

47.9

tokens/s

TTFT

2.11

sec

LOCALSCORE

235

NVIDIA RTX A2000 8GB Laptop GPU

GPU / 8GB

PROMPT

790

tokens/s

GENERATION

27.5

tokens/s

TTFT

1.69

sec

LOCALSCORE

234

Apple M3 Max 12P+4E+40GPU

GPU / 128GB

PROMPT

583

tokens/s

GENERATION

45.8

tokens/s

TTFT

2.07

sec

LOCALSCORE

234

Apple M1 Ultra 16P+4E+48GPU

GPU / 128GB

PROMPT

534

tokens/s

GENERATION

48.9

tokens/s

TTFT

2.16

sec

LOCALSCORE

230

AMD Radeon RX 6800

GPU / 16GB

PROMPT

737

tokens/s

GENERATION

30.9

tokens/s

TTFT

1.95

sec

LOCALSCORE

227

NVIDIA GeForce RTX 3050 6GB Laptop GPU

GPU / 6GB

PROMPT

790

tokens/s

GENERATION

24.2

tokens/s

TTFT

1.70

sec

LOCALSCORE

225

NVIDIA RTX PRO 1000 Blackwell Generation Laptop GPU

GPU / 8GB

PROMPT

906

tokens/s

GENERATION

19.8

tokens/s

TTFT

1.65

sec

LOCALSCORE

225

Apple M4 Max 10P+4E+32GPU

GPU / 36GB

PROMPT

540

tokens/s

GENERATION

45.5

tokens/s

TTFT

2.25

sec

LOCALSCORE

222

NVIDIA RTX A2000

GPU / 6GB

PROMPT

758

tokens/s

GENERATION

28.7

tokens/s

TTFT

2.05

sec

LOCALSCORE

220

NVIDIA GeForce RTX 3050

GPU / 6GB

PROMPT

778

tokens/s

GENERATION

25.9

tokens/s

TTFT

1.99

sec

LOCALSCORE

218

Apple M2 Max 8P+4E+38GPU

GPU / 96GB

PROMPT

484

tokens/s

GENERATION

46.4

tokens/s

TTFT

2.44

sec

LOCALSCORE

210

AMD Radeon RX 7800 XT

GPU / 16GB

PROMPT

524

tokens/s

GENERATION

38.9

tokens/s

TTFT

2.36

sec

LOCALSCORE

205

Apple M2 Max 8P+4E+38GPU

GPU / 32GB

PROMPT

474

tokens/s

GENERATION

44.7

tokens/s

TTFT

2.49

sec

LOCALSCORE

204

Quadro RTX 3000

GPU / 6GB

PROMPT

606

tokens/s

GENERATION

29.5

tokens/s

TTFT

2.21

sec

LOCALSCORE

201

NVIDIA GeForce GTX 1080

GPU / 8GB

PROMPT

652

tokens/s

GENERATION

20.2

tokens/s

TTFT

2.02

sec

LOCALSCORE

187

Apple M3 Max 10P+4E+30GPU

GPU / 96GB

PROMPT

457

tokens/s

GENERATION

37.7

tokens/s

TTFT

2.69

sec

LOCALSCORE

186

Apple M5 Pro 6P+12E+20GPU

GPU / 24GB

PROMPT

411

tokens/s

GENERATION

44.9

tokens/s

TTFT

3.00

sec

LOCALSCORE

183

Apple M3 Max 10P+4E+30GPU

GPU / 36GB

PROMPT

443

tokens/s

GENERATION

37.5

tokens/s

TTFT

2.73

sec

LOCALSCORE

183

Apple M5 Pro 6P+12E+20GPU

GPU / 64GB

PROMPT

410

tokens/s

GENERATION

44.5

tokens/s

TTFT

3.01

sec

LOCALSCORE

183

AMD Radeon RX 6650 XT

GPU / 8GB

PROMPT

563

tokens/s

GENERATION

25.9

tokens/s

TTFT

2.48

sec

LOCALSCORE

181

AMD Radeon RX 6600 XT

GPU / 8GB

PROMPT

604

tokens/s

GENERATION

21.5

tokens/s

TTFT

2.34

sec

LOCALSCORE

177

Tesla P100-SXM2-16GB

GPU / 16GB

PROMPT

427

tokens/s

GENERATION

33.5

tokens/s

TTFT

2.72

sec

LOCALSCORE

174

Apple M1 Max 8P+2E+32GPU

GPU / 64GB

PROMPT

372

tokens/s

GENERATION

36.7

tokens/s

TTFT

3.24

sec

LOCALSCORE

162

AMD Radeon RX 6950 XT

GPU / 16GB

PROMPT

1024

tokens/s

GENERATION

6.1

tokens/s

TTFT

1.52

sec

LOCALSCORE

161

Apple M5 Pro 5P+10E+16GPU

GPU / 48GB

PROMPT

341

tokens/s

GENERATION

43.7

tokens/s

TTFT

3.67

sec

LOCALSCORE

159

Apple M5 Pro 5P+10E+16GPU

GPU / 24GB

PROMPT

336

tokens/s

GENERATION

43.2

tokens/s

TTFT

3.68

sec

LOCALSCORE

158

Apple M1 Max 8P+2E+32GPU

GPU / 32GB

PROMPT

366

tokens/s

GENERATION

35.9

tokens/s

TTFT

3.38

sec

LOCALSCORE

158

Apple M2 Max 8P+4E+30GPU

GPU / 32GB

PROMPT

362

tokens/s

GENERATION

36.2

tokens/s

TTFT

3.39

sec

LOCALSCORE

158

Tesla P100-PCIE-16GB

GPU / 16GB

PROMPT

372

tokens/s

GENERATION

31.1

tokens/s

TTFT

3.14

sec

LOCALSCORE

154

Apple M4 Pro 10P+4E+20GPU

GPU / 48GB

PROMPT

361

tokens/s

GENERATION

32.7

tokens/s

TTFT

3.44

sec

LOCALSCORE

151

Apple M4 Pro 10P+4E+20GPU

GPU / 24GB

PROMPT

360

tokens/s

GENERATION

32.5

tokens/s

TTFT

3.42

sec

LOCALSCORE

151

AMD Radeon RX 6700 XT

GPU / 12GB

PROMPT

597

tokens/s

GENERATION

16.4

tokens/s

TTFT

2.43

sec

LOCALSCORE

149

Apple M4 Pro 10P+4E+20GPU

GPU / 64GB

PROMPT

349

tokens/s

GENERATION

32.9

tokens/s

TTFT

3.56

sec

LOCALSCORE

148

Apple M3 Max 12P+4E+40GPU

GPU / 64GB

PROMPT

377

tokens/s

GENERATION

25.4

tokens/s

TTFT

3.37

sec

LOCALSCORE

142

Apple M1 Max 8P+2E+24GPU

GPU / 64GB

PROMPT

306

tokens/s

GENERATION

32.1

tokens/s

TTFT

3.99

sec

LOCALSCORE

135

Apple M4 Pro 8P+4E+16GPU

GPU / 48GB

PROMPT

302

tokens/s

GENERATION

30.2

tokens/s

TTFT

4.14

sec

LOCALSCORE

130

Apple M4 Pro 8P+4E+16GPU

GPU / 24GB

PROMPT

293

tokens/s

GENERATION

29.7

tokens/s

TTFT

4.29

sec

LOCALSCORE

127

Apple M2 Pro 8P+4E+19GPU

GPU / 32GB

PROMPT

262

tokens/s

GENERATION

26.3

tokens/s

TTFT

4.70

sec

LOCALSCORE

114

Apple M3 Pro 6P+6E+18GPU

GPU / 36GB

PROMPT

284

tokens/s

GENERATION

22.1

tokens/s

TTFT

4.46

sec

LOCALSCORE

112

AMD Radeon RX 7800 XT

GPU / 16GB

PROMPT

276

tokens/s

GENERATION

34.1

tokens/s

TTFT

6.91

sec

LOCALSCORE

111

Apple M3 Pro 6P+6E+18GPU

GPU / 18GB

PROMPT

279

tokens/s

GENERATION

20.8

tokens/s

TTFT

4.53

sec

LOCALSCORE

109

AMD Radeon RX 5700 XT

GPU / 8GB

PROMPT

256

tokens/s

GENERATION

25.4

tokens/s

TTFT

5.68

sec

LOCALSCORE

105

AMD Radeon RX 6600

GPU / 8GB

PROMPT

419

tokens/s

GENERATION

10.2

tokens/s

TTFT

3.54

sec

LOCALSCORE

100

Apple M2 Pro 6P+4E+16GPU

GPU / 16GB

PROMPT

225

tokens/s

GENERATION

24.3

tokens/s

TTFT

5.57

sec

LOCALSCORE

Apple M2 Pro 6P+4E+16GPU

GPU / 32GB

PROMPT

216

tokens/s

GENERATION

24.1

tokens/s

TTFT

5.87

sec

LOCALSCORE

Apple M3 Pro 5P+6E+14GPU

GPU / 36GB

PROMPT

223

tokens/s

GENERATION

21.5

tokens/s

TTFT

5.65

sec

LOCALSCORE

Apple M3 Pro 5P+6E+14GPU

GPU / 18GB

PROMPT

218

tokens/s

GENERATION

21.1

tokens/s

TTFT

5.87

sec

LOCALSCORE

Apple M1 Pro 8P+2E+16GPU

GPU / 16GB

PROMPT

205

tokens/s

GENERATION

21.9

tokens/s

TTFT

6.09

sec

LOCALSCORE

Apple M5 4P+6E+10GPU

GPU / 32GB

PROMPT

202

tokens/s

GENERATION

21.6

tokens/s

TTFT

6.15

sec

LOCALSCORE

Apple M1 Pro 8P+2E+16GPU

GPU / 32GB

PROMPT

200

tokens/s

GENERATION

21.7

tokens/s

TTFT

6.23

sec

LOCALSCORE

Apple M5 4P+6E+10GPU

GPU / 24GB

PROMPT

177

tokens/s

GENERATION

20.0

tokens/s

TTFT

6.61

sec

LOCALSCORE

Apple M1 Pro 6P+2E+14GPU

GPU / 16GB

PROMPT

177

tokens/s

GENERATION

20.1

tokens/s

TTFT

6.99

sec

LOCALSCORE

Apple M1 Pro 6P+2E+14GPU

GPU / 32GB

PROMPT

173

tokens/s

GENERATION

20.0

tokens/s

TTFT

7.23

sec

LOCALSCORE

AMD Radeon RX 7600

GPU / 8GB

PROMPT

317

tokens/s

GENERATION

5.5

tokens/s

TTFT

4.06

sec

LOCALSCORE

Apple M2 4P+4E+10GPU

GPU / 8GB

PROMPT

168

tokens/s

GENERATION

19.4

tokens/s

TTFT

7.89

sec

LOCALSCORE

Apple M4 4P+6E+10GPU

GPU / 16GB

PROMPT

174

tokens/s

GENERATION

16.8

tokens/s

TTFT

7.49

sec

LOCALSCORE

Apple M4 4P+6E+10GPU

GPU / 32GB

PROMPT

166

tokens/s

GENERATION

16.8

tokens/s

TTFT

7.55

sec

LOCALSCORE

Apple M2 4P+4E+8GPU

GPU / 8GB

PROMPT

149

tokens/s

GENERATION

18.3

tokens/s

TTFT

8.39

sec

LOCALSCORE

AMD Radeon™ RX 7700S

GPU / 8GB

PROMPT

289

tokens/s

GENERATION

4.6

tokens/s

TTFT

4.38

sec

LOCALSCORE

Apple M4 4P+6E+10GPU

GPU / 24GB

PROMPT

148

tokens/s

GENERATION

15.4

tokens/s

TTFT

8.38

sec

LOCALSCORE

Apple M2 4P+4E+10GPU

GPU / 24GB

PROMPT

142

tokens/s

GENERATION

14.7

tokens/s

TTFT

9.02

sec

LOCALSCORE

Apple M2 4P+4E+10GPU

GPU / 16GB

PROMPT

141

tokens/s

GENERATION

14.6

tokens/s

TTFT

9.09

sec

LOCALSCORE

Apple M4 4P+6E+8GPU

GPU / 16GB

PROMPT

134

tokens/s

GENERATION

15.3

tokens/s

TTFT

9.18

sec

LOCALSCORE

Apple M3 4P+4E+10GPU

GPU / 16GB

PROMPT

139

tokens/s

GENERATION

13.5

tokens/s

TTFT

9.02

sec

LOCALSCORE

Apple M1 4P+4E+8GPU

GPU / 8GB

PROMPT

134

tokens/s

GENERATION

14.6

tokens/s

TTFT

9.64

sec

LOCALSCORE

NVIDIA GeForce RTX 3050 Laptop GPU

GPU / 4GB

PROMPT

280

tokens/s

GENERATION

4.8

tokens/s

TTFT

7.47

sec

LOCALSCORE

Apple M3 4P+4E+8GPU

GPU / 16GB

PROMPT

125

tokens/s

GENERATION

13.7

tokens/s

TTFT

10.07

sec

LOCALSCORE

Apple A18 Pro 2P+4E+5GPU

GPU / 8GB

PROMPT

116

tokens/s

GENERATION

15.8

tokens/s

TTFT

11.03

sec

LOCALSCORE

AMD Radeon 780M Graphics

GPU / 28GB

PROMPT

186

tokens/s

GENERATION

5.6

tokens/s

TTFT

7.06

sec

LOCALSCORE

NVIDIA GeForce RTX 3050 Ti Laptop GPU

GPU / 4GB

PROMPT

290

tokens/s

GENERATION

4.3

tokens/s

TTFT

8.73

sec

LOCALSCORE

Apple M2 4P+4E+8GPU

GPU / 16GB

PROMPT

114

tokens/s

GENERATION

12.9

tokens/s

TTFT

10.95

sec

LOCALSCORE

Apple M1 4P+4E+7GPU

GPU / 8GB

PROMPT

109

tokens/s

GENERATION

13.4

tokens/s

TTFT

11.51

sec

LOCALSCORE

NVIDIA GeForce GTX 1660 SUPER

GPU / 6GB

PROMPT

129

tokens/s

GENERATION

9.6

tokens/s

TTFT

10.93

sec

LOCALSCORE

NVIDIA GeForce GTX 1660

GPU / 6GB

PROMPT

129

tokens/s

GENERATION

9.0

tokens/s

TTFT

10.99

sec

LOCALSCORE

Apple M3 4P+4E+10GPU

GPU / 24GB

PROMPT

110

tokens/s

GENERATION

10.2

tokens/s

TTFT

11.67

sec

LOCALSCORE

Apple M1 4P+4E+8GPU

GPU / 16GB

PROMPT

tokens/s

GENERATION

9.3

tokens/s

TTFT

13.62

sec

LOCALSCORE

Apple M1 4P+4E+7GPU

GPU / 16GB

PROMPT

tokens/s

GENERATION

9.4

tokens/s

TTFT

14.82

sec

LOCALSCORE

AMD Radeon(TM) 780M

GPU / 14GB

PROMPT

112

tokens/s

GENERATION

3.8

tokens/s

TTFT

11.29

sec

LOCALSCORE

AMD Radeon 780M Graphics

GPU / 9GB

PROMPT

110

tokens/s

GENERATION

3.5

tokens/s

TTFT

11.86

sec

LOCALSCORE

AMD Radeon 780M Graphics

GPU / 16GB

PROMPT

103

tokens/s

GENERATION

3.3

tokens/s

TTFT

12.56

sec

LOCALSCORE

AMD Radeon 780M Graphics

GPU / 12GB

PROMPT

tokens/s

GENERATION

3.3

tokens/s

TTFT

13.58

sec

LOCALSCORE

NVIDIA GeForce GTX 1650 Ti

GPU / 4GB

PROMPT

tokens/s

GENERATION

2.8

tokens/s

TTFT

23.14

sec

LOCALSCORE

Quadro P620

GPU / 2GB

PROMPT

tokens/s

GENERATION

1.3

tokens/s

TTFT

31.48

sec

LOCALSCORE