2 9 Lab Output Triangle JavaScript

14 時間

AIを最大9.64倍高速化する投機的デコーディング手法「JetSpec」が開発 ...

Hao AI LabはAI推論エンジンのvLLMにJetSpecの実行機能を追加したバージョンを開発し、NVIDIA B200を用いてQwen3-8Bを実行。その結果、毎秒1000トークン以上という非常に高速な出力を実現しました。

一部の結果でアクセス不可の可能性があるため、非表示になっています。