Hao AI LabはAI推論エンジンのvLLMにJetSpecの実行機能を追加したバージョンを 開発 し、NVIDIA B200を用いてQwen3-8Bを実行。その結果、毎秒1000トークン以上という非常に高速な出力を実現しました。