riverzoe-notes

カテゴリ: nVidia

NVIDIA TensorRT-LLM を試す

📅 2026年03月12日
はじめに NVIDIAが提供するTensorRT-LLMは、大規模言語モデルの推論を極限まで最適化するためのライブラリです。 最適化の手法 量子化(INT8, FP8) PagedAttention…
続きを読む »