Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog
一共涉及4个k8s组件: 1. Deployment:跑起来N个pod;指定NVIDIA官方的triton&trt-llm的docker image,指定好model放在哪个…
Minimalist GNU for Windows 文章目录 Minimalist GNU for Windows一、MinGW 和 MinGW-w64 的安装1. 在 Windows 上安装 MinGW-w642. 在 macOS 和 Linux 上安装 MinGW-w64 二、使用 MinGW-w64 编译代码三、MinGW 编译选项四、MinGW-w64 常用命令五、MinGW 开发示例六、调试与优…