请教一下，glm-4v会支持vllm推理吗？ #583

2500035435 · 2024-10-12T02:13:30Z

glm-4v使用vllm推理。

目前想尝试服务器部署，使用多客户端对glm4v的api server发起请求，但是用Transformers推理返回结果太慢。看到glm4-chat用vllm推理的速度快了不少，因此希望4v也能支持vllm推理。

elesun2018 · 2024-10-12T08:08:35Z

同问，sss

sixsixcoder · 2024-10-14T01:46:24Z

在最近的PR中已经将GLM-4v适配了vllm=0.6.2，相信很快就会合并。您可以部署最新版的vllm，并且参考PR 585readme中的示例进行推理

neblen · 2024-10-16T07:30:55Z

@sixsixcoder 想问下支持使用glm 4v 9b int4进行推理嘛？

sixsixcoder · 2024-10-16T08:51:59Z

@sixsixcoder 想问下支持使用glm 4v 9b int4进行推理嘛？

暂不支持

sixsixcoder self-assigned this Oct 14, 2024

Provide feedback