设置成cpu时依然调用了显卡。 #1804

fzhsbc · 2023-10-20T08:03:30Z

fzhsbc
Oct 20, 2023

config里面已经设置：

Embedding 模型运行设备。设为"auto"会自动检测，也可手动设定为"cuda","mps","cpu"其中之一。

EMBEDDING_DEVICE = "cpu" #"auto"

LLM 名称

LLM_MODEL = "internlm-chat-7b"

LLM 运行设备。设为"auto"会自动检测，也可手动设定为"cuda","mps","cpu"其中之一。

LLM_DEVICE = "cpu" #"auto"
同时startup.py中也修改了：
sys.modules["fastchat.serve.vllm_worker"].worker = worker

    else:
        from fastchat.serve.model_worker import app, GptqConfig, AWQConfig, ModelWorker
        args.gpus = None #"0" # GPU的编号,如果有多个GPU，可以设置为"0,1,2,3"
        args.max_gpu_memory = "2GiB"
        args.num_gpus = 0  # model worker的切分是model并行，这里填写显卡的数量

        args.load_8bit = False
        args.cpu_offloading = None
        args.gptq_ckpt = None

zRzRzRzRzRzRzR · 2023-12-02T04:49:06Z

zRzRzRzRzRzRzR
Dec 2, 2023
Collaborator

不要使用auto，直接指定cpu，同时还需要禁用vllm

2 replies

Crescentz Apr 17, 2024

同样的问题，全部指定了cpu仍然调用cuda
当前启动的LLM模型：['chatglm3-6b'] @ cpu
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': '/home/zhang/CODE/Embeddings/chatglm3-6b',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型： bge-small-zh-v1.5 @ cpu

lr13953301387 Apr 24, 2024

去server_config文件，往下拉，大概在93行， "chatglm3-6b": {
"device": "auto",
}, 看一下这里是不是写的cuda

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

设置成cpu时依然调用了显卡。 #1804

{{title}}

Replies: 1 comment 2 replies

{{title}}

{{title}}

{{title}}

Select a reply

设置成cpu时依然调用了显卡。 #1804

fzhsbc Oct 20, 2023

Embedding 模型运行设备。设为"auto"会自动检测，也可手动设定为"cuda","mps","cpu"其中之一。

LLM 名称

LLM 运行设备。设为"auto"会自动检测，也可手动设定为"cuda","mps","cpu"其中之一。

Replies: 1 comment · 2 replies

zRzRzRzRzRzRzR Dec 2, 2023 Collaborator

Crescentz Apr 17, 2024

lr13953301387 Apr 24, 2024

fzhsbc
Oct 20, 2023

Replies: 1 comment 2 replies

zRzRzRzRzRzRzR
Dec 2, 2023
Collaborator