minicpm多卡部署-慕课网

1回答

阿基米口 2025-12-15 16:37:56

hi，你好！你显卡的显存大小是多少？

minicpm模型大小大概6G中，普通的11G显存一张卡就可以装得下。ollama只有在显存不足的情况才会分配到其他的显卡。

需要明确的一点就是：如果一张卡可以加载模型，没有必要多卡部署。多卡部署其实要做模型的切分，会导致推理变慢（因为要多做卡和卡之间的通信）

---------------------------------------------------

如果是vllm（我这边的vllm是0.11.0版本 minicpm-v 4.5版本）

（如果是int4量化的模型）可以采用数据并行或者流水线并行开启利用多卡设备

0 回复有任何疑惑可以回复我~

收起回答

提问者慕标1049315 #1

我是8张4090，因为已经部署了qwen32b，每张卡都只剩3-4G，而ollama启动minicpm时默认只使用第一张卡，导致有时候卡一会报显存不足。所以我才想着将minicpm也均分到多卡。您的意思是vllm 0.11.0 minicpm-v 4.5是可以多卡部署吗？我的vllm是0.9.

回复有任何疑惑可以回复我~ 2025-12-18 10:26:01

阿基米口回复提问者慕标1049315 #2

如果是vllm 如果是tensor 并行是可以多卡部署。有一个疑问是你4090是24G显存吗？qwen32b只要4个卡就够了吧？ollama可以也可以执行显卡 比如 export CUDA_VISIBLE_DEVICES=1,2

回复有任何疑惑可以回复我~ 2025-12-18 20:43:09

提问者慕标1049315 回复阿基米口 #3

回复 阿基米口：我token、张量并行这些参数设置得比较大。不过本质问题还是如何多卡运行minicpm？CUDA_VISIBLE_DEVICES=1,2这个我试过，好像不生效。vllm框架的话只有部署适配的模型了。

回复有任何疑惑可以回复我~ 2025-12-19 09:09:34

点开查看后面4条评论

minicpm多卡部署

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

传参config时发送set_run_config错误

minicpm多卡部署

部署项目

deepdoc 如何单独使用

三种方式跑出来的余弦相似度不一样

热搜

最近搜索清空

minicpm多卡部署

正在回答 回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

传参config时发送set_run_config错误

minicpm多卡部署

部署项目

deepdoc 如何单独使用

三种方式跑出来的余弦相似度不一样

正在回答回答被采纳积分+3