部署项目-慕课网

2回答

阿基米口回答被采纳获得+3积分 2025-05-12 23:34:29

是可以在云服务器上部署
云服务器可以采用主流的云厂商的服务器比如阿里云、腾讯云
具体的云服务器的数量和配置（主要是内存和cpu核数），要跟并发数相关，最好是通过压测结论进行扩展。通常架构可以通过ngnix进行负载整合（请求分发），LLM最好采用外部api（本地部署资源损耗高，并发低），向量数据库，和若干个web服务。通常至少nginx一台、向量数据库一台、web服务若干台。可以先通过一个web服务来进行并发压测，根据压测的结果来确定多少台来满足并发数要求

1 回复有任何疑惑可以回复我~

提问者 lailai11 #1

如果大模型采用外部api，对企业的私有数据会不会存在安全隐患

回复有任何疑惑可以回复我~ 2025-05-12 23:44:15

阿基米口 2025-05-13 09:32:47

嗯，这是一个问题，需要评估下私有数据安全等级。

如果说自己本地部署大语言模型，要保证时延可用性，就需要GPU推理，也要考虑GPU云服务器的成本

比如部署72B的int4量化的模型至少要3个卡A10 24G（可以试下最新的Qwen3的模型32B 1张A10 24G）

对于模型的并发延迟，也要做压测

0 回复有任何疑惑可以回复我~

收起回答

提问者 lailai11 #1

老师，您好！那些Embidding模型部署在哪里？是跟向量数据库部署在一起吗？Embidding模型是不是也需要GPU服务器才好点

回复有任何疑惑可以回复我~ 2025-06-09 09:33:17

阿基米口回复提问者 lailai11 #2

embedding模型一般是也可以独立部署，当前主流的embedding模型也是transformer变种的模型，如果有GPU部署也是最好的，部署可以采用ollama或者vllm，可以保证更大的并发吞吐量。一般不会和向量数据库部署在一起，向量数据库主要匹配向量，如果是CPU部署可以包含在RAG流程中。

回复有任何疑惑可以回复我~ 2025-06-09 22:34:51

提问者 lailai11 回复阿基米口 #3
```
回复 阿基米口：我们课程中，是采用的vllm的部署模式吗？
```
回复有任何疑惑可以回复我~ 2025-06-12 14:05:24

点开查看后面1条评论

部署项目

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

传参config时发送set_run_config错误

minicpm多卡部署

部署项目

deepdoc 如何单独使用

三种方式跑出来的余弦相似度不一样

热搜

最近搜索清空

部署项目

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

传参config时发送set_run_config错误

minicpm多卡部署

部署项目

deepdoc 如何单独使用

三种方式跑出来的余弦相似度不一样