采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,您好!我想用这套技术搭建一个中小型的企业,制度问系统,在没有硬件服务器资源的情况,可以用这技术部署在云服务器上吗?采用什么云服务器好呢,采用什么云服务器配置,保证这个系统能应付200个并发提问。劳烦老师指导。
是可以在云服务器上部署
云服务器可以采用主流的云厂商的服务器比如阿里云、腾讯云
具体的云服务器的数量和配置(主要是内存和cpu核数),要跟并发数相关,最好是通过压测结论进行扩展。通常架构可以通过ngnix进行负载整合(请求分发),LLM最好采用外部api(本地部署资源损耗高,并发低),向量数据库,和若干个web服务。 通常至少nginx一台、向量数据库一台、web服务若干台。可以先通过一个web服务来进行并发压测,根据压测的结果来确定多少台来满足并发数要求
如果大模型采用外部api,对企业的私有数据会不会存在安全隐患
嗯,这是一个问题,需要评估下私有数据安全等级。
如果说自己本地部署大语言模型,要保证时延可用性,就需要GPU推理,也要考虑GPU云服务器的成本
比如部署72B的int4量化的模型至少要3个卡A10 24G(可以试下最新的Qwen3的模型32B 1张A10 24G)
对于模型的并发延迟,也要做压测
老师,您好!那些Embidding模型部署在哪里?是跟向量数据库部署在一起吗?Embidding模型是不是也需要GPU服务器才好点
embedding模型一般是也可以独立部署,当前主流的embedding模型也是transformer变种的模型,如果有GPU部署也是最好的,部署可以采用ollama或者vllm,可以保证更大的并发吞吐量。一般不会和向量数据库部署在一起,向量数据库主要匹配向量,如果是CPU部署可以包含在RAG流程中。
回复 阿基米口:我们课程中,是采用的vllm的部署模式吗?
登录后可查看更多问答,登录/注册
RAG全栈技术从基础到精通 ,打造高精准AI应用
461 8
311 7
1.1k 7
457 7
320 5
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号