请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

拿到开源大模型以后还需要去训练吗

PPT第一点提到的拿到开源大模型需要去算力平台租算力,这些开源大模型我的理解应该是训练过了的吧,为什么还需要去租算力不能直接用呢;

第二点提到的直接用第三方闭源的大模型API,那么这些闭源的大模型应该是训练过了(也叫喂了数据)的所以可以直接调用吧

帮忙解答下这两个问题···

正在回答 回答被采纳积分+3

1回答

tomiezhang 2024-04-18 03:43:15
  1. 开源大模型的意思就是只有一堆代码,怎么直接用。。。 你至少得找个服务器把代码架起来跑呀,一般的服务器跑不动,只有GPU服务器才可以(为什么英伟达那么牛逼的原因)

  2. 闭源大模型是有人把这一堆代码和GPU服务器都解决了,用户直接用API方式就可以使用了。

    这两者的区别在于,开源大模型相当于底层代码都在自己手里,你后期微调也好,API调用也好,所有投喂给LLM的数据都在自己手里,从商业角度来看比较安全。闭源大模型你只有使用权,而且你所有的交互数据相当于都传递给了这个闭源大模型(一般是一家商业公司如openai),数据安全不是很好(这也是为什么很多国家反对openai的原因之一)

0 回复 有任何疑惑可以回复我~
  • 提问者 慕娘6279593 #1
    你好,开源大模型与我理解的不太一样,我以前学过一些CNN等这些简单一些的模型,这些模型经过训练过以后可以导出成一个模型对象,然后通过load的方式去直接使用,用行业话来讲就是迁移学习的一种,这种情况下导出的模型其实是有数据的,行业话来讲就是导出的模型是学习了Future的,所以可以直接load然后使用,你说的需要服务器去跑这个我理解,但是我的理解是开源大模型肯定是已经带了学习的Future的所以如果服务器解决的话就可以直接使用不要投喂数据从头训练了,不知道我的理解是否正确?···
    回复 有任何疑惑可以回复我~ 2024-04-18 09:41:25
  • tomiezhang 回复 提问者 慕娘6279593 #2
    了解,你知道CNN就简单多了,LLM开源模型底模肯定是带数据的,要不像openai的模型名称就不会带着时间了,但是这些训练数据有两个问题,一个是规模问题,比如7B的开源模型,只有70亿训练参数,那么它自带的数据肯定不会覆盖所有知识,就会造成它回答问题幻觉严重,另外一个是数据的时效性,类似openai发的模型很多时候名字都带个月份,表示该模型的知识最后更新时间,你如果问它当前发生的事情,因为没有训练,它是不知道的,也会导致模型幻觉。所以开源模型,节约的是底模全参训练的时间和金钱,但是对于训练集之外和最新的数据,一样是要通过RAG或者微调方式来处理的。
    回复 有任何疑惑可以回复我~ 2024-04-18 10:17:10
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信