请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

模型分片升级时,模型错误

问答中有相同的问题,但是老师好像是运程解决的,并没有看到有答案

  • 在本地测试过模型的接受和升级都没有问题
  • 在实际的环境中,分片能够下发成功,在容器中也没有分片缺失的问题。但是在通过curl执行模型升级的时候会提醒模型错误,这时发现模型的md5发生了改变。
md5_true c7d5158eae58bc94b65c4a46dd6a7cfb
md5_after ffcb4706ab2fb641c248dfbd4428053e

尝试过把容器干掉重新下发,发生相同的问题,而且MD5没有发生改变。是不是合并模型的时候,顺序出现了问题?我该如何去排查解决他 谢谢老师

正在回答

1回答

我远程给同学解决的时候是这样解决的:

  1. 先本地调用接口,调用本地模型分片下发接口(确保无误进行下一步)

  2. 在虚拟机docker run 容器,调用容器的模型分片接口(确保无误进行下一步)

  3. 通过kubeedge下发(这里就是调用的curl接口)

0 回复 有任何疑惑可以回复我~
  • 提问者 阿冯宝贝 #1
    老师,我在第一步和第二步的receive_model中都没有遇见问题,但是还是在第三步出现问题了,通过下发的时候依然无情的报了模型错误
    回复 有任何疑惑可以回复我~ 2023-04-07 11:43:07
  • 暮闲 回复 提问者 阿冯宝贝 #2
    同学  你qq闪我我一下  明天给你远程看看
    回复 有任何疑惑可以回复我~ 2023-04-08 20:54:18
  • 提问者 阿冯宝贝 回复 暮闲 #3
    好的老师 万分感谢
    回复 有任何疑惑可以回复我~ 2023-04-08 21:35:08
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信