请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

数据集全量训练,是不是16G的显存不够用了?

老师,请教一下。

这节课训练完成后,对于短句的翻译效果不错,但是稍长一下就很差,我想应该跟我们学习的样本子集(最大句子长度16)有关。所以我将数据集全量放开,放Google Cloud上面运行,用的1个GPU,16G显存,训练一段时间jupyter就挂掉了。如果只取[:30000],可以正常训练完成。是不是因为显存不够?是不是因为全量的数据样本中句子太长,attention矩阵太大导致?

正在回答

1回答

是的,attention的复杂度是平方级别的。一般bert的训练只取512, 你取30000有点太大了,而且我猜测数据中应该长度为30000的句子也不多,建议取一个<1000的长度。

0 回复 有任何疑惑可以回复我~
  • 提问者 慕慕8288485 #1
    不是长度30000,是按照长度由短到长的前30000条数据,这样是能训练的,只是全量数据训练就不行了。
    回复 有任何疑惑可以回复我~ 2020-10-22 21:18:17
  • 正十七 回复 提问者 慕慕8288485 #2
    可以分batch去训练啊,我们一般训练不是把全部数据都喂给模型的。
    回复 有任何疑惑可以回复我~ 2020-11-05 23:07:44
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信