采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,请教一下。
这节课训练完成后,对于短句的翻译效果不错,但是稍长一下就很差,我想应该跟我们学习的样本子集(最大句子长度16)有关。所以我将数据集全量放开,放Google Cloud上面运行,用的1个GPU,16G显存,训练一段时间jupyter就挂掉了。如果只取[:30000],可以正常训练完成。是不是因为显存不够?是不是因为全量的数据样本中句子太长,attention矩阵太大导致?
是的,attention的复杂度是平方级别的。一般bert的训练只取512, 你取30000有点太大了,而且我猜测数据中应该长度为30000的句子也不多,建议取一个<1000的长度。
不是长度30000,是按照长度由短到长的前30000条数据,这样是能训练的,只是全量数据训练就不行了。
可以分batch去训练啊,我们一般训练不是把全部数据都喂给模型的。
登录后可查看更多问答,登录/注册
Tensorflow2.0实战—以实战促理论的方式学习深度学习
2.9k 1
1.4k 3
1.2k 19
1.4k 13
2.0k 7