请稍等 ...

报错显存不够

在没加入测试代码的时候是正常运行的，运行时显存占用如下：

但是加入测试部分后，报错显存不足

训练集60000个数据才占用了1G显存，没道理测试集10000个数据显存就不够了啊

我在调试的时候发现，每次经过73,74行的时候，占用的显存都会增加，直到撑爆3G报错，而每次经过57,58行的时候，占用的显存都是固定的1128M，是不是代码哪里有问题啊，没有释放images和labels占用的空间？

我的完整代码：

import torch
import torchvision.datasets as dataset
import torchvision.transforms as transforms
import torch.utils.data as data_utils
# data
train_data = dataset.MNIST(root='mnist',
                           train=True,
                           transform=transforms.ToTensor(),
                           download=True)
test_data = dataset.MNIST(root='mnist',
                          train=False,
                          transform=transforms.ToTensor(),
                          download=False)
# batch_size
train_loader = data_utils.DataLoader(dataset=train_data,
                                     batch_size=64,
                                     shuffle=True)
test_loader = data_utils.DataLoader(dataset=test_data,
                                    batch_size=64,
                                    shuffle=True)
# net
class CNN(torch.nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv = torch.nn.Sequential(
            torch.nn.Conv2d(1, 32, kernel_size=5, padding=2),
            torch.nn.BatchNorm2d(32),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(2)
        )
        self.fc = torch.nn.Linear(14 * 14 * 32, 10)
    def forward(self, x):
        out = self.conv(x)
        out = out.view(out.size()[0], -1)
        out = self.fc(out)
        return out
cnn = CNN()
cnn = cnn.cuda()
# loss
loss_func = torch.nn.CrossEntropyLoss()
# optimizer
optimizer = torch.optim.Adam(cnn.parameters(), lr=0.01)
# training
for epoch in range(1):
    for i, (images, labels) in enumerate(train_loader):
        images = images.cuda()
        labels = labels.cuda()
        outputs = cnn(images)
        loss = loss_func(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        print(f'epoch is {epoch + 1}, ite is {i}/{len(train_data) // train_loader.batch_size}, '
              f'loss is {loss.item()}')
    # eval/test
    loss_test = 0
    accuracy = 0
    for i, (images, labels) in enumerate(test_loader):
        images = images.cuda()
        labels = labels.cuda()
        outputs = cnn(images)
        # labels的维度：batch_size
        # outputs的维度：batch_size * cls_num，这里cls_num=10
        loss_test += loss_func(outputs, labels)
        _, pred = outputs.max(1)
        accuracy += (pred == labels).sum().item()
    accuracy = accuracy / len(test_data)
    loss_test = loss_test / (len(test_data) // 64)
    print(f'epoch is {epoch+1}, accuracy is {accuracy}, '
          f'loss_test is {loss_test.item()}')
# save
# load
# inference

一个很坏的好人 2020-05-30 23:46:38

源自：4-7 利用神经网络解决分类和回归问题（5）

1195

收起

提交取消

1回答

会写代码的好厨师 2020-05-31 22:49:39

并不是说60000个样本占用显存会比10000个多，占用显存量看batchsize大小，这里训练集和测试集batch大小一样，所以到70几行会翻倍，可以把测试的batchsize改小，就应该可以了。

0 回复有任何疑惑可以回复我~

收起回答

提问者一个很坏的好人 #1

可是我把测试的batch_size改成1 还是报错
每循环一次加几十M显存，没几轮就爆了

回复有任何疑惑可以回复我~ 2020-06-01 00:02:59

a1958393617 回复提问者一个很坏的好人 #2

我也遇到了和你一样的问题，训练没问题，测试一跑就爆显存；查询了一下资料发现用with torch.no_grad():释放一下就好了

回复有任何疑惑可以回复我~ 2020-11-20 22:56:47

相似问题

老师，这是显存不够的意思么

能不能“显存不够，内存来凑”？

uploadify样式不显示，也没报错

swiper的背景色不显示

Docker报错

登录后可查看更多问答，登录/注册

PyTorch入门到进阶实战计算机视觉与自然语言处理项目

参与学习 1184 人
提交作业 116 份
解答问题 292 个

理论基础+技术讲解+实战开发，快速掌握PyTorch框架

了解课程

本课精华内容

问答作业

WINDOWS 出现runtime error

1.3k 7

bug报错不一样

1.1k 7

老师，这门课的数据集放在哪里呢？

1.4k 6

pytorch安装

770 5

NotImplementedError

2.2k 5

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

报错显存不够

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

WINDOWS 出现runtime error

bug报错不一样

老师，这门课的数据集放在哪里呢？

pytorch安装

NotImplementedError

【讨论题】深入了解transformer在CV任务中的应用

【讨论题】深入了解Attention在CV任务中的应用前景？

【讨论题】比较全景分割，语义分割和实例分割不同任务

【讨论题】比较mmdetection与detectron

【讨论题】比较动态图与静态图推理框架

热搜

最近搜索清空

报错显存不够

正在回答 回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

WINDOWS 出现runtime error

bug报错不一样

老师，这门课的数据集放在哪里呢？

pytorch安装

NotImplementedError

【讨论题】深入了解transformer在CV任务中的应用

【讨论题】深入了解Attention在CV任务中的应用前景？

【讨论题】比较全景分割，语义分割和实例分割不同任务

【讨论题】比较mmdetection与detectron

【讨论题】比较动态图与静态图推理框架

正在回答回答被采纳积分+3