SpeechCommandModel的输入不是很懂-慕课网

1回答

Markov_Xi 2022-09-01 11:42:10

同学你好，输入是一个3D的tensor, 原始的的特征是[batch, sequence_len, mel_dim], 其中，batch指的是batch size, sequence len指的是求得的mel特征的时间维度，其实就是短时傅里叶的帧数目，mel_dim是mel谱的维度，比如一般是40， 80。可以看见在forward进来的时候，我做了一次permute(1, 0, 2), 那么就变成[sequence_len,batch, mel_dim], 原因是torch的rnn有个参数设置batch_first默认是false，就是说你要把batch这个维度放在第二个dim，所以要做这个变换操作。这样的目的是torch为了获得最好的运行性能

1 回复有任何疑惑可以回复我~

收起回答

提问者慕仔7595201 #1

老师，我可以理解为：当batch=1的时候，每次送入的xi，是mel中的一个有40维特征的数据点，下一次的输入x(i+1)是mel的下一个数据点。总共要输入mel的sequence_len次，才算是输入完了一个音频文件的数据吗？

回复有任何疑惑可以回复我~ 2022-09-07 21:00:44

SpeechCommandModel的输入不是很懂

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

老师我的config 里面没有HP这个函数

LayerNormalizaiton

课程中手势数据集

手示数据下载

迁移学习

【任务题】Transformer实现

【任务题】复现Gan项目

【任务题】LSTM模型搭建

【任务题】独立完成一个CNN的项目

【任务题】完善全连接网络

热搜

最近搜索清空