说明:spec2image
该算法将任意声音文件转换为二维形状的图像序列,与鼠标的听觉皮层的色调图一致。
前处理
每个window * sample_rate点对原始声音信号执行傅里叶变换。 默认参数与语音识别任务window = 20ms , overlap = 50% 。 然后生成一个频谱图。
出于记忆的目的,首先缩小听觉皮层的色调图。 每个色调主题图的原始形状均为'2000, 2500 2000,2500 '2000, 2500 。 使用形状为(4, 4)块进行平均,将最终形状变为(500,
<weixin_42108778> 上传 | 大小:10kb