算法 - 首页 - 微博

有种解释是,LSTM+CTC之所以比较好用,是因为它是通过音素来识别的,如果是传统的语音识别,就是一个字一个字识别,灵活度更低。当然传统的ASR时代也有通过MFCC来做音素识别的,只不过在当时也是难度更大 ​​​

https://weibo.com/mygroups?gid=201011110008380742