非特定人的孤立词语音识别里,MFCC + 差分参数组合出来的帧特征,还挺实用的,基本就是语音识别的底子。再往后走一步就是训练和聚类,这部分内容结合了数据挖掘和人工智能,看起来复杂,其实想清楚了逻辑也不难。
语音数据训练这一块,原理上主要还是提特征+分类,聚类就是提前把样本按相似性整理好,方便后面的模型学习。你可以理解成:给模型喂饭前先把饭分好类——干饭更快。用的是经典的FCM 算法,还提到了PCM,这些方法对实际项目有。
如果你做过语音识别,MFCC你肯定熟;不过这资料挺,专注在聚类原理和发展上,对你理解数据挖掘方法会有。不只是讲了 FCM,还顺便提了些改进方法,比如 PCM 之类的,思路蛮清晰的。
你可以顺着看一些源码和工具,比如这份 MFCC+GMM 的 Matlab 源码,还有 MATLAB 聚类工具,配合来看更容易理解。建议用 Matlab 跑下 demo,响应也快,适合搞实验。
如果你正好在做语音识别或者数据聚类,这份资料还挺值得一读的。内容虽然偏原理,但对后面自己写聚类逻辑有启发。是对模糊聚类感兴趣的朋友,可以多琢磨下 FCM 跟 PCM 的区别。
哦对了,文末还列了几个相关源码和文章链接,感兴趣的话别忘了点进去看看。比如 HMM+MFCC 数字识别 也挺有意思的。