生物数据挖掘的技术资源,推荐你一定得看《生物数据挖掘》这篇文章。讲得挺透的,从聚类分类算法深度学习,都结合了具体的生物学场景,像基因表达、蛋白质交互这些,真的贴地气。

聚类部分比较实用,像用来基因表达数据,还能识别疾病相关的基因群,这类方法在项目里经常用到。顺带一提,这里有个时间序列的聚类算法源码实现,结合着用效果更好。

支持向量机(SVM)也讲得不错,不只是讲理论,还贴了多实战链接,像SVM 应用详解Matlab 实战,如果你搞预测建模的,可以顺便看下。

还有一点值得说,文中对神经网络的应用也提到了,像CNN做 DNA 序列识别,RNN基因表达时间序列,还有GAN模拟实验数据,都是蛮有意思的思路。

如果你手上正好有生物学相关的数据,不妨把这些方法拿来跑一跑。尤其是配合文中提到的代码资源,比如SVM 源代码,上手更快,也能快速验证模型效果。

嗯,对了,别忘了关注数据预特征选择这两个点,不管什么算法,这俩搞不好,模型就容易跑偏。文章里有讲,但你得细读一下。