糖尿病研究里的经典老朋友——Diabetes Dataset,你已经听过好几次了,但它真的是个适合做神经网络和深度学习练手的数据集。
442 位患者的真实记录,包含10 个生理特征,像age
、bmi
、bp
这些都比较常见,关键是还有一年后的血糖水平做目标值,直接用来做回归,简直不要太方便。
模型搭建也挺灵活的,前馈神经网络能用,玩点花的也可以整CNN、RNN,甚至搞个集成学习来点多任务预测都不难。你要是图快,可以用sklearn.datasets.load_diabetes
直接导入,起来顺手。
但注意哦,用之前最好做点预,像标准化、异常值啥的,该做还是要做。不然一上来就训练,模型肯定不给你好脸色。还可以试试搞搞PCA降维,训练效率会提升不少。
对了,这个数据集不光适合做预测,也可以搞点分类任务,比如预测哪些人会出现并发症,加点创造性的,扩展性还是蛮大的。想深入点,还可以看看下面几个链接,有实际项目、算法实现、MATLAB 代码啥的,能帮你快速上手。
如果你刚好在练深度学习,又想找个小而美的数据集,那这个Diabetes Dataset真挺适合的,跑一跑、调一调,快就能看到效果。