威斯康星医院的乳腺癌数据集,结构清晰、格式干净,拿来练手模型调优挺方便。尤其是搞分类算法的,这数据还挺有代表性,能直接拿来测你的SVM
、决策树
、神经网络
啥的。
文件是压缩包格式,名字叫breast-cancer-wisconsin.names.zip
,里面除了.data
文件,还有文档,字段都有写清楚,直接喂进模型就行。嗯,列名不多,一眼能看明白。
像你要做恶性良性预测或者模型对比实验,这套数据还挺合适的。比如用sklearn
跑个RandomForestClassifier
试试看,十几秒就能搞定。
相关资源也不少,像乳腺癌肿瘤良恶性预测数据集、BP 算法和 C4.5 算法对比都能配合着用。做数据增强?还有个StyleGAN2 生成乳腺超声图像的也挺香。
如果你正好要搞医学图像、AI 诊断或是做个MATLAB
可视化,别错过这套预训练模型代码,直接上手。
提醒一下,这类医疗数据虽然经典,但年代有点久,模型评估时记得交叉验证,别光看准确率。