数据集的门道还挺多的,尤其是你准备搞点机器学习项目时,选对数据比调参都关键。数据集其实就是一堆结构化数据,像Excel表格那样,有行有列。每一行是一个样本,每一列是个特征,比如性别、年龄、图像像素啥的。不同阶段你会用到不同类型的数据:训练集教模型学东西,验证集帮你调参数,测试集用来看最终效果。想找数据?Kaggle、UCI 这些平台资源全,也可以自己用numpypandas生成。像MNISTCIFAR-10IMDb这些都蛮经典,新手老手都能用得上。