Python 的机器学习工具包里,scikit-learn算是比较经典、也蛮省心的一套。基于NumPySciPymatplotlib,多入门任务基本全能搞定,比如分类、回归、聚类那类活。安装方便,文档也挺全,适合你写原型、也适合跑实验。

模型训练数据预基本是它的主打,像train_test_splitStandardScaler这些常用工具全都有。响应也快,代码也不臃肿。用熟了之后,再配合PandasXGBoost,效率更高。

平时你要是写点数据挖掘项目,或者搞点预测模型,scikit-learn.zip这种资源就挺值得收藏的。压缩包里包含完整的包结构,用的时候直接解压就能跑,不用到处找依赖。蛮适合初学者和搞项目的你。

如果你还没用过,推荐从一些实战文章看看,比如预测型数据实战,或者数据预技术,都挺有参考价值。