功能全面的 Python 数据教程,适合刚入门或者想系统整理知识的你。用的是比较实用的库:像pandasnumpybokeh还有scikit-learn,几乎就是数据的标配组合了。安装环境推荐用Anaconda,一次到位,省得折腾依赖,挺适合懒人和效率党。

Ipython Notebook也就是现在说的 Jupyter,用起来也蛮顺手的。在浏览器里写代码、跑结果,图表也能直接显示,边学边看,反馈快。你写一个函数试试看,马上就知道对不对,体验还是挺爽的。

Pandas是主角,它的DataFrameSeries这两个数据结构真的是数据的利器。比如你导入一个 Excel 表,转成DataFrame,就能筛选、排序、聚合,响应也快,代码也简单。

数据的环节也讲得比较细,像dropnafillna缺失值,groupby做分组统计,或者用astype转类型这些都有讲。文本也照顾到了,比如拆分列、提取关键词、批量替换,蛮实用的。

讲的数据规整部分,我觉得适合做模型前的准备。数据标准化、独热编码这些,直接贴出来还能当模板用。像MinMaxScaler或者OneHotEncoder这类工具,不熟练也能边看边练。

如果你刚准备入坑数据,或者做项目时需要回头查查怎么数据,这份 PPT 还是挺靠谱的。顺手贴几个扩展资源链接,你可以直接去看看:

如果你用的是Anaconda,那运行这些 Notebook 基本不会出啥兼容问题,直接用就行。