Pandas 的技术手册,算是数据入门挺不错的一份资源。不用太厚重的,也不玩术语堆砌,直接从你最常用的几个功能入手——建表、选数据、清洗、聚合、可视化,基本都涵盖了。就像老司机带着你上手开车,流程清晰、操作直白。
Series 和 DataFrame是 Pandas 的基础,一个是一维数组,另一个是二维表格。你可以理解为前者像列表带标签,后者就像 Excel 表,列类型还能混搭,蛮灵活的。
选数据有点多样,.loc
适合用标签,.iloc
就是按位置来选,配上布尔条件还能做过滤,像df['Age'] > 25
这种挺常用。
清洗数据这块也不麻烦,比如缺失值用dropna()
、fillna()
,重复值用drop_duplicates()
,数据类型换一换用astype()
。这些操作一行代码搞定,效率还高。
数据合并也好用,像merge()
、concat()
这些你多用几次就顺手了,配合groupby()
做个分组聚合,比如求平均值、统计数量,还能链式操作。
可视化方面,Pandas 直接调plot()
用 Matplotlib 底层的绘图功能,响应也快;要画更复杂点的图就接入 Seaborn,比如分布图、热力图都挺方便的。
贴一段实用代码:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)
print(df.loc[0])
print(df.iloc[1])
print(df[df['Age'] > 25])
df['Salary'] = [50000, None, 60000]
df.dropna(inplace=True)
df['Age'] = df['Age'].astype(str)
print(df.groupby('City').mean(numeric_only=True))
如果你刚开始用 Pandas,又不想被文档淹没,这份手册就挺合适的。一步步带你从数据读入到清洗再到,节奏刚刚好。