数据科学的全球薪水数据集,信息量挺全的,从 2020 年到现在,工资水平、岗位类型、远程比例全都有,数据结构也比较干净,直接用 Pandas 就能搞。嗯,像experience_level
、remote_ratio
这些字段,挺适合做可视化或者预测练习。工资还换算成了美元,帮你省了不少麻烦,蛮贴心的。你做数据或者机器学习入门,这个数据集还不错,能练一阵子。
超过 37000 行的薪资数据,字段也挺丰富,像work_year
、employment_type
这些,拿来做分组统计、工资对比都挺顺手。尤其是remote_ratio
,可以做点远程办公趋势,挺有意思的。字段全是英文的,直接配合pandas.read_csv
就能用,响应也快,不用怎么清洗。
你要做点更有意思的事,可以试试和其他行业数据合并,搞个更复杂的工资预测模型。哦对,salary_in_usd
字段挺重要,别忘了用它做统一对比。还有,数据里货币类型和国家地区这些,适合你练一下地理数据可视化。
如果你想练习薪资等级判断,可以去看看自定义函数:员工薪资等级判断,写法挺实用的。
嗯,顺带推荐你看看Python 数据科学工作坊 2019,虽然年份有点老,不过基础内容还蛮扎实的,适合打底。
如果你想了解数据科学在实际工作中的用法,可以翻翻数据科学的真正工作:将数据转化为信息,做出更优决策,里面的思路挺有参考价值的。