天池的天文数据挖掘比赛,专注做天体光谱分类的事儿,挺适合想练练机器学习实战的你。数据是来自郭守敬望远镜,也就是 LAMOST,观测精度高、数据量大,不用自己采集就能开干,省了不少事。
光谱数据的其实还挺有挑战的,不是那种喂个模型就完事的活。你得动脑子噪声、缺失值,还有一堆波段特征,搞得像在解谜。好在题目背景讲得还挺清楚,配套资料也比较全。
适合用深度学习玩一玩,比如用1D CNN
或者transformer
搞个光谱分类模型。想快点出结果,也可以先撸个LightGBM
试水,效果也不赖。
比赛用的数据体量不小,训练集数据一跑起来就是好几万条。建议你本地先搞个样本集调通流程,上服务器跑全量,效率会高不少。
如果你对天文+AI感兴趣,又正好在找个有深度又能落地的项目,这个比赛资源真的还不错。可以用来做简历项目,也能拓展科研思路。