上证综指的 5 分钟级别数据,还挺有意思的,尤其适合搞量化或者模型预测的你。2013 年的完整数据,颗粒度细,适合用来训练机器学习模型,或者测试高频策略。
细粒度的数据对建模挺友好,比如你想拿SVM、BP 神经网络或者深度学习跑个趋势预测,都比较合适。尤其像那种需要时间序列连续性的数据集,这份资源就挺顺手的。
要是你对情绪感兴趣,也可以配合社交媒体数据做情绪波动 vs. 股价走势的对比,有朋友就用这份数据在情绪驱动策略上搞了个原型。
用MATLAB或Python都行,配合 pandas 做数据清洗、重采样、画图都方便,响应也快。数据结构不复杂,字段清楚,用起来省事。
想入门模型预测?你可以先看BP 神经网络预测上证指数那篇,讲得还不错;或者试试SVM 回归代码,上手也快。
如果你还在熟悉数据工具,可以看看10 分钟学习 Pandas或MySQL 基础教程,先把数据吃透。
数据别拿来就跑模型,记得先看下是否缺失、有没有异常波动,毕竟金融数据嘛,干扰项多,模型跑出来效果差就不奇怪了。