NASA 项目的数据,真实、靠谱、挺全的。NASA MDP 数据集可以说是做软件缺陷预测的“老江湖”了,源自他们内部的实际项目,数据真实得,适合用来训练模型、评估算法效果。
软件模块的代码行数、圈复杂度、历史缺陷这些都有,维度比较丰富。像LOC
、Cyclomatic Complexity
这些指标,基本是做预测建模绕不开的,用熟了模型效果提升。
文件是.arff
格式的,直接丢到 Weka 里就能跑。不用转格式、不用清洗太多,挺方便的。如果你习惯用 Python 配合scikit-learn
,用arff.load()
也能搞定。
适合用来练手的模型有:决策树、随机森林、SVM甚至是神经网络,都能搭配着跑一跑,看哪种预测准。评估指标也别忘了,F1
、AUC
、Precision
这些都得测一圈。
哦对了,如果你对复杂度、源码缺陷挖掘感兴趣,下面这些资源你也可以看看:
如果你最近在搞缺陷检测模型、对老牌数据集感兴趣,NASA MDP 是真的可以先上手玩一玩。数据干净、格式友好、历史悠久——值得收藏。