NASA 项目的数据,真实、靠谱、挺全的。NASA MDP 数据集可以说是做软件缺陷预测的“老江湖”了,源自他们内部的实际项目,数据真实得,适合用来训练模型、评估算法效果。

软件模块的代码行数圈复杂度历史缺陷这些都有,维度比较丰富。像LOCCyclomatic Complexity这些指标,基本是做预测建模绕不开的,用熟了模型效果提升。

文件是.arff格式的,直接丢到 Weka 里就能跑。不用转格式、不用清洗太多,挺方便的。如果你习惯用 Python 配合scikit-learn,用arff.load()也能搞定。

适合用来练手的模型有:决策树随机森林SVM甚至是神经网络,都能搭配着跑一跑,看哪种预测准。评估指标也别忘了,F1AUCPrecision这些都得测一圈。

哦对了,如果你对复杂度源码缺陷挖掘感兴趣,下面这些资源你也可以看看:

如果你最近在搞缺陷检测模型、对老牌数据集感兴趣,NASA MDP 是真的可以先上手玩一玩。数据干净、格式友好、历史悠久——值得收藏。