NASA MDP软件缺陷数据集

NASA 项目的数据，真实、靠谱、挺全的。NASA MDP 数据集可以说是做软件缺陷预测的“老江湖”了，源自他们内部的实际项目，数据真实得，适合用来训练模型、评估算法效果。

软件模块的代码行数、圈复杂度、历史缺陷这些都有，维度比较丰富。像LOC、Cyclomatic Complexity这些指标，基本是做预测建模绕不开的，用熟了模型效果提升。

文件是.arff格式的，直接丢到 Weka 里就能跑。不用转格式、不用清洗太多，挺方便的。如果你习惯用 Python 配合scikit-learn，用arff.load()也能搞定。

适合用来练手的模型有：决策树、随机森林、SVM甚至是神经网络，都能搭配着跑一跑，看哪种预测准。评估指标也别忘了，F1、AUC、Precision这些都得测一圈。

哦对了，如果你对复杂度、源码缺陷挖掘感兴趣，下面这些资源你也可以看看：

如果你最近在搞缺陷检测模型、对老牌数据集感兴趣，NASA MDP 是真的可以先上手玩一玩。数据干净、格式友好、历史悠久——值得收藏。