亚马逊的商品共购网络数据,节点有 40 多万,边也有 300 多万,量挺大,用来做图算法训练蛮合适。文件格式是FromNodeId ToNodeId
,也就是你可以直接拿去喂给NetworkX
、PyTorch Geometric
这种图工具用,省了不少预麻烦。
用来跑个协同过滤、图卷积啥的,挺香。比如你想模拟“买了 A 也买 B”的场景,这种图结构数据就适合。响应快,代码也比较直观。文件名是Amazon0601.txt
,纯文本,压缩包解出来就能用。
哦对了,还能搭配一些用户行为工具一起玩,像之前看到一篇协同过滤算法的文章里就用过类似数据,挺有参考价值的。还有个amazon-parser的 matlab 代码也能直接这类数据,感兴趣可以一起看看。
建议你用 Python 加载,配合pandas
或者networkx
都比较顺手。如果你想上点可视化,Gephi
也能导入这类数据,效果还不错。别忘了,节点数多了可视化要控制下边数量,不然一坨。
如果你是做推荐系统、用户建模、图学习这块的,可以先把这份数据集加书签,之后调模型啥的能省不少功夫。