集中式系统的模块拆分比较清晰,组件之间协作也挺高效。数据挖掘系统研究(2005 年)这篇文章虽然有点年头,但内容还挺实用。讲了集中式和分布式两种系统的玩法,尤其是对集中式里的每个组成部分,都得蛮细,还举了些具体技术实现,适合喜欢摸清底层逻辑的你。
分布式挖掘系统的架构也有提,不过重点放在集中式上,像可视化、交互性、可扩展性这类方向都有提。还有,作者也讲了挺多未来发展建议,比如怎么跟行业应用结合、怎么在移动端搞挖掘,思路还挺前沿。
你要是平时玩 NoSQL,像文章提到的NoSQL 的优势就可以顺手参考一下。用 PostgreSQL 的也别错过快照可扩展性研究,对搞性能优化有。
如果你更偏向架构层面的东西,Hadoop这篇对分布式系统得也蛮扎实,基础打牢,别走弯路。集中式日志管理可以看看Locus,部署简单,数据聚合能力还不错。
,这篇文章适合那种想要对数据挖掘系统有个整体了解,又愿意往细节里钻的前端或者架构开发。想结合业务做点深入挖掘的,蛮值得一看。
如果你在做可视化或者跟后端打交道比较多,可以考虑从集中式系统出发,再慢慢摸到分布式,走起来更顺。