中国科学院大学的 2017 年数据挖掘期末考试题挺有意思的,虽然是考试题,但当资料用也还不错。里面提到的知识点覆盖得比较全,比如数据仓库、分类、聚类、频繁项集挖掘这些,都是咱们前端接触数据时绕不开的东西。
数据仓库的星状图
和数据立方体
,说白了就是让你把数据按多个维度看,像切蛋糕一样横着切、竖着切都能行。前端在做多维报表或者 BI 可视化时,这块知识就有用。
分类算法里提到的决策树、朴素贝叶斯和神经网络,前两个比较轻量,后一个适合模型复杂的场景。你在做推荐系统界面的时候,理解这些算法能帮你跟后端或算法沟通得更顺畅。
还有K-means 聚类,你总见到后台给你返回聚好类的用户群,那背后其实就是靠这种算法。知道它怎么跑出来的,对你前端做个性化展示或多维筛选挺有的。
讲到频繁项集挖掘,Apriori
和FP-Tree
就是电商后台常用的购物篮算法,帮用户找出“买了 A 就常常买 B”的组合。做交互推荐页面时,这些逻辑你早晚得了解。
资料还推荐了本书——《数据挖掘概念与技术(第三版)》,不少习题挺接地气的,适合你平时练手。顺带提醒下,如果是扫描版文件,有些 OCR 识别错的字得自己校对下,别被带偏了。
如果你最近要搞数据可视化或者对接算法系统,这份期末试题真可以看一看。当学习资料、练习思路都蛮合适的,内容不枯燥,挺接地气。