最新实例
Clementine中文完整教程
中文界面的 Clementine 教程,讲得还挺清楚的,尤其适合刚接触数据挖掘的朋友。教程不绕弯子,像老司机带你从界面认节点开始,到怎么搭数据流、调参数、跑模型,一步步来。里面的例子也挺接地气的,不是那种只讲原理的书本货。要是你平时用 Excel、CSV 之类的数据源,这套流程基本都能打通,连可视化也能搞得漂漂亮亮的。最关键的是,全中文,而且是 PDF,省事儿。
SAS数据挖掘与应用
数据挖掘里的老牌工具,SAS算是比较稳的一种,适合做统计建模和大数据的朋友。它的图形界面比较友好,不太折腾,常规几步点完就出结果,省心省力。模块化的设计,流程比较清晰。像你要做个分类模型,用它自带的拖拽功能就能拼好流程,建模、评估、输出一步到位。对初学者也挺友好的,不怎么写代码也能跑通流程。如果你有一定编程基础,用它的SAS 语言写点脚本也不错。语法虽然有点老派,但功能蛮全的,比如数据清洗、回归、聚类这些,它都能搞定。而且官方文档比较全,出问题一般也能查得到。不过哦,SAS 对中文支持嘛……算中等,界面是中文的,但脚本部分遇到中文字段有时候会出点小问题,建议字段名都用英文,省麻烦。我这边找到一
Coreseek中文全文检索Docker部署
中文搜索的老牌选手 Coreseek 加上 Docker,部署就变得挺。你不用自己慢慢配环境,直接拿来跑就行,省心省力。coreseek_prod.sh一执行,服务就开在3312端口,挺方便做接口联调或者测试的。 基于 Sphinx 改出来的 Coreseek,在中文分词这块做得还不错,适合那种文档量大、查得又多的场景,比如站内搜、数据挖掘啥的。加上 Docker 后,跨环境部署问题基本不用操心了,响应也快,适配性也好。 镜像里已经配好了必要的依赖,直接上手就能跑。适合前后端联调、开发测试环境,甚至你本地想快速跑个全文检索服务也行。唯一要注意的是,索引和配置文件还是得你自己定制,毕竟业务需求不
Data Mining Concepts and Techniques 2.0数据挖掘教程
韩家伟的数据挖掘书,属于那种看完你会忍不住翻第二遍的类型。不光讲了传统的频繁项集挖掘,像是 Apriori 和 FP-Growth,也把近几年比较火的并行算法、流数据都带上了,覆盖面挺全的,适合前端、后端、算法方向都顺便过一眼。 频繁项集的挖掘,基本上是数据挖掘的老大难了。书里把Apriori讲得还挺清楚,配合这篇文章看,细节会更容易理解。像support、confidence这些概念,在推荐系统或购物篮里用得挺多,实际场景也蛮常见。 FP-Growth比 Apriori 效率高不少,适合大数据量的时候上,核心就是用压缩的前缀树搞定重复扫描问题。参考这个链接FP-Growth 频繁项集挖掘算法
重庆大学数据挖掘课件
重庆大学的数据挖掘课件挺有料的,全英文教学,内容讲得清楚,思路也蛮国际化,适合想系统学点算法的人。尤其是数据预那块讲得比较细,从数据清洗到规约都带例子,挺实用的。像常见的聚类算法,比如 K-means、DBSCAN 也都有,代码部分还能配合 Python、R 来练,动手体验也比较到位。关联规则那块也不错,用了 Apriori 和 FP-Growth 两种方法,还顺带讲了下在推荐系统、市场这些场景的实际应用,听起来就离业务不远。如果你正好在做聚类或规则挖掘相关的东西,这份课件可以当参考文档用,学起来比较轻松,也挺有启发的。
基于结构自适应神经网络的用电量时间特征聚类分析2007年
SOFM 神经网络挺不错的,是它能自动决定最佳聚类数,了多传统聚类方法中关于聚类数设定的困扰。这种基于结构自适应神经网络的聚类方法,应用起来相当灵活,能够更好地电力消耗数据,找出不同用户用电的时间特征,给电价调整和电力生产安排科学依据。而且,它适用于大数据场景,像营销数据这种实际应用中的数据也能好地。你要是对神经网络有兴趣,尤其是在数据方面,这个方法还真挺值得试试的。
高维数据挖掘中特征选择的稳健方法
后续工作的研究方向是个挺有意思的点,尤其是搞高维数据挖掘的你,肯定也常常头疼特征选择那块的稳定性问题。这篇文章虽然出发点在100Gbps PM-QPSK 相干光传输系统,但里面提到的算法思路和仿真平台的设计,对做高维特征选择优化其实还挺有启发的。是文中提到的并行结构,还有频偏估计和相位恢复的自适应算法,不仅在光通信领域有价值,放在复杂特征空间的数据中,也能玩出花来。
河南新工商查询Python爬虫框架v3.1
基于 Python 开发的河南新工商查询软件 v3.1 挺实用的,它结合了Scrapy爬虫框架、代理 IP 池和request模拟求技术,爬取全国工商信息的效率超高。软件还能自动识别验证码,保证数据的完整性,蛮适合那些需要实时更新工商信息的用户。数据会自动存储在MySQL数据库中,支持全量下载,包含超过 1.8 亿企业基本信息,还有 36 个维度的详细资料。你可以通过SQL或Excel导出数据,操作起来也不复杂。其实,如果你对抓取数据的需求比较大,可以考虑试试这个工具,保证效率超高。
基于数据挖掘的入侵特征选择与构造方法
基于数据挖掘的入侵特征构造方法,挺适合拿来研究安全检测相关的内容。特征选得好,检测模型才靠谱,这份 PDF 里讲得还蛮细,像怎么选特征、怎么构造新特征、提升实时性这些,都有思路。入侵检测其实就跟做分类一样,重点是从海量数据里挖出有用信息。尤其适合你平时要系统日志、网络包的场景,能省下不少试错时间。
OPTICS排序式聚类算法
密度聚类里的老大哥,OPTICS的排序式聚类方式挺,不直接告诉你分了几类,而是用一串“可视化”顺序,帮你自己发现聚类结构。挺适合那种你压根不知道要分几类的数据集。你要是用过DBSCAN,那上手它也不难,就是多个参数别调太死,灵活点更好玩。