最新实例
Web数据挖掘技术详解
Web 数据挖掘的技术,是真的越来越刚需了。尤其是搞前端的你,要是能懂点这方面内容,像个性化推荐、搜索优化这些需求就能更得心应手。内容、结构、访问三大类,全都围着“怎么从网页里淘金”来展开,挺有意思。 Web 内容挖掘是日常打交道最多的,像 HTML、提文本,关键词提取啥的,TF-IDF、BM25 这些老朋友就能派上用场。你平时用document.querySelectorAll扒数据,其实也是在做内容层的事。 Web 结构挖掘就稍高级点了,它研究网页之间的链接关系。比如你在做网站优化时,搞懂PageRank就有用。怎么提升某页权重、怎么引导爬虫,都离不开结构。 Web 访问挖掘看日志找规律,
Python数据挖掘与机器学习快速掌握聚类算法与关联分析
聚类算法是没有明确分类映射关系数据的利器,挺适合那些没有标签的场景。简单来说,分类算法需要依赖有标签的数据,而聚类则是根据数据之间的相似性把数据自动归类。像公司客户价值划分,网页内容自动归类等都可以用聚类算法来搞定。K-Means算法是其中经典的代表,常用它来把数据分成 K 个组。它的核心思想就是根据数据之间的距离来划分,直到每个数据点都找到最合适的组。其实用起来也不复杂,你只需要提前设置好 K 值,通过迭代计算得到最佳的分组。其实如果你在做数据时没有明确的标签,这种算法可以大大简化你的工作。如果你对聚类算法感兴趣,详解 K-Means 聚类算法这篇文章是个不错的入门资源,而且实践上实用哦。,
计算机取证技术发展趋势-数字证书与网络信息安全
计算机取证的技术进展越来越有意思了,尤其是跟信息安全、AI 还有数据挖掘这些技术融合之后,玩法挺多。像现在不少网络协议在设计的时候,都会顺手留下点“证据”方便以后取证,真挺机智的。Recursive session token、TCP traceback这些技术听着高级,其实就是帮你顺藤摸瓜,找到谁在搞鬼。取证工具也越来越聪明了,多都搭了机器学习和神经网络的顺风车,自动提取线索、模式识别什么的,省了不少人工排查的功夫。嗯,你要是做安全相关的前端,稍微懂点这块,还真能帮你补齐一块盲区。顺手推荐几个相关资源,都是干货:数据挖掘与信息安全探讨,说白了就是怎么用数据挖掘提升安全监测的精度大数据与 AI
数据挖掘概念模型方法与算法
影印版的《数据挖掘-概念、模型、方法和算法》,内容还挺扎实的,讲得也比较系统。作者是 Louisville 大学的副教授,嗯,看得出来是有干货的那种。 影印版的《数据挖掘-概念、模型、方法和算法》,内容还挺扎实的,讲得也比较系统。作者是 Louisville 大学的副教授,嗯,专业背景够硬,讲课风格也偏实战,不是那种纯理论一通吹的书。 书里头的模型分类讲得蛮清楚的,从监督学习到无监督学习,每种方法都配了例子,像你用分类算法搞用户分群,或者用聚类做推荐系统优化,都能找到对口的方法。 代码不多,主要偏理论框架。但用来梳理思路、搭建项目的初期结构,还是挺不错的。比如你要构建个数据挖掘的前后流程,就能
数据仓库案例内容提要
数据仓库的内容提要案例,结构清晰、实战味浓,适合想快速上手的你。案例从背景讲到建设实践,逻辑顺,细节也挺实用。尤其是里面的参考链接,都是业内常见的问题点和思路,挺值得一看。整体来说,比较适合正在做数据仓库搭建或调优的开发者,或者是做决策支持系统的同学。
一种基于蚁群算法的离群数据挖掘方法研究与应用2006年
离群数据挖掘的老问题,用蚁群算法整出了点新花样。这个 2006 年的方法,蛮有意思的,挺适合搞流程数据的朋友瞧瞧。聚类的方式不新,但它把蚁群算法的参数搞进来了,鲁棒性一下子就上去了。还定义了个新的离群指数,用起来比较灵活,跑设备数据也挺稳的。程序已经搞定了,MATLAB实现,能直接拿来流程行业的大批历史数据。你要做设备预测性维护或者异常检测,这套还挺管用的,响应也快。顺手放几条你感兴趣的资源,像蚁群算法 Matlab 源码、LOF 算法离群检测,都还不错,能配合着玩。如果你最近在折腾流程数据,或者就是想试点不同的离群检测思路,可以试试这套蚁群+聚类的组合玩法,代码也不复杂,适合上手搞点实验。
jBNC Java贝叶斯分类器工具
Java 的贝叶斯网络分类器工具包,叫jBNC,挺适合搞机器学习实验或者数据挖掘训练的朋友用。功能不复杂,但实用。你要是做文本分类、图像识别之类的任务,它能帮你把数据训得挺不错,响应也快,代码也不臃肿。 jBNC用 Java 写的,逻辑比较清晰,适合二次开发。你直接拿来跑个Naive Bayes或Tree Augmented Naive Bayes实验都没问题。训练、测试、调用都封装好了,不折腾。 以前我拿它做过一份医疗数据的分类实验,还不错,调参也简单。想扩展功能?你可以加你自己的评分函数或结构学习策略,接口挺友好。 要是你还在找贝叶斯算法资料,可以看看这几篇文章,蛮有的: 学习贝叶斯
K-means改进算法MapReduce分布式实现
MapReduce 下的 K-means 聚类改进方法,思路蛮实用的,尤其是你在搞大数据挖掘的时候。先用层次聚类搞定初始簇数,这一步挺机灵的,省得你自己蒙着头试 K 值;再结合 MapReduce 分布式跑,跑得快还稳定,单机测试表现也不错。如果你经常成山的数据,又烦 K-means 初始值不稳的问题,可以看看这个方案,蛮值得一试的。
数据挖掘分类算法概览
分类清晰的数据挖掘算法,挺适合刚入门或者想梳理知识点的你。数据库挖掘、Web 挖掘、文本挖掘,还有音视频这些冷门点也都有提到。内容不算长,但干货够用。嗯,要是你想继续深挖,后面那几个链接就蛮实用了,像文本挖掘手册、R 语言那篇文章,我自己也收藏过几次。
新一代决策支持系统商务智能概论
数据仓库里的数据太多怎么办?新一代决策支持系统就挺适合拿来这些东西的。它不光能做简单查询,像OLAP、数据挖掘啥的也不在话下,算是商务智能里的多面手了。嗯,用它来辅助管理层做判断,还挺有的。