最新实例
神经网络拓扑结构数据仓库与数据挖掘原理及应用
神经网络的拓扑结构挺关键的,是在你正式训练之前。拓扑结构的核心就是隐层神经元的数量,还有初始的权值和偏差怎么设。神经元多一点,理论上拟合更好,但现实中别贪多,不然训练慢还容易过拟合。你要是发现模型效果不行,就得重新设计拓扑,或者换一套初始参数。几个资源挺值得一看,比如那篇关于 BP 神经网络拓扑结构的文章,讲得比较系统,里面还有实例。还有像 RBF 网络、BAM 模型这类,也可以当拓扑设计的参考方向,扩展思路嘛。顺带推荐个比较实用的技巧,训练不理想的时候,别急着调学习率,先看看是不是神经元设太多了。要是你对 BP 神经网络比较熟,但一直纠结隐层怎么设,那篇关于神经元个数影响的文章可以重点看下,
基于数据挖掘的DNS日志智能分析
基于数据挖掘的 DNS 日志,是那种一看就觉得“嗯,挺有料”的项目。DNS 流量里藏着不少门道,是想搞清楚哪些求是正常的,哪些是攻击。用老办法写死规则?太死板了。这个项目直接上了频繁情节挖掘和密度聚类,还能实时做趋势预测,挺智能的。 DNS 的查询日志大、还挺杂,用传统方法效率也不高。这套方法就聪明了,通过基于密度的聚类,把一堆域名按访问特征给分组。比如突然某个时间段某组域名流量异常,那就有鬼。还有个有意思的点,它还能挖出流量怎么在不同域名间“串联”起来的模式,思路新。 代码实现也还算清爽,用的是情节模式和时间序列结合的方式,逻辑挺清楚。你可以参考下这篇Web 日志异常数据挖掘的做法,原理类似
SQL Server 2008Data Mining Add-ins for Office 2007
SQL Server 2008 的 Data Mining Add-ins for Office 2007,说白了就是把数据挖掘的那些高级操作塞进了你熟到不能再熟的 Excel 和 Visio 里,挺适合你这种日常用 Office 多、又想玩点数据的人。最有意思的是 Excel 里的表工具,清洗、建模、预测、分类,全都搞得定,而且操作方式跟平时你用 Excel 差不多,上手快得。Visio 那边也没闲着,图形化展示让非技术的人也能看得懂模型结构,像画思维导图一样可视化整个挖掘流程,蛮有意思的。Excel 的数据挖掘客户端部分也比较给力,像连接 SQL Server Analysis Servi
县域统计年鉴面板数据合集
县域面板数据的全量打包资源,挺适合搞区域数据的朋友。文件名叫《县域统计年鉴》面板数据.zip,解压后就是一堆带时间维度的县级指标数据,比如 GDP、人口、教育投入这些,挺全的。面板数据的好处是横向能比,纵向能看趋势,适合跑各种模型,像固定效应、GMM 这些都能用得上。 文件里的数据按年分好,清洗一下就能直接上手。你要是爱折腾pandas,做个panel结构的也不麻烦,响应也快。你还可以做些空间,结合 GIS 做成热力图,哪一块发展快,一目了然。 想可视化的,Tableau和Echarts都挺合适,尤其是 Echarts,JS 那边集成方便。挖掘规律的,可以试试Apriori或者K-means聚
基于粗糙集理论的数控机床智能故障诊断研究2008
粗糙集理论的故障诊断算法,逻辑清晰,适合拿来做数控机床的智能化诊断项目。算法思路不绕,重点讲了怎么减少冗余属性,提高决策效率,嗯,用在多传感器融合上也挺稳的。如果你在搞工业故障诊断,尤其是机床方向的,这篇还蛮值得一看。
baobab FPTree模式挖掘工具
频繁模式挖掘的利器——baobab是个蛮有意思的开源项目,专门实现了FPTree 算法,适合大数据里重复出现的模式。它不复杂,逻辑清晰,用起来也挺顺手,尤其适合做文本、用户行为路径挖掘、市场篮子这些场景。如果你经常结构化或半结构化的数据,baobab 真的可以省不少事。
Mining the Social Web社交数据挖掘指南
社交数据挖掘的入门指南里,《Mining the Social Web》算是挺值得一看的资源。它不光讲了理论,还直接带你动手撸代码,像调用 API 拿 Twitter 或 Facebook 的数据、用 Python 做清洗和可视化,例子都蛮实在的。你要是有点编程基础,看这个完全没压力。 Matthew Russell 的风格比较接地气,讲得清楚又不啰嗦。像怎么用 Python 和 Jupyter Notebook 把数据一步步搞出来,再用 pandas 做,基本一看就懂。你要是平时就喜欢鼓捣社交数据,或者想搞点自己的小项目,这本书参考价值还挺高。 它里面多例子都能直接跑,像怎么爬 Reddit
基于数据挖掘的分布式入侵检测模型
基于数据挖掘的入侵检测系统模型的设计思路挺实用的,适合搞网络安全的你参考一下。分布式结构+数据挖掘,监控范围大,响应也快,能发现一些隐藏得比较深的攻击行为。关联规则和聚类算法结合用,检测准确率还不错。 分布式入侵检测系统的组件分得挺清楚:基于主机的收日志,基于网络的抓流量,中控协调。嗯,这样设计的好处是扩展起来不费劲,大网络环境下挺稳当的。 数据挖掘这块重点是关联规则挖掘和聚类,前者负责提规则,后者干脆识别新型攻击。简单说,就是先找规律,再学会分类,提升检测能力。 如果你打算在大规模网络里搞安全防护,可以借鉴一下论文里提到的分布式架构思路,别忘了数据预和知识库更新这块也挺关键哦。
企业订单分类挖掘分析
基于分类数据挖掘的订单系统挺实用的,适合做 ERP 系统二开的你。它不光是做订单统计那么简单,而是能智能地把采购订单分成“必需提前”、“可延迟”和“可撤销”三类。什么意思?简单说,它能告诉你哪些订单该立刻下、哪些可以缓一缓,甚至还有可以不下的——这对于库存管理和资金周转简直太香了。你可以想象下,库存少了、资金多了、风险也低了,老板看了都得点头。系统底层用了挺扎实的数据挖掘技术,像分类算法、特征选择、模型训练这些全都安排上了。而且文档里得蛮细的,从原始数据到模型部署,思路挺清晰。如果你也在做订单系统或者搞采购的东西,建议你看看这个思路。
Elasticsearch分布式大数据搜索
分布式搜索的事儿,你多半绕不开Elasticsearch。我最近在用一套配置资源,讲真,挺系统的。尤其适合你这种刚开始上手或者想深入研究下它在大数据环境下怎么跑的。文档讲得清楚,配合代码示例,调试起来也比较顺。电力行业的大数据场景其实挺有代表性的,数据量大、实时性要求高,像Hadoop、HDFS这些分布式技术跟Elasticsearch搭配,效率还蛮不错的。你看它那种日志检索、告警聚合,用了之后真的是事半功倍。除了 ES 本身,里面还带了几个相关的资料链接,像Greenplum、数据挖掘在电力场景里的应用,也讲得挺实用的。适合你搭配着看,顺着一条技术主线往下摸,效率更高。对了,URL 是直接可