最新实例
关联规则支持度计算与Hash Tree优化
候选集的支持度计算,其实挺讲技巧的。候选集数量多到吓人,一笔交易能匹配好几个,这时候硬算不现实。用Hash Tree去组织这些候选集就方便多了——内部节点是哈希表,叶子节点挂着项集和支持度。查询的时候靠一个Subset函数,能一下找出交易中包含的所有候选集,效率还不错。适合大批量数据,逻辑也挺清晰。
遗传算法VRP路径优化应用
遗传算法 VRP 问题的方式还挺有意思的,尤其是路径编码和适应度设计这块儿做得比较灵活。文章用挺接地气的例子讲了怎么把物流路线问题变成遗传算法能理解的“染色体”。像选择、交叉、变异这些经典操作也都有讲,想自己撸个代码跑一跑也没啥门槛。嗯,如果你平时搞调度、路径优化啥的,这篇文章会给你不少启发,是你想用 MATLAB 或者写个自定义的 GA 模块。
Python 3廖雪峰教程2018第二部分
廖雪峰的 Python3 教程,简直是多人入门编程时的宝藏资源。这一份 2018 年的第二部分压缩包,内容挺全,模块、数据结构、控制流、函数、面向对象全都讲到了。尤其是讲到模块系统和函数式编程那部分,真的挺实用。语法讲得不啰嗦,案例也贴合实际,学着也不累。 模块系统的部分讲得蛮清楚,从import、from...import...到相对导入的用法,讲完之后你就能把代码按功能分模块写,逻辑更清晰,维护起来也方便。 数据类型那一块挺扎实,尤其是列表、元组、字典这些,配合实际例子说怎么操作,怎么选用合适的数据结构。比如用dict来查找用户信息,速度快、写法也简洁。 讲到控制语句的时候,if、for、
深度哈希二值编码优化方案
深度哈希的二值编码挺有意思的,适合大规模图像检索那类对速度要求高的任务。它的做法是把原始的特征向量压成二进制向量,既节省存储又提高检索效率。顶层用了三个约束:尽量保留原始特征的表达能力、每一位尽量平均分布、各位之间尽量独立。听着挺绕,其实核心就是让二进制更有“表达力”,不只是瞎凑数字。另外,SDH的扩展也蛮实用,尤其在监督场景下更能区分不同类别,效果比以前的方案强不少。你要做图像或视频检索,可以看看这套思路。嗯,你要是还不太熟hash learning或者无监督/半监督这些概念,下面几个链接可以帮你快速理清楚:无监督学习大纲、聚类降维与特征提取、半监督实战指南,建议按这个顺序读。如果你手上正好
R语言异常检测技术与实战应用
R 语言的异常检测功能真的是数据里少不了的一环。像单变量和多变量检测,配合时间序列的场景,真的实用,尤其是金融、传感器这些领域的数据时。方法多,工具全,响应还挺快,挺适合做一线数据清洗的。 R 语言中的异常检测挺好用的一点是,多模型都是现成的,像基于模型的检测,你只要稍微懂点回归或聚类,就能玩得转。嗯,像tsoutliers这种包,用起来蛮方便,自动化也比较高。 如果你碰到时间序列的数据,建议优先用一些带窗口机制的方法,比如滑动平均、季节性分解。稳定性强,误判率低。对了,多变量时间序列的维度简化这篇讲得蛮细,可以去看看。 还想多了解点?可以顺手看看异常检测技术综述,里面把各类方法都盘了一遍,适
EasyDataTransform 1.1.0数据转换工具
EasyDataTransform Mac 版是一个挺好用的工具,专门帮你转换 Excel 和 CSV 文件的格式。你不需要写一行代码,直接操作就能完成转换工作。对于经常数据的开发者来说,节省了不少时间。如果你平时要把 CSV 文件转换成 Excel,或者在不同格式之间做数据转换,EasyDataTransform 都能轻松搞定。操作界面也比较直观,按步骤走,应该不会有太大难度。
探索算法迷宫Matlab路径规划演示合集
路径规划的烦恼,谁走过谁知道。图结构的理解、搜索算法的选择,还有各种边权、障碍物,初学者一不留神就容易绕晕。好在我最近摸到一个蛮不错的资源,都是用Matlab写的,从基础的Dijkstra到进阶的蚁群算法都有,代码还挺清晰的。 用栅格地图做导航模拟?有!指定节点必须经过?也有!还有那种互动式演示工具,点一点就能跑算法,适合理解路径是怎么一步步找出来的。每篇文章都有对应的源码链接,用起来相当方便。 像我之前试着优化一段路径,想在多个关键点间做连通,参考了这个节点优化方案,灵感不少。你要是对图论算法感兴趣,或者手头有地图类项目,建议收藏一波。 嗯,唯一需要注意的是:Matlab相关代码运行前,最好
JavaScript删除数组指定元素技巧
数组操作里的经典小技巧——删除某个元素,还真是前端日常绕不开的操作。用 splice() 删除指定下标的值挺方便的,但如果你想删指定值呢?配合 indexOf() 一起用,思路就清楚了。嗯,用起来还挺顺的。
Spanner TrueTime与CAP定理解析
Google 的全球分布式数据库 Spanner,最大的特点就是强一致性和高可用能兼顾,听起来像是违反了 CAP 定理对吧?但人家用了一个聪明的机制——TrueTime。这个玩意本质上是一个同步了原子钟和 GPS 时间的时间 API,用来给每次写入打上全局一致的时间戳,厉害吧。 Spanner 最厉害的地方在于,支持全球范围的事务还能保持高吞吐,而且读的时候不需要加锁,响应也挺快的。你写个金融系统、全球库存系统之类的,都合适。不用怕延迟太高、数据不一致那些老问题。 再聊下 CAP 定理,嗯,简单说就是一致性、可用性、分区容错三选二。网络一旦出问题(分区),你要么丢可用性,要么丢一致性。但 Sp
线索二叉树BP产品使用说明
线索二叉树的定义和用法讲得还挺清楚,适合对树结构优化感兴趣的前端或全栈开发。它用空指针巧妙存储前驱和后继结点,省了不少遍历的麻烦。你如果平时写过中序遍历的代码,就知道找到直接前驱有多费劲,这种结构直接给你答案,效率上升不止一档。 线索二叉树的左指针指前驱、右指针指后继,这个规则挺好记。更有意思的是,它根据你选的遍历方式(前序、中序、后序),指向的结点也会跟着变,灵活性还不错。嗯,如果你对传统二叉树已经比较熟了,这玩意儿绝对值得你了解一下。 中序线索二叉树的场景其实蛮多,比如快速定位某个区块的前后结点,或者你在做一些需要频繁查询的树形数据展示,就挺适合。说白了,这是一种让遍历结果和树结构更贴合的