凌晨三点的数学楼五层,只有灯泡和电脑亮着。UCLA 的数学博士克里斯·麦金利一边跑算法论文,一边刷 OkCupid 收件箱,场面还挺有反差感。他不是刷着玩,是真的用数据挖掘在找对象——还用上了自己研究的那一套。

从下载几万个用户数据开始,到跑模型优化匹配关键词,他硬是把一个交友网站玩成了科研项目。嗯,搞学术的认真劲用在谈恋爱上,效果还真不错。他写的爬虫脚本干净,逻辑也清晰,新手照着改改都能用。

match_ratio的权重算法,还有对女性用户关键词的聚类,算是个挺实用的案例。你要是对用户画像建模感兴趣,真的可以扒一下这个故事里的技术思路。比多教程都接地气。

推荐你看看这两个资源,一个是故事原文的更细版本,另一个是偏技术手册,结合起来看更有感觉:

如果你也在做数据挖掘项目,是用户推荐类的,可以试试套用他这套思路。思路比工具重要,逻辑比炫技值钱。