用户查询词的分布情况,用的是天网早期日志数据,跨度不大,但胜在真实、有代表性。统计方法挺直观,分了查询词的出现频次,还做了个百分比的覆盖率——想知道热门词能占多少比例?这就能看出来。

高光谱遥感书里的第九章,不光聊技术,还把用户行为和参数建模联系起来。用方差、平方和来网页参数和点击之间的关系,说白了就是:啥东西更能吸引用户?搜索排名该怎么调?

如果你平时搞搜索相关的前端,或者后端算法方向的,这章节真的值得翻一下。不但数据真实,而且能顺便理解下早期用户行为是怎么研究的。更妙的是,后面还列了不少相关文章,想深入查也方便。

建议你看看公式(9-1),也不难,看懂了就能试着自己复现下那种分布。工具随便用,PythonElasticsearch这些都行,数据结构不复杂。

对了,里面还有些关于倒排索引日志挖掘的参考资料,像 motorengine 的搜索引擎架构、Solr 的企业级应用,点开就能下。你要是打算撸个搜索引擎原型,也能从这些文档里捞不少干货。

如果你想研究用户行为建模、关键词分布,或者做个小型搜索项目,这个资源还挺靠谱,尤其是参考文章都配好链接了,点开就能用。