R 语言的数据课里,《生物信息学中的数据》算是蛮经典的一本了。作者是 Rafael A. Irizarry 和 Michael I. Love,都是搞统计和生物信息学的老手,写得挺接地气,尤其适合刚接触 R 的你,想把基础打牢一点的。
R 语言的安装、RStudio 环境配置、基础语法这些全都有,比较细。像dplyr
的用法也讲了,还带着实战例子,高通量数据的时候用得上。书里还有不少对统计符号的解释,别小看这些,多人不准就是这块卡壳。
书的后半部分讲的就更硬核了,统计推断那块内容挺全的。像t 检验
、中心极限定理
、置信区间
这种经典理论,都有举例,搞清楚这些,再遇到实验数据就知道该咋下手了。还有蒙特卡洛模拟
和置换检验
,适合不太规整的数据分布。
对变量间关系感兴趣的,可以看看关联测试
那节,像基因表达和疾病状态之间的关系就常用这个。R 语言的各种方法配合这些方式,搞项目时就更得心应手了。
如果你在用 R 做生信数据,或者搞不清楚统计学怎么回事,这本书挺值得啃一啃的。内容虽然不算轻,但讲得比较清楚,读完感觉脑子也通了不少。