最新实例
Java操作HDFS全功能示例
Java 操作 Hadoop 的 HDFS 的各种操作,说实话,还挺全的。你想干的基本都能找到:新建文件、删文件、建文件夹,还有上传、下载、读取,都安排上了。适合那种刚上手 HDFS、不太想翻官方文档的同学,直接拿来用就行。 代码写得比较实在,调用 HDFS API 的方式也蛮清晰,比如像FileSystem.create()、FileSystem.delete()这些,基本一眼就懂。适合那种手上有点项目急着动工,又不想在细节上卡壳的场景。 哦对,想扩展的话,可以顺着这几个文章看看: Java 操作 HDFS 文件实战,代码更实在一点 HDFS 文件读取流程解析,想理解底层原理的可以看看 W
Hadoop生态圈简介
Hadoop 生态圈的入门,挺适合刚接触大数据的你。内容从大数据是啥讲起,一步步带你了解 Hadoop 是怎么发展的、技术体系包括哪些东西,比如你常听到的 HDFS、YARN、MapReduce,还有越来越火的 Spark 也没落下。讲得不死板,应用场景也举了不少,挺贴近实际。你平时做前端偶尔要接触大数据的接口或者流,了解这些背景知识,绝对不亏。
JDK 1.8.0_131JCE无限制权限策略文件
JDK 1.8.0_131 的老版本搭配 JCE 无限制策略文件,真的是搞 Java 加密开发时的一把好工具,尤其在Kerberos相关异常时,简直是救命稻草。里面的策略包一替换,啥高强度加密都能上。JCE 默认对加密强度有限制,用的是“出口级”政策,要搞 AES-256 这些就不行了,得靠无限制权限策略文件来放开手脚。把US_export_policy.jar和local_policy.jar替换掉,瞬间满血复活。如果你在用 JDK 1.8.0_131,还要接 Kerberos,比如 Hadoop、Spark 一类的系统,遇到 TGT 认证出错,那有是策略文件没换。顺手把压缩包里的文件按放进
Hive 3.2.0+HBase 3.1.3一体化部署包
Ambari+Bigtop 的一站式编译部署方案,真的挺省事儿。hive_3_2_0-hbase-3.1.3-1.el7.noarch.rpm这个包,专门给 Hive 整合 HBase 准备的,拿来就能用,免去你来回折腾各种兼容问题,部署效率直接拉满。 直接拿来跑Hive on HBase的环境,省心不少。搭配 Ambari 一起上手,部署流程清晰,还能统一管理服务,监控也方便。你要是还在一个个组件装,不如试试这个思路。 大部分使用场景像是做实时数据或离线查询加速,直接整合 HBase,Hive 查询能力杠杠的。比如用来跑日志,查询某个用户行为路径,用 HBase 存数据,Hive 查出来又快
StormEvents Locations 1995-2019地理数据集
美国风暴事件数据的地理记录,真的挺适合做数据可视化或者空间的。StormEvents_locations-1995_2019.csv.zip这个包里有三个子文件,时间跨度从 1996 到 2019,数据量 30 万条,能用来做不少有意思的图表,比如风暴频率热力图、极端天气趋势线啥的。 每条记录都带有位置信息,像州名、县名、甚至精确到经纬度,用Leaflet、Mapbox或者D3.js这些库来做互动地图都挺合适。数据的话,推荐先用Pandas做预,清洗完了再扔给前端展示,效果更稳定。 像 2000-2009 和 2010-2019 这两段数据,还蛮适合做对比的。你可以看看是不是风暴越来越频繁,或
Hadoop环境搭建与Linux命令操作指南
Hadoop 环境的搭建,说实话,前期准备真不少,但搞清楚了,其实也就那回事。这份指南挺全的,从虚拟机创建到 Linux 命令、再到 Zookeeper 和网络编程,基本涵盖了大数据环境里你能遇到的坑。比如虚拟机那块,讲了两种方法,一种是用 iso 镜像一步步装系统,适合想全流程体验下的;另一种就是直接复制安装文件,图快的话就选它,改个 MAC 和 IP 就能用。 Linux 操作那块也没跳过,vi 编辑器、网络配置、文件权限这些常用命令都提了,蛮适合刚接触的朋友。有点经验的也能翻出来查命令啥的,挺实用。 接下来是关键的Shell 脚本部分,这个真的是搭集群的好帮手。不搞点自动化脚本,你那几台
Hadoop+Scala大数据实训项目
大数据方向的实训项目,涵盖了比较全的技术栈,像Hadoop、Scala、Spark这些大数据核心组件全都安排上了。还有Node.js、Tomcat、Maven这种常见工具配合使用,算是一个挺实战的练手项目了。 Hadoop 的 HDFS 和 MapReduce在这个项目里是主力选手。HDFS 管存储,大文件也能轻松搞定;MapReduce 就负责计算,任务拆得挺细,分布式执行速度还不错。如果你之前没接触过,这次能一站搞明白。 Scala用得比较多,主要是因为它跟Spark关系紧密,Spark 原生支持 Scala,写起来也比较顺溜。项目里用的是 Spark 2.4.4,速度比 MapReduc
集群免密码登录实验报告
集群免密码登录的配置,算是搞大数据部署、Hadoop、CDH 这类集群环境的基础操作。实验报告文档里把从VMware 虚拟机的搭建到Linux CentOS 7.4的系统安装、网络配置、防火墙、主机名设置这些前置条件都捋了一遍,适合刚上手的小伙伴熟悉流程。 免密登录这一块挺关键,不然你每次跑脚本都得输密码,挺烦的。文档里把主节点之间、主节点到各子节点互相免密码登录都讲清楚了,像ssh-keygen、ssh-copy-id这些命令也都有提到,操作上手没啥门槛。 还有点不错的,是文档附带的资源比较丰富,像是ssh 免密登录的细节、Hadoop 编译安装、CDH 离线部署这类扩展阅读,对想做集群搭建
Hadoop本地运行支持组件
Windows 下折腾 Hadoop 的朋友,对hadoop.dll和winutils.exe肯定不陌生。这俩东西就是你想在本地跑起来 Hadoop 时的“钥匙”,缺一不可。是winutils.exe,用来绕过系统权限检查,没它各种 HDFS 命令直接报错。 hadoop.dll的作用也挺关键,是支持 Hadoop 在 Windows 环境下运行的动态链接库,尤其在调用底层 API 时起作用。你一开始不会注意到它,直到遇到一些稀奇古怪的错误,才发现原来是它的问题。 我自己是在搞 HDFS 调试时踩了不少坑。后来在这篇文章里看到怎么用winutils.exe和hadoop.dll配 Window
Hadoop Windows开发环境必备包
Windows 环境下装 Hadoop,确实不如 Linux 那么省心,但也不是没法搞定。我整理了一些必备的文件和配置,打包成了一个压缩包,基本能帮你快速搭建好开发环境。你只要跟着步骤来,少走弯路不是问题。