复杂数据预处理与Kettle实战

数据挖掘 20

1.35MB 2024-11-04

#数据处理 # Kettle工具 # 数据清洗

复杂数据预处理 - Kettle

实验概述

本次实验主要针对复杂数据预处理进行实战演练，通过使用Kettle这一强大工具处理多种格式的数据文件。实验目标是利用所学的数据预处理技能来处理一系列关于学生基本信息及邮政编码信息的数据。

实验目的

综合运用数据预处理技巧，特别是利用Kettle处理复杂数据。
掌握如何使用Kettle对结构化和非结构化数据进行有效处理。
实现对数据的清洗、转换、合并等操作。
分析和处理数据中的缺失值、异常值等问题。

实验环境

开发工具: Kettle 8.2
操作系统: Ubuntu 16.04或Windows 7/10

需求描述

数据源: 学生基本信息及邮政编码信息
学生基本信息表: 包含专业、学院、学号、姓名、性别等20多个字段，但缺少省份信息。
邮政编码信息表: 包含省份、地市、区县及邮政编码等字段，可能存在信息不全或包含特殊字符的情况。
数据文件:
2019年普通全日制本科新生名单-计本专业（20190810整理）.xlsx
2019年普通全日制本科新生名单--教育技术学（20190907整理）.xlsx
2019年普通全日制本科新生名单--软件工程（20190907整理）.xls
youbian.xlsx

实验要求

统计各专业人数比例:
使用Kettle开发程序，根据三个专业表格中的数据统计出每个专业的学生人数比例。
统计各省学生人数:
使用Kettle开发程序，基于学生基本信息表和邮政编码信息表，统计出各省的学生人数。

实验步骤详解

一、统计各专业人数比例

各专业人数:
Excel输入控件: 读取三个专业的数据文件。
排序记录控件: 按照学院进行排序。
分组控件: 按照“本校专业名称”和“学院”分组，并统计每个专业的学生人数。
Multiway Merge Join控件: 将三个专业的数据进行合并。
计算器控件: 添加一个“总人数”字段，计算三个专业的学生总数。
各专业人数比例:
计算器控件: 添加一个“比例”字段，计算每个专业的学生人数占总人数的比例。

二、各省学生人数

Excel输入: 使用Kettle读取学生基本信息表和邮政编码信息表，并进行统计。