信息技术的快速发展促成了大数据时代的到来,大数据已成为信息社会的重要资源,为人们更深入地感知、认识和控制物理世界提供了丰富信息。然而随着数据规模的扩大,劣质数据也随之增加,导致大数据质量低下,极大地降低了其可用性,这一问题在信息社会中日益严重。近年来,学术界和工业界对数据可用性问题展开了深入研究,并取得了一系列重要成果。介绍了数据可用性的基本概念,讨论了其面临的挑战和研究问题,综述了相关的研究成果,并探索了未来大数据可用性研究的方向。
大数据质量问题与可用性研究综述.pdf
相关推荐
数据质量问题及应对策略
“坏数据”的定义难以精确界定。它并非只是缺失值、格式错误的记录和繁琐的文件格式等技术问题,还包括那些浪费时间、导致加班、令人沮丧的数据。例如,无法访问的数据、曾经拥有但丢失的数据,以及今天与昨天不一致的数据等等。简而言之,“坏数据”是阻碍工作进展的数据。从存储问题到表示不佳,再到政策误导,导致“坏数据”的原因多种多样。任何数据科学从业者都难免会遇到这类问题。为此,我们编撰了这本“坏数据手册”,汇集了来自数据领域各个层面的 19 位专业人士的经验分享,他们讲述了自己遇到的数据问题以及如何解决这些问题的经历。
Hadoop
10
2024-06-22
提升PostgreSQL的可用性
推广课程——学习提升PostgreSQL可用性的课程,欢迎大家下载学习。
PostgreSQL
21
2024-07-13
MySQL 高可用性运营
MySQL 高可用性运营
莫晓东
2018 年 1 月 13 日
MySQL
22
2024-05-20
MySQL高可用性指南
对于有意深入学习MySQL的读者,这本书提供了全面的MySQL集群部署和管理指南,内容涵盖了MySQL的高可用性和集群管理等关键领域,适合希望提升数据库管理能力的读者。
MySQL
17
2024-07-25
数据恢复与高可用性实施指南
详细探讨了数据恢复与高可用性(High Availability, HA)的概念及其在数据库系统中的应用。高可用性是确保应用程序和服务持续运行的能力,即使面对硬件故障、软件错误或网络中断等意外情况时也能保证系统的稳定性和数据的完整性。文章特别强调了IBM DB2数据库管理系统在实现高可用性方面的策略和技术,包括热备援功能(HADR)、故障转移集群和数据分区。另外,文章还介绍了数据恢复的重要性及使用DB2时的备份和恢复策略,如完全备份、增量备份、日志备份和快照恢复。最后,为了保证数据库系统的高可用性和数据恢复的有效性,文章提供了制定灾难恢复计划和定期恢复测试的实施策略。
DB2
8
2024-08-16
构建高可用性HDFS集群
这份文档详细阐述了如何构建高可用的HDFS(Hadoop分布式文件系统)集群。通过配置NameNode的HA(高可用性)机制,确保即使单个NameNode发生故障,整个HDFS集群仍然能够正常运作,保障数据的可靠性和服务的连续性。
Hadoop
19
2024-05-19
MySQL高可用性配置指南
MySQL高可用性配置是一种保障数据库服务连续性的解决方案。当一台服务器故障时,系统能自动切换至另一台服务器,确保业务不中断。这种配置通常包括主从复制、负载均衡和故障切换机制。主从复制通过将主服务器数据同步到从服务器,实现数据备份和容灾。半同步复制提高数据一致性,确保主从数据同步。故障检测与切换可通过监控工具实现自动化,保障系统稳定运行。负载均衡则通过DNS轮询或负载均衡器实现读写分离,优化系统性能。注意确保网络稳定性、定期数据备份和完善的安全策略。
MySQL
10
2024-10-02
构建HDFS高可用性安装与测试
为了安装HDFS的高可用性环境,选择安装CentOS7-X64,确保选用带GUI的服务器版本,即使是非管理节点也可选择最小安装和开发工具。在安装过程中,务必选择支持Infiniband的选项,以确保搭建的HDFS集群在性能和稳定性上达到高标准。
Hadoop
19
2024-07-16
Oracle 24/7高可用性技术与技巧
本书主要介绍在Oracle数据库服务器系统中实现高可用性的技术途径以及系统性能优化方法,从而为用户提供具有24×7正常工作时间特点的系统。全书共八个部分,分别从系统需求、软硬件环境、数据库安装与维护、数据库疑难解决、高可用性解决方案、实用工具、Oracle新特性等方面进行阐述。本书讨论的是Oracle数据库系统管理与开发中的高级技巧,许多设计实例都来自作者的实际工作,因此具有很高的适用性。其特点是很少论及关于数据库的深奥理论,而注重于技术的实际应用。
Oracle
18
2024-11-04