《数据密集型应用系统设计》是一本经历剑桥大学分布式系统研究院四年创作的重要著作,这本书从数据分析、数据应用和数据挖掘的角度出发,弥补了分布式理论和工程实践之间的鸿沟,它为软件开发者提供了宝贵的指导和启示,是一本必读的书籍,书中深入探讨了现代数据密集型应用系统的设计原则和决策,帮助读者了解如何有效地处理大规模数据的挑战,无论是对于研究者还是从业人员来说,这本书都是不可或缺的指南,我们由衷地将这本书献给那些追求梦想的人们,希望他们能通过阅读这本书,不断提升技术能力,创造出更加优秀的数据密集型应用系统。
通读了一遍,对这个分布式存储领域有一个完整的认识;会再细读一遍,结合文中的引用和MIT6.824来看。 这本书对单机存储、分布式存储系统都做了详细的说明;作者是个搞研究的,会详细的比较多种设计之间的优缺点,方便读者理解,我还挺喜欢这个套路的。 前两部分翻译的还不错, 翻译上第三部分略差,不过整体不影响阅读。
全书分为三大部分:
主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。
我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。
主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数据源来解决所有问题,那么一种自然的方式就是集成多个不同的数据库、缓存模块以及索引模块等。首先第10章以批处理开始来处理派生数据,紧接着第11章采用流式处理。第12章总结之前介绍的多种技术,并分析讨论未来构建可靠、可扩展和可维护应用系统可能的新方向或方法。
前言
– 1第一部分 数据系统基础
– 第1章 可靠、可扩展与可维护的应用系统
– 认识数据系统
– 可靠性
– 可扩展性
– 可维护性
– 小结
– 第2章 数据模型与查询语言
– 关系模型与文档模型
– 数据查询语言
– 图状数据模型
– 小结
– 第3章 数据存储与检索
– 数据库核心:数据结构
– 事务处理与分析处理
– 列式存储
– 小结
– 第4章 数据编码与演化
– 数据编码格式
– 数据流模式
– 小结
– 第二部分 分布式数据系统
– 第5章 数据复制
– 主节点与从节点
– 复制滞后问题
– 多主节点复制
– 无主节点复制
– 小结
– 第6章 数据分区
– 189数据分区与数据复制
– 键-值数据的分区
– 分区与二级索引
– 分区再平衡
– 请求路由
– 小结
– 第7章 事务
– 深入理解事务
– 弱隔离级别
– 串行化
– 小结
– 第8章 分布式系统的挑战
– 故障与部分失效
– 不可靠的网络
– 不可靠的时钟
– 知识,真相与谎言
– 小结
– 第9章 一致性与共识
– 一致性保证
– 可线性化
– 顺序保证
– 分布式事务与共识
– 小结
– 第三部分 派生数据第
– 10章 批处理系统
– 使用UNIX工具进行批处理
– MapReduce与分布式文件系统
– 超越MapReduce
– 小结
– 第11章 流处理系统
– 发送事件流
– 数据库与流
– 流处理
– 小结
– 第12章 数据系统的未来
– 461数据集成
– 分拆数据库
– 端到端的正确性
– 做正确的事情
– 小结
– 术语表