包阅导读总结
1. 系统设计、取舍、扩展、数据库、处理
2. 文本介绍了 10 个系统设计中的取舍,包括垂直与水平扩展、SQL 与 NoSQL 等,分析了各自的特点、适用场景及面临的问题。
3.
– 垂直扩展与水平扩展
– 垂直扩展:向现有服务器添加资源,易实施但有局限且贵,升级需停机。
– 水平扩展:向服务器池添加服务器,容错好可扩展,但管理复杂。
– SQL 与 NoSQL 数据库
– SQL 数据库:数据组织成表格,支持强大查询语言,保证 ACID 和数据关系。
– NoSQL 数据库:架构灵活,适非结构化数据,大规模环境好,但牺牲事务保证。
– 批处理与流处理
– 批处理:收集数据后一次性处理,适非实时场景,有延迟。
– 流处理:实时处理数据,适即时响应应用,资源消耗高。
– 正则化与反正则化
– 正则化:减少冗余保持数据完整,复杂联接有性能开销。
– 反正则化:优化查询性能,增加冗余有更新异常。
– 一致性与可用性(CAP 定理)
– 一致性:确保看到最新数据,分布式系统中可能限制可用性。
– 可用性:系统部分出问题仍运行,可能获取不到最新数据。
– 强一致性与最终一致性
– 强一致性:写操作完成后读取反映最新写入,适绝对正确场景。
– 最终一致性:更新逐步传播,大型分布式系统中可接受临时不一致。
– REST 与 GraphQL
– REST API:多个端点,易实现支持广,获取数据效率低。
– GraphQL:精确获取数据,效率高但实现维护复杂。
– 有状态与无状态系统
– 有状态系统:保留交互信息,个性化但复杂且限制扩展。
– 无状态系统:每次交互独立,简化扩展容错但失去上下文。
– 读穿缓存与写穿缓存
– 读穿缓存:未命中从数据库加载,读取快但数据可能过时。
– 写穿缓存:写入时更新缓存和存储,确保一致性但写入有延迟。
– 同步与异步处理
– 同步处理:任务依次执行,实现简单确保顺序但可能有性能瓶颈。
– 异步处理:任务独立运行,提高效率响应但管理复杂。
思维导图:
文章地址:https://mp.weixin.qq.com/s/x6vrAf72JdfAIz3mPSo3gQ
文章来源:mp.weixin.qq.com
作者:李华
发布时间:2024/9/9 1:39
语言:中文
总字数:1966字
预计阅读时间:8分钟
评分:90分
标签:系统设计,技术权衡,扩展策略,数据库设计,数据处理
以下为原文内容
本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com
01 垂直扩展 vs 水平扩展
垂直扩展指的是向现有服务器添加更多资源(CPU、RAM 等)以提高其容量。由于只需改进一台机器,通常更容易实施,但有物理和实际的限制。垂直扩展可能变得昂贵,升级时通常需要停机。
水平扩展则是向服务器池中添加更多服务器,将负载分布在多台机器上。它提供了更好的容错性,并在理论上具有无限的可扩展性。然而,它增加了管理分布式系统、负载均衡和节点间数据一致性的复杂性。
取舍: 垂直扩展更简单,但有局限性;水平扩展提供了更高的可扩展性,但复杂性更高。
02 SQL vs NoSQL
SQL 数据库将数据组织成表格的形式,具有行和列,并支持强大的查询语言(如 SQL)。在需要 ACID(原子性、一致性、隔离性、持久性)属性和数据关系的场景中表现出色。
NoSQL 数据库提供灵活的架构设计,适用于非结构化或半结构化数据。在大规模、分布式环境中通常表现更好,但可能会牺牲一些事务保证。
取舍: SQL 提供一致性和强关系支持,而 NoSQL 提供灵活性和可扩展性,通常以处理关系和事务的复杂性为代价。
03 批处理 vs 流处理
批处理指的是收集数据后一次性处理。它适用于如每日账单处理等场景,在这些场景中不需要实时结果。然而,它会引入延迟,因为数据不会立即处理。
流处理则是实时处理数据,适用于需要即时响应的应用,如欺诈检测或实时监控。
取舍: 批处理对大量数据更有效,但会带来延迟;流处理提供实时洞察,但资源消耗更高。
04 Normalization vs Denormalization
Normalization(正则化)将数据组织到不同的表中,以减少冗余并保持数据完整性。这对减少关系数据库中的异常至关重要,但在进行复杂联接时可能会导致性能开销。
Denormalization(反正则化)则是将数据组合成更少的表,以优化查询性能,往往会增加数据冗余并带来潜在的更新异常。
取舍: 正则化优化数据完整性和存储,但可能减慢读取性能;反正则化提高读取性能,但可能导致数据重复和不一致。
05 一致性 vs 可用性 (CAP定理)
一致性确保所有用户每次都能看到最新的数据。然而,在分布式系统中实现强一致性可能会在网络故障时限制可用性。
可用性确保系统在某些部分出现问题时仍然可以运行。然而,这通常意味着用户可能无法获取最新的数据。
取舍: 确保节点间高度一致性可能会降低可用性,而最大化可用性可能导致服务的过时或不一致数据。
06 强一致性 vs 最终一致性
强一致性保证一旦写操作完成,所有后续的读取都能反映最新的写入。这对于金融应用或库存系统等需要绝对正确性的场景至关重要。
最终一致性允许更新在节点间逐步传播,这意味着在所有节点达成一致前,读取可能会返回过时数据。这在性能和可用性比准确性更关键的大型分布式系统中是可以接受的。
取舍: 强一致性保证即时准确性,但通常伴随着更高的延迟和复杂性;最终一致性提高了性能和可用性,但代价是临时的数据不一致。
07 REST vs GraphQL
REST API 通常有多个端点用于不同的数据类型和操作。它易于实现且被广泛支持,但当客户端需要从多个端点获取数据时,效率较低。
GraphQL 允许客户端通过一次查询精确获取所需数据,提高了效率并减少了数据过量获取。然而,设计和维护它需要更多的工作,因为模式和解析函数可能会变得复杂。
取舍: REST 更简单、更容易实现,但在数据获取方面效率较低。GraphQL 提供了更精确的数据检索,但实现和维护的复杂性更高。
08 有状态 vs 无状态系统
有状态系统会保留过去的交互信息,使得交互更具个性化和上下文感知。例如,有状态的Web服务器可以记住用户会话。然而,管理状态会增加复杂性并限制可扩展性。
无状态系统将每次交互独立对待,不保留任何过去的交互记录。这简化了扩展和容错处理,因为任何服务器都可以处理任何请求。
取舍: 有状态系统提供更丰富的功能,但增加了复杂性并降低了可扩展性;无状态系统简化了扩展和容错处理,但失去了交互的上下文。
09 读穿缓存 vs 写穿缓存
读穿缓存在缓存未命中的情况下从数据库加载数据。这对读取频繁而更新较少的数据很有利。
写穿缓存在写入数据时同时更新缓存和底层存储。它确保缓存和存储之间的数据一致性,但可能会在写入时引入延迟。
取舍: 读穿缓存的读取速度较快,但可能提供过时数据,而写穿缓存确保数据一致性,但代价是写入时的延迟增加。
10 同步 vs 异步处理
同步处理是一个接一个地执行任务,这意味着每个任务必须等待上一个任务完成后才能开始。它实现简单,并能确保顺序上的正确性,但可能导致性能瓶颈。
异步处理允许任务独立运行,新的任务可以在当前任务未完成时启动。这提高了系统效率和响应能力,但增加了并行任务管理和故障处理的复杂性。
取舍: 同步处理更简单并确保顺序,但可能减慢系统。异步处理提高了响应速度和吞吐量,但代价是更高的复杂性。