「大型网站架构设计」—— 前言

嘿,笔者的个人博客已经孵化完成啦🐣,欢迎大家来逛逛。以后的文章也会在博客进行首发,快来关注我吧,我们继续一起探讨技术一同进步~

本文主要是笔者对《大型网站技术架构》一书的总结归纳。主要通过两种方式展现,一是通过「思维导图」的形式输出;另一种,就是本文以图文的形式更加详细和展开的描述‘大型网站技术架构’的方方面面。



本文是「大型网站架构设计」系列文章的第一篇,相关文章见:
大型网站技术架构 ——「思维导图」
「大型网站架构设计」—— 前言
「大型网站架构设计」—— 大型网站核心架构要素
「大型网站架构设计」—— 网站性能测试
「大型网站架构设计」—— 网站运行监控


一,前言

1.1 与传统企业应用系统相比,大型互联网应用系统有以下特点

  • 高并发、大流量
  • 高可用
  • 海量数据
  • 用户分布广泛,网络情况复杂
  • 安全环境恶劣
  • 需求快速变更,发布频繁
  • 渐进式发展


1.2 大型网站架构图

image

根据大型网站的特点,该架构能够解决大多数的技术问题。下面我们将这个架构图进行简单的分解。

1.2.1 分层

分层是企业应用系统中最常见的一种架构模式,将系统在横向维度(功能架构维度)上切分成几个部分,每个部分负责一部分相对比较单一的职责,然后通过上层对下层的依赖和调用组成一个完整的系统。

在大型网站架构中采用的分层结构,会将网站软件系统分为“应用层”、“服务层”、“数据层”。

应用层 负责具体业务和视图展示,如网站首页及搜索输入和结果展示
服务层 为应用层提供服务支持,如用户管理服务,购物车服务等
数据层 提供数据存储访问服务,如数据库、缓存、文件、搜索引擎等
image

虽然分成架构模式最初的目的是规划软件清晰的逻辑结构便于开发维护。但在网站的发展过程中,分层结构对网站支持高并发向分布式方向发展至关重要。因此在网站规模还很小的时候就应该采用分层的架构,这样将来网站做大时才能更好地应对。


1.2.2 分割

如果说分层是将软件在横向方面进行切分,那么分割就是在纵向(业务逻辑维度)方面对软件进行切分。

网站越大,功能越复杂,服务和数据处理的种类也越多,将这些不同的功能和服务分割开来,包装成高内聚低耦合的模块单元。这些模块不管在逻辑上还是物理部署上,都可以是独立的。同样在服务层也可以根据需求将服务分割成合适的模块。

  • 优点:
    • 一方面有助于软件的开发和维护;
    • 另一方面,便于不同模块的分布式部署,提高网站的并发处理能力和功能扩展能力。


1.2.3 分布式

分布式意味着可以使用更多的计算机完成同样的功能,计算机越多,CPU、内存、存储资源也就越多,能够处理的并发访问和数据量就越大,进而能够为更多的用户提供服务。

  • 分布式在解决网站高并发问题的同时也带来了其他问题:

    • 分布式意味着服务调用必须通过网络,这可能会对性能造成比较严重的影响;
    • 服务器越多,服务器宕机的概率也就越大,一台服务器宕机造成的服务不可用可能会导致很多应用不可访问,使网站可用性降低;
    • 数据在分布式的环境中保持数据一致性也非常困难,分布式事务也难以保证,这对网站业务正确性和业务流程有可能造成很大影响;
    • 分布式还导致网站依赖错综复杂,开发管理维护困难。
  • 常用的分布式方案:
    ① 分布式应用和服务
    将分层和分割后的应用和服务模块分布式部署,除了可以改善网站性能和并发性、加快开发和发布速度、减少数据库连接资源消耗外;还可以使不同应用复用共同的服务,便于业务功能扩展。

    ② 分布式静态资源
    网站的静态资源如 JS,CSS,Logo 图片等资源独立分布式部署,并采用独立的域名,即人们常说的动静分离。静态资源分布式部署可以减轻应用服务器的负载压力;通过使用独立域名加快浏览器并发加载的速度。

    ③ 分布式数据和存储

    ④ 分布式计算
    网站除了在线业务外还有后台业务要处理,比如,搜索引擎的索引构建、数据仓库的数据分析统计等。这些业务的计算规模非常庞大,目前网站普遍使用 Hadoop 及其 MapReduce 分布式计算框架进行此类批处理计算,其特点是移动计算而不是移动数据,将计算程序分发到数据所在的位置以加速计算和分布式计算。

    ⑤ 分布式配置
    可以支持网站线上服务配置实时更新

    ⑥ 分布式锁
    分布式环境下实现并发和协同的分布式锁

    ⑦ 分布式文件
    支持云存储的分布式文件


1.2.4 集群

集群化:即多台服务器部署相同应用构成一个集群,通过负载均衡设备共同对外提供服务。

目的:提高系统的可用性。

使用集群带来的好处:
① 可以提供更好的并发特性;
② 因为一个应用由多台服务器提供,当某台服务器发生故障时,负载均衡设备或者系统的失效转移机制会将请求转发到集群中其他服务器上,使服务器故障不影响用户使用。


1.2.5 缓存

缓存就是将数据存放在距离计算最近的位置以加快处理速度。

网站应用中,缓存除了可以加快数据访问速度,还可以减轻后端应用和数据存储的负载压力,这一点对网站数据库架构至关重要,网站数据库几乎都是按照有缓存的前提进行负载能力设计的。


1.2.6 异步

大型网站架构中,系统解耦的手段除了前面提到的分层、分割、分布等,还有一个重要手段是异步,业务之间的消息传递不是同步调用,而是将一个业务操作分成多个阶段,每个阶段之间通过共享数据的方式异步执行进行协作。

  • 异步的实现:
    ① 单一服务器内:可通过多线程共享内存队列的方式实现异步;
    ② 分布式系统中:多个服务器集群通过分布式消息队列实现异步。

  • 使用异步消息队列具有如下特性:
    ① 提高系统可用性,改善网站的扩展性
    ② 加快网站响应速度
    ③ 消除并发访问高峰

该方法会导致响应“延迟”。可以使用优先级队列来保证对时效性高的业务在访问高峰期的及时响应。

推荐阅读更多精彩内容