目 录CONTENT

文章目录

简简单单复习个云计算

smallkun
2022-11-02 / 0 评论 / 0 点赞 / 143 阅读 / 3,730 字 / 正在检测是否收录...
温馨提示:
本文最后更新于 2022-11-03,若内容或图片失效,请留言反馈。部分素材来自网络,若不小心影响到您的利益,请联系我删除。

题型

题型 分值
单选题 10 2’
多选题 5 2’
填空题 5 2’
判断题 10 1’
简答题 5 6’
分析题 2 10’

第一章

1.摩尔定律是指的什么(因特尔),新摩尔定律又是什么(云计算)

摩尔定律:处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。

新摩尔定律:每18个月全球新增信息总量是计算机有史以来全部信息的总和

2.大数据特点, 云计算与大数据的联系

  1. 数据量大
  2. 数据来源格式多样
  3. 数据增长速度快
  4. 价值密度低
  5. 数据分析难度大

云计算作为计算资源的底层,支撑着上层的大数据处理。 本质上讲,云计算强调的是计算能力;而大数据强调的是处理、计算的对象。

3.云计算平台给我们提供的服务类型:三个方面 IAS,PAS,…各举例对应关系

IaaS:是(基础设施即服务)的简称,又称为(效用计算),指用户可通过 Internet 获取 IT 基础设施硬件资源,一般面向的是企业用户,它的代表有Amazon的AWS(Amazon Web Service),。这种云计算最大的特征在于,它并不像传统的服务器租赁商一样出租具体的服务器实体,它出租的是服务器的计算能力和存储能力。
PaaS:将平台作为服务的云计算服务类型,这种云计算最大的特征是它自带开发环境,并向开发者提供开发工具包。它的代表有Google的GAE
SaaS:软件即服务,它的代表有Dropbox,还有国内用户熟悉的百度智能云、腾讯云等。,

4.云计算实现机制,注意层次,每个层里面干嘛用的

①、物理资源层:服务器、存储器、网络、软件、数据库

②、资源池层:各种资源池,包括计算、存储、网络、数据等等

③、管理中间件层:负责对资源进行管理,并进行调度

④、SOA构建层:将云计算能力封装成标准的Web

第二章

5.主流的分布式文件系统,了解几个

  1. GFS(Google File System)
    Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。
  2. HDFS(Hadoop Distributed File System)
    HDFS(Hadoop Distributed File System)是 Hadoop 项目的一个子项目。是 Hadoop 的核心组件之一
  3. TFS(Taobao FileSystem)
    TFS是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器 集群上

6.GFS架构的优点(第二段),GFS主服务器是怎么样解决什么什么问题

GFS采用中心服务器的模式,该模式的最大优点是便于管理,因为中心服务器可以获知所有子服务器的状态,因而可以很方便的得知各个子服务器的负载状况等。
Master:是GFS的集群管理节点,可以是主备模式,当然也可以是AA模式的集群。

7.GFS系统里的容错机制的实现:两类容错机制的实现,要了解

GFS采用副本机制和错峰控制来处理热点文件的高并发读写,同时提出了一种长效解决方案:允许客户端读取客户端数据,形成客户端链

8.分布式的数据处理:怎样对数据进行处理的

  1. 对原始数据进行分割,得到N个不同的数据分块
  2. 对每一个数据分块都启动一个Map进行处理。采用桶排序的方法,每个Map中按照字母首字母将字符串分配到26个不同的桶中

9.分布式的结构化的数据表,数据模型务必掌握,三个方面:行列时间戳

行关键字可以是任意字符串,最大支持64KB。

列关键字一般都表示一种数据类型,是访问控制的基本单位。

表项可以包含同一数据的不同版本,采用时间戳进行索引

10.架构是基于哪几个构建的,图2-13 的架构基于那几个实现的,三个构建要明白

Bigtable架构图

Bigtable包含了3个主要的组件:链接到每个客户的库,一个Master服务器和多个Tablet服务器。根据负载情况的变化,Bigtable可以动态的向集群中添加或者删除Tablet服务器

11.非关系数据库:NoSql?库分类?(举例)

NoSQL不同类型对比

12.嵌套系统模型要明白(非常重要)

互联网数据常常是非关系型的。Dremel还需要有一个灵活的数据模型,这个数据模型至关重要。Dremel支持一个嵌套(nested)的数据模型,类似于Json。而传统的关系模型,由于不可避免的有大量的Join操作,在处理如此大规模的数据的时候,往往是有心无力的。

嵌入式的列存储,可以直接将每一列的值按顺序排列下来,不用引入其他概念,也不会丢失数据信息,解决了如下问题:

  1. 数据结构的无损表示
  2. 高效的数据编码
  3. 数据重组

第三章

13.Aws里面哈希算法的实现过程和改进的哈希算法的过程务必明白。

image-20221102162703124

一致性哈希(consistent hash)就是把hash函数的映射空间看做一个顺时针方向的环,把每台主机按键值(如IP地址)通过一个hash函数映射到环上的某个位置,上图一个有8台主机分布在了环上的不同位置。对于所有的数据,用同一个hash函数按键值也映射到这个环上,每条数据的从他当前在环上的位置顺时针往前走遇到的第一个服务器就负责这些数据的存储。上图中的箭头就表示了数据与主机之间的归属关系。

image-20221102162819331

在Amazon的那篇大名鼎鼎的Dynamo论文中则对consistent做了一些改进。由于实际的服务器数量相比起hash函数的映射空间太小,容易产生数据分布的不均匀,Dynamo选择把一台服务器映射为多个在环上的虚拟结点,这样只是增加了一步从虚拟结点到物理服务器之间的映射,就解决了结点少时数据分布不均匀的问题。下图中一台服务器对应了4个虚拟结点,就能让数据在环上更均匀地分布。

14.亚马逊的事例,结构,部分了解

image-20221102163256414

15.简单存储f3在什么之上,设计目标是什么,之下是什么,了解即可

构建在Dynamo之上,用于提供任意类型的文件或永久性的存储。总体设计目标是可靠、易用及低成本。

类似于腾讯云的COS对象存储,以存储桶为单位,每个存储的内容都为对象,并提供对应的API接口进行操作

16.非关系数据库和关系数据库的辨析

  1. 存储上,关系型主要采用数据库并用SQL语言对数据表进行操作,而非关系型是键值对

  2. 事务上,关系型可以统一可以以事务来进行对操作系统管理,而非关系型没有事务

  3. 关系型是表格型的,存储在数据表的行和列中。彼此关联,容易提取。而非关系型是大块存储在一起。

  4. 在关系型中,必须定义好地段和表结构之后,才能够添加数据,例如定义表的主键、索引、外键等。表结构可以在定义之后更新,但是如果有比较大的结构变更,就会变的比较复杂。

    在NoSQL数据库中,数据可以在任何时候任何地方添加。不需要预先定义。

17.简单对表服务SQS模型包括哪几个部分

由三个基本部分组成:系统组件、队列和消息

18.SQS消息的四个组成要素,了解即可

消息ID、接受句柄、消息体、消息体MD5摘要

第四章

19.图4-1,微软的云计算系统只要了解架构组成,微软的云平台基于什么的

image-20221102164441363

云计算服务平台Windows Azure属于PaaS模式,一般面向的是软件开发商。

20.微软的云关系数据库:有哪些相同的和不同的,两个SQL辨析,sql server && sql azwre 二者之间做对比

  1. SQL Azure 并不支持传统企业内使用的SQL Server的全部功能,但是它实现了其中相当大的一部分,是特殊的SQL Server
  2. SQL Server VM的使用成本会比较高,SQL Azure的使用成本比较便宜
  3. 单个SQL Server VM是无法实现数据库高可用性的,SQL Azure在设计之初就考虑了高可用性
  4. SQL Server VM是IaaS。也就是说,用户需要自己维护操作系统和数据库软件,包括升级补丁、安装备份工具等。SQL Azure是PaaS的。Windows Azure平台会自动进行配置,微软的数据中心会自动帮你打补丁和升级软件。所以会减轻IT人员的工作。

21.云中虚拟技术自己总结(理解概念,优缺点,分类)

  1. 服务器虚拟化
    大多数服务器的容量利用率不足 15%,这不仅导致了服务器数量剧增,还增加了部署复杂性。实现服务器虚拟化后,多个操作系统可以作为虚拟机在单台物理服务器上运行,并且每个操作系统都可以访问底层服务器的计算资源,从而解决了效率低下问题。
  2. 网络虚拟化
    网络虚拟化以软件的形式完整再现了物理网络,应用在虚拟网络上的运行与在物理网络上的运行完全相同。
  3. 桌面虚拟化
    通过以代管服务的形式部署桌面,可以使使用者更加快速地对不断变化的需求做出响应。
  4. 软件定义的存储
    海量数据和实时应用使存储需求达到新的高度。存储虚拟化对服务器内部的磁盘和闪存进行抽象,将它们组合到高性能存储池,并以软件形式交付。

第五章

22.分布式的文件系统,HDFS(184-187)

HDFS主要用来解决海量数据的存储问题

核心设计思想:分而治之:将大文件,大批量文件,分布式的存放于大量服务器上。以便于采取分而治 之的方式对海量数据进行运算分析

HDFS架构:

  • 主节点 Namenode: 集群老大,掌管文件系统目录树,处理客户端读且请求
  • SecondaryNamenode(第二节点): 严格说并不是 namenode 备份节点,主要给 namenode 分担压力之用
  • 从节点 Datanode: 存储整个集群所有数据块,处理真正数据读写

23.Hadoop 的设计和假设?

包括如下3个部分

  1. 模块共用组件
  2. 分布式文件问题
  3. 分布式计算框架

包括如下功能

  1. 硬件故障自修复
  2. 流式数据访问
  3. 简单一致性
0

评论区