阿里云ACP大数据分析师备考经验帖

为什么备考？

我计划考取几张计算机证书，通过【以考促学】来强化知识、锻炼自己，助力能力提高和职业晋升，阿里云ACP是我考证之路的第一个证书。

选择【大数据分析师】方向是因为：1、我曾系统学习过应用统计的课程，熟悉统计学知识；2、我写过数据分析报告；3、工作需要数据分析能力作为基础；4、工作繁忙，大数据分析师方向相对题量较小，容易通过。

如何准备？

阿里云ACP考试的各种科目选择可以在小红书和知乎上找到详细的攻略，此处只针对大数据分析师方向。

该方向题量最小，最快的方法就是买题库刷题，题库稳定的话几乎全是原题。我是从淘宝购买题库，大约230道题目。先粗略的刷2-3遍，再精刷错题和重点题2-3遍，最后模拟考试随机抽题，分数达到90分以上即可正式参加考试。

但是，这样为了考试而考试毫无意义，我是观看了官方的培训课程（虽然并不详细，只是粗略的带你过考点），仔细学习了官方的PDF教材（其实就是官方课程上讲解的PPT），这样对考试内容和学习方向有了了解。

之后，我去对自己不熟悉的模块，利用AI进行了自学。没有去看特定的教材，是哪里不会学哪里，对某一块知识有系统的框架了解即可。因为大数据分析师的考点我大部分都熟悉，在本科学习过或者学习起来并不困难，所以我的学习过程很快速。

如何考试？

考试建议去淘宝或者咸鱼买【考券+题库】的套餐，我一共花费800元，店主赠送了官方的课程。这一整套肯定比官方的考试券便宜，各家店可能有差价但是应该与这个相差不大。

在小程序按照上面的计划刷题后，即可参加考试。

考试前至少一周跟对接的老师预约，提前三天会受到确认邮件，然后要仔细阅读！！！下载对应的考试软件，考试当天提前1-2个小时进入考场跟监考老师检查考场，过程繁琐，但是也比去线下考试轻松，检查通过后即可开始考试。

考试实际时间半个多小时，检查一遍就可以交卷了，当即就可以收到成绩单，80分以上合格，过两天可以在阿里云官网上看到自己的证书。

经典易错题

这里放一些题库里我经常错的题目或知识点，附带解析。

一、一般分析师所说的Hadoop是指Hadoop体系,它包括MapReduce、HDFS、HBase、Spark、Hive、Pig等组件。

1、MapReduce

这是一个分布式计算框架，用于处理大规模数据集的并行计算。

它将复杂的任务分解成两个主要阶段：Map阶段和Reduce阶段。在Map阶段，数据被分割成独立的数据块，并由多个Map任务并行处理；在Reduce阶段，Map任务的输出被汇总和整合，生成最终结果。

2、HDFS（Hadoop Distributed File System）

这是Hadoop项目的核心组件之一，专门设计用于存储大规模数据集。

HDFS被设计为一个高度可靠的系统，能够跨多个廉价的硬件设备存储和处理大量数据。它的目标是提供高吞吐量的数据访问，适合于大规模数据集的应用。

HDFS通过在廉价硬件上存储多个数据副本来提供高可靠性，并且支持高吞吐量的数据访问。

3、HBase

这是一个分布式的、面向列的开源数据库，它是Apache Hadoop项目的子项目。

HBase提供了类似于Google Bigtable的能力，在Hadoop之上提供了大规模结构化存储。

它利用HDFS作为其文件存储系统，并利用Hadoop MapReduce来处理海量数据。

4、Spark

Spark是一个开源的分布式内存数据处理框架，支持批处理、流处理、机器学习和图计算等多种数据处理模式。

Spark利用内存计算大幅提高处理速度，特别是在迭代计算和机器学习任务中表现优异。

Spark需要高性能、低延迟和交互式查询的应用程序，如实时分析、流处理和机器学习。

Spark适用于大规模数据处理和批处理任务。

5、Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为数据库表，并提供类SQL查询功能。

Hive适用数据查询和数据分析任务，需要构建数据仓库和进行数据摘要的应用场景。

6、Pig

Pig是一种数据流语言，被设计用于编写复杂的Hadoop数据转换逻辑。它提供了一种高级抽象，使得用户能够以更加简洁和直观的方式编写数据处理任务。

Pig适用场景需要对数据进行复杂转换或处理的任务，适用于批处理数据分析场景。

二、数据分析同时存在于项目管理与日常运营中,项目的目的是结束,而运营的目的是持续。如下描述中,属于项目管理范畴的是哪一项?

A、抽奖结果分析
B、补贴结果分析
C、投票结果分析
D、新品市场分析

一般来说补贴、投票和新品市场的分析都是用于对项目的未来持续改进，而抽奖分析无法达到该目的。

三、日常开发中，为了确保数据值得信赖，我们一般用数据质量的关键维度来评估数据的”糟糕”程度。下面哪一项不是数据质量的重要维度?

A、一致性
B、唯一性
C、准确性
D、完整性
E、波动性

数据质量的五个维度包括数据一致性，数据时效性，数据唯一性，数据准确性以及数据完整性。

四、数据集反应了数据分析的目标对象和范围，下面属于数据集的一般特征的有。

参考：第二节、总结_数据集特征-CSDN博客

五、ID3是一种经典的实现决策树的算法。ID3算法在进行特征选择时选用的优先分枝指标是。

ID3算法选用的优先分枝指标是信息增益。

信息增益是用于衡量一个特征对样本集纯度提升程度的指标。在ID3决策树算法中，采用信息增益作为选择最优分裂特征属性的标准。具体来说，算法会计算每个特征的信息增益，即划分前的信息熵减去划分后的信息熵，然后选择信息增益最大的特征作为当前数据集的分裂节点。通过这种方式，ID3算法能够构建出具有最小分枝数量且冗余最小的决策树。

六、“大数据为云计算存储、快速处理和分析挖掘提供基础能力”在表达上存在逻辑顺序上的不准确。

云计算：云计算是一种基于互联网的计算方式，通过互联网提供动态、可扩展、虚拟化的资源和服务。这些资源包括服务器、存储、数据库、软件开发平台、分析工具等。云计算的核心能力之一是提供大规模的存储和计算能力。

大数据：大数据指的是规模庞大、类型多样、处理速度快的数据集合。大数据的处理和分析通常需要强大的计算能力，这正是云计算所能提供的。

从逻辑上讲，云计算提供的存储和计算能力是大数据处理和分析的基础。云计算能够处理大规模数据集，包括大数据，通过其强大的存储和计算能力支持数据的快速处理和分析挖掘。相反，大数据本身并不直接提供存储或处理能力。它是需要这些能力来处理和分析的数据集。

因此，更准确的表述应该是：“云计算为大数据存储、快速处理和分析挖掘提供基础能力”。这样的表述明确了云计算在大数据处理中的支撑作用。

七、在统计学中，用于体现数据集中趋势和离散程度的指标分别有几种。

1、体现数据集中趋势的指标

算术均数：即一组数据的平均值，它反映了数据的中心位置。

几何均数：主要用于计算平均比率，特别是当数据存在连乘关系时，如股票的年收益率数据。几何均数是通过对n个数据相乘后开n次方得到的。

中位数：将一组数据从小到大排序后，位于中间位置的数据值。中位数主要用于顺序数据的集中趋势度量，尤其适用于偏态分布的数据。

百分位数：表示在一组数据中有多少比例的数据小于或等于这个值。常用的有第25百分位数（下四分位数）、第50百分位数（中位数）、第75百分位数（上四分位数）等。

众数：一组数据中出现次数最多的数据值。众数常用于不同类别的数量统计中，但它不具备唯一性，且数据量较少时意义不大。

2、体现数据离散程度的指标

极差：一组数据的最大值与最小值之差。极差反映了数据的波动范围，但只考虑了极端值，没有考虑中间数据。

方差：每个数据与均值的差的平方的平均值。方差衡量了数据相对于均值的偏离程度，但得到的数值与数据的量纲不同。

标准差：方差的平方根。标准差与数据具有相同的量纲，因此更直观地反映了数据的离散程度。

四分位数间距：上四分位数与下四分位数之差。它反映了数据中间50%部分的离散程度。

离散系数（变异系数）：标准差与均值的比值。离散系数用于比较不同组别或不同量纲数据之间的离散程度。

八、在回归分析中，自变量通常被视为非随机变量，而因变量被视为随机变量。

1、自变量（解释变量）

定义：用于预测或解释因变量变化的变量。

特性：在回归分析中，自变量通常是研究者根据研究目的和背景知识选定的，它们的变化可能会对因变量的变化产生影响。这些变量在研究中被假定为可控的或固定的，因此被视为非随机变量。

2、因变量（被解释变量）

定义：描述现象变化，依赖于解释变量变化的变量。

特性：因变量是回归分析中的核心，也是研究者最关心的变量。它随着自变量的变化而变化，并且由于各种随机因素的影响，其取值具有不确定性和随机性。因此，因变量被视为随机变量。

九、四种约束

非空约束:强制列不能为 NULL值，约束强制字段始终包含值。

外键约束:一张表的一个字段受限于另外一张表的一个字段对应的值。

检查约束:在表中定义一个对输入的数据按照设置的逻辑进行检查的标识符。

唯一约束:确保一组列中的值对于表中的所有行都是唯一的，且不为空。

十、在KNN算法中，参数K值的选取确实会对结果产生较大的影响。

1、K值过小的影响

1.1、易受异常点影响

当K值较小时，模型在预测时会仅考虑少数几个邻近点。如果这些邻近点中存在异常值或噪声，那么预测结果可能会受到较大影响，导致预测不准确。

1.2、容易过拟合

过拟合是指模型在训练集上表现良好，但在测试集上表现不佳的现象。当K值过小时，模型可能会过于关注训练数据中的细节和噪声，导致模型复杂度增加，从而容易在训练集上过拟合。

2、K值过大的影响

2.1、易受不相似实例影响

当K值较大时，模型在预测时会考虑更多的邻近点。这些点中可能包含与输入实例不相似的训练实例，这些不相似的实例可能会对预测结果产生负面影响，导致预测错误。

2.2、容易欠拟合

欠拟合是指模型在训练集和测试集上都表现不佳的现象。当K值过大时，模型会过于平滑，忽略了数据中的复杂结构和细节，导致模型无法充分学习到数据的特征，从而容易在训练集和测试集上都表现不佳，即欠拟合。

2.3、计算量增加

随着K值的增大，模型需要计算更多邻近点的距离和权重，这会增加计算量和计算时间。在大数据集上，这个问题可能尤为明显，从而影响模型的实时性和效率。

十一、HDFS的元数据主要存放在以下两个文件中。

fsimage文件：这是元数据的一个持久化的检查点，包含了Hadoop文件系统中的所有目录和文件的元数据信息。但需要注意的是，fsimage文件并不包含文件块位置的信息，这些信息是在数据节点（DataNode）加入集群时，由元数据节点（NameNode）询问数据节点得到的，并且会间断地进行更新。fsimage文件可以看作是一个快照，它保存了某一时刻文件系统的完整元数据信息。

edits文件：这个文件存放的是Hadoop文件系统的所有更改操作（如文件创建、删除或修改）的日志。当文件系统客户端执行更改操作时，这些操作首先会被记录到edits文件中。然后，NameNode会在内存中更新元数据信息，以反映这些更改。因此，edits文件是记录文件系统动态变化的重要日志。

十二、聚类方法

聚类是无监督学习中最常见的任务之一，它可以将数据集划分为不同的组，使得每个组内的数据点相似，而不同组之间的数据点差异较大。常见的聚类算法有：

K-means：一种基于质心的聚类算法，通过迭代优化使得每个数据点到其所属质心的距离之和最小。

层次聚类：创建层次结构的聚类树，可以是自底向上的凝聚方法或自顶向下的分裂方法。

DBSCAN：基于密度的聚类算法，能够发现任意形状的簇，并处理噪声点。

十三、OLAP的特性

快速性：用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。

可分析性：OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。

多维性：多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。

信息性：不论数据量有多大，也不管数据存储在何处，OLAP系统应能及时获得信息，并且管理大容量信息。

十四、CART（分类与回归树）和KNN（K最近邻）都是机器学习中的算法，它们分别基于不同的原理进行工作。

1、CART：基于统计

CART算法是一种决策树算法，既可以用于分类，也可以用于回归。它将概率论与统计学的知识引入到决策树的研究中，通过最小化平方误差或基尼指数来构建和修剪决策树。

CART算法在进行特征选择时选用的优先分枝指标是基尼系数。基尼系数是衡量数据集不纯度的一种指标，用于确定最优特征和最优分割点。

2、KNN：基于距离

KNN是一种监督学习算法，可用于分类和回归问题，是最简单的机器学习算法之一。它试图通过计算测试数据与所有训练点之间的距离，选择与测试数据最接近的K个点来预测测试数据的正确类别。

KNN（K-nearest neighbors，K最近邻）算法对于样本不均衡的现象是比较敏感的。

KNN属于情性算法,获得结果的实时性较差。

KNN进行重新训练的代价较低。

KNN的时间、空间复杂度取决于训练集大小。

相比于决策树来说,KNN的解释性较弱。

十五、Datav的功能特性有。

支持多种图表组件。

支持多种场景模板。

支持多种数据源接入。

十六、如果数据分析师希望将数据仓库中”customer”数据表的记录全部删除，但保留数据表结构，以MySQL为例，可通过什么命令实现。

truncate table customer

十七、文档型数据库是一种以文档为基本单位存储数据的非关系型数据库。

1、核心特点

1.1、数据模型灵活

文档型数据库使用JSON、BSON或XML等格式存储文档，每个文档都是一组键值对的集合，可以包含嵌套的文档和数组。这种结构使得文档型数据库能够处理复杂和嵌套的数据结构，并且可以根据需要动态添加或修改字段，而无需修改数据库的结构。

1.2、高效读写性能

文档型数据库通常提供高效的读写性能，特别是在处理大规模数据和高并发请求时表现优异。通过高效的索引机制和自包含特性，可以显著提高数据的访问速度。

1.3、可扩展性强

文档型数据库支持水平扩展，通过增加节点可以轻松扩展数据库的存储容量和处理能力。这使得文档型数据库能够适应不断增长的数据量和用户需求。

2、常见类型

MongoDB：目前最流行的文档型数据库之一，使用JSON格式存储数据，提供了丰富的查询语言和强大的索引机制，支持水平扩展和高可用性。

Couchbase：一个高性能的文档数据库，支持多种数据模型，适用于需要高并发读写和复杂查询的场景。

十八、如果将样本量增大到原来的4倍，样本均值的标准差减小为原来的二分之一，总体均值置信区间的宽度减小为原来的二分之一。

十九、KNN实际上是一种分类算法，而不是聚类算法。

在KNN中，需要指定两个关键参数：

k的取值：k表示在做出预测或分类决策时考虑的最近邻居的数量。较小的k值意味着模型更加复杂，可能会更紧密地拟合训练数据（但可能导致过拟合）；较大的k值则会使模型更加平滑，但可能会增加欠拟合的风险。

距离的计算公式：KNN算法通过计算待分类点与已知类别点之间的距离来确定最近邻居。常用的距离度量包括欧几里得距离、曼哈顿距离等。选择合适的距离度量对于KNN算法的性能至关重要。

聚类算法（如K-Means、层次聚类等）则与KNN不同，它们的主要目标是将数据集划分为若干个组或簇，使得同一簇内的数据点彼此相似，而不同簇之间的数据点则差异较大。聚类算法通常不需要事先知道数据的类别标签。