阿里云ACP大数据分析师备考经验帖
阿里云ACP大数据分析师备考经验帖
为什么备考?
我计划考取几张计算机证书,通过【以考促学】来强化知识、锻炼自己,助力能力提高和职业晋升,阿里云ACP是我考证之路的第一个证书。
选择【大数据分析师】方向是因为:1、我曾系统学习过应用统计的课程,熟悉统计学知识;2、我写过数据分析报告;3、工作需要数据分析能力作为基础;4、工作繁忙,大数据分析师方向相对题量较小,容易通过。
如何准备?
阿里云ACP考试的各种科目选择可以在小红书和知乎上找到详细的攻略,此处只针对大数据分析师方向。
该方向题量最小,最快的方法就是买题库刷题,题库稳定的话几乎全是原题。我是从淘宝购买题库,大约230道题目。先粗略的刷2-3遍,再精刷错题和重点题2-3遍,最后模拟考试随机抽题,分数达到90分以上即可正式参加考试。
但是,这样为了考试而考试毫无意义,我是观看了官方的培训课程(虽然并不详细,只是粗略的带你过考点),仔细学习了官方的PDF教材(其实就是官方课程上讲解的PPT),这样对考试内容和学习方向有了了解。
之后,我去对自己不熟悉的模块,利用AI进行了自学。没有去看特定的教材,是哪里不会学哪里,对某一块知识有系统的框架了解即可。因为大数据分析师的考点我大部分都熟悉,在本科学习过或者学习起来并不困难,所以我的学习过程很快速。
如何考试?
考试建议去淘宝或者咸鱼买【考券+题库】的套餐,我一共花费800元,店主赠送了官方的课程。这一整套肯定比官方的考试券便宜,各家店可能有差价但是应该与这个相差不大。
在小程序按照上面的计划刷题后,即可参加考试。
考试前至少一周跟对接的老师预约,提前三天会受到确认邮件,然后要仔细阅读!!!下载对应的考试软件,考试当天提前1-2个小时进入考场跟监考老师检查考场,过程繁琐,但是也比去线下考试轻松,检查通过后即可开始考试。
考试实际时间半个多小时,检查一遍就可以交卷了,当即就可以收到成绩单,80分以上合格,过两天可以在阿里云官网上看到自己的证书。
经典易错题
这里放一些题库里我经常错的题目或知识点,附带解析。
一、一般分析师所说的Hadoop是指Hadoop体系,它包括MapReduce、HDFS、HBase、Spark、Hive、Pig等组件。
1、MapReduce
这是一个分布式计算框架,用于处理大规模数据集的并行计算。
它将复杂的任务分解成两个主要阶段:Map阶段和Reduce阶段。在Map阶段,数据被分割成独立的数据块,并由多个Map任务并行处理;在Reduce阶段,Map任务的输出被汇总和整合,生成最终结果。
2、HDFS(Hadoop Distributed File System)
这是Hadoop项目的核心组件之一,专门设计用于存储大规模数据集。
HDFS被设计为一个高度可靠的系统,能够跨多个廉价的硬件设备存储和处理大量数据。它的目标是提供高吞吐量的数据访问,适合于大规模数据集的应用。
HDFS通过在廉价硬件上存储多个数据副本来提供高可靠性,并且支持高吞吐量的数据访问。
3、HBase
这是一个分布式的、面向列的开源数据库,它是Apache Hadoop项目的子项目。
HBase提供了类似于Google Bigtable的能力,在Hadoop之上提供了大规模结构化存储。
它利用HDFS作为其文件存储系统,并利用Hadoop MapReduce来处理海量数据。
4、Spark
Spark是一个开源的分布式内存数据处理框架,支持批处理、流处理、机器学习和图计算等多种数据处理模式。
Spark利用内存计算大幅提高处理速度,特别是在迭代计算和机器学习任务中表现优异。
Spark需要高性能、低延迟和交互式查询的应用程序,如实时分析、流处理和机器学习。
Spark适用于大规模数据处理和批处理任务。
5、Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为数据库表,并提供类SQL查询功能。
Hive适用数据查询和数据分析任务,需要构建数据仓库和进行数据摘要的应用场景。
6、Pig
Pig是一种数据流语言,被设计用于编写复杂的Hadoop数据转换逻辑。它提供了一种高级抽象,使得用户能够以更加简洁和直观的方式编写数据处理任务。
Pig适用场景需要对数据进行复杂转换或处理的任务,适用于批处理数据分析场景。
二、数据分析同时存在于项目管理与日常运营中,项目的目的是结束,而运营的目的是持续。如下描述中,属于项目管理范畴的是哪一项?
A、抽奖结果分析
B、补贴结果分析
C、投票结果分析
D、新品市场分析
一般来说补贴、投票和新品市场的分析都是用于对项目的未来持续改进,而抽奖分析无法达到该目的。
三、日常开发中,为了确保数据值得信赖,我们一般用数据质量的关键维度来评估数据的”糟糕”程度。下面哪一项不是数据质量的重要维度?
A、一致性
B、唯一性
C、准确性
D、完整性
E、波动性
数据质量的五个维度包括数据一致性,数据时效性,数据唯一性,数据准确性以及数据完整性。
四、数据集反应了数据分析的目标对象和范围,下面属于数据集的一般特征的有。
参考:第二节、总结_数据集特征-CSDN博客
五、ID3是一种经典的实现决策树的算法。ID3算法在进行特征选择时选用的优先分枝指标是。
ID3算法选用的优先分枝指标是信息增益。
信息增益是用于衡量一个特征对样本集纯度提升程度的指标。在ID3决策树算法中,采用信息增益作为选择最优分裂特征属性的标准。具体来说,算法会计算每个特征的信息增益,即划分前的信息熵减去划分后的信息熵,然后选择信息增益最大的特征作为当前数据集的分裂节点。通过这种方式,ID3算法能够构建出具有最小分枝数量且冗余最小的决策树。
六、“大数据为云计算存储、快速处理和分析挖掘提供基础能力”在表达上存在逻辑顺序上的不准确。
云计算:云计算是一种基于互联网的计算方式,通过互联网提供动态、可扩展、虚拟化的资源和服务。这些资源包括服务器、存储、数据库、软件开发平台、分析工具等。云计算的核心能力之一是提供大规模的存储和计算能力。
大数据:大数据指的是规模庞大、类型多样、处理速度快的数据集合。大数据的处理和分析通常需要强大的计算能力,这正是云计算所能提供的。
从逻辑上讲,云计算提供的存储和计算能力是大数据处理和分析的基础。云计算能够处理大规模数据集,包括大数据,通过其强大的存储和计算能力支持数据的快速处理和分析挖掘。相反,大数据本身并不直接提供存储或处理能力。它是需要这些能力来处理和分析的数据集。
因此,更准确的表述应该是:“云计算为大数据存储、快速处理和分析挖掘提供基础能力”。这样的表述明确了云计算在大数据处理中的支撑作用。
七、在统计学中,用于体现数据集中趋势和离散程度的指标分别有几种。
1、体现数据集中趋势的指标
算术均数:即一组数据的平均值,它反映了数据的中心位置。
几何均数:主要用于计算平均比率,特别是当数据存在连乘关系时,如股票的年收益率数据。几何均数是通过对n个数据相乘后开n次方得到的。
中位数:将一组数据从小到大排序后,位于中间位置的数据值。中位数主要用于顺序数据的集中趋势度量,尤其适用于偏态分布的数据。
百分位数:表示在一组数据中有多少比例的数据小于或等于这个值。常用的有第25百分位数(下四分位数)、第50百分位数(中位数)、第75百分位数(上四分位数)等。
众数:一组数据中出现次数最多的数据值。众数常用于不同类别的数量统计中,但它不具备唯一性,且数据量较少时意义不大。
2、体现数据离散程度的指标
极差:一组数据的最大值与最小值之差。极差反映了数据的波动范围,但只考虑了极端值,没有考虑中间数据。
方差:每个数据与均值的差的平方的平均值。方差衡量了数据相对于均值的偏离程度,但得到的数值与数据的量纲不同。
标准差:方差的平方根。标准差与数据具有相同的量纲,因此更直观地反映了数据的离散程度。
四分位数间距:上四分位数与下四分位数之差。它反映了数据中间50%部分的离散程度。
离散系数(变异系数):标准差与均值的比值。离散系数用于比较不同组别或不同量纲数据之间的离散程度。
八、在回归分析中,自变量通常被视为非随机变量,而因变量被视为随机变量。
1、自变量(解释变量)
定义:用于预测或解释因变量变化的变量。
特性:在回归分析中,自变量通常是研究者根据研究目的和背景知识选定的,它们的变化可能会对因变量的变化产生影响。这些变量在研究中被假定为可控的或固定的,因此被视为非随机变量。
2、因变量(被解释变量)
定义:描述现象变化,依赖于解释变量变化的变量。
特性:因变量是回归分析中的核心,也是研究者最关心的变量。它随着自变量的变化而变化,并且由于各种随机因素的影响,其取值具有不确定性和随机性。因此,因变量被视为随机变量。
九、四种约束
非空约束:强制列不能为 NULL值,约束强制字段始终包含值。
外键约束:一张表的一个字段受限于另外一张表的一个字段对应的值。
检查约束:在表中定义一个对输入的数据按照设置的逻辑进行检查的标识符。
唯一约束:确保一组列中的值对于表中的所有行都是唯一的,且不为空。
十、在KNN算法中,参数K值的选取确实会对结果产生较大的影响。
1、K值过小的影响
1.1、易受异常点影响
当K值较小时,模型在预测时会仅考虑少数几个邻近点。如果这些邻近点中存在异常值或噪声,那么预测结果可能会受到较大影响,导致预测不准确。
1.2、容易过拟合
过拟合是指模型在训练集上表现良好,但在测试集上表现不佳的现象。当K值过小时,模型可能会过于关注训练数据中的细节和噪声,导致模型复杂度增加,从而容易在训练集上过拟合。
2、K值过大的影响
2.1、易受不相似实例影响
当K值较大时,模型在预测时会考虑更多的邻近点。这些点中可能包含与输入实例不相似的训练实例,这些不相似的实例可能会对预测结果产生负面影响,导致预测错误。
2.2、容易欠拟合
欠拟合是指模型在训练集和测试集上都表现不佳的现象。当K值过大时,模型会过于平滑,忽略了数据中的复杂结构和细节,导致模型无法充分学习到数据的特征,从而容易在训练集和测试集上都表现不佳,即欠拟合。
2.3、计算量增加
随着K值的增大,模型需要计算更多邻近点的距离和权重,这会增加计算量和计算时间。在大数据集上,这个问题可能尤为明显,从而影响模型的实时性和效率。
十一、HDFS的元数据主要存放在以下两个文件中。
fsimage文件:这是元数据的一个持久化的检查点,包含了Hadoop文件系统中的所有目录和文件的元数据信息。但需要注意的是,fsimage文件并不包含文件块位置的信息,这些信息是在数据节点(DataNode)加入集群时,由元数据节点(NameNode)询问数据节点得到的,并且会间断地进行更新。fsimage文件可以看作是一个快照,它保存了某一时刻文件系统的完整元数据信息。
edits文件:这个文件存放的是Hadoop文件系统的所有更改操作(如文件创建、删除或修改)的日志。当文件系统客户端执行更改操作时,这些操作首先会被记录到edits文件中。然后,NameNode会在内存中更新元数据信息,以反映这些更改。因此,edits文件是记录文件系统动态变化的重要日志。
十二、聚类方法
聚类是无监督学习中最常见的任务之一,它可以将数据集划分为不同的组,使得每个组内的数据点相似,而不同组之间的数据点差异较大。常见的聚类算法有:
K-means:一种基于质心的聚类算法,通过迭代优化使得每个数据点到其所属质心的距离之和最小。
层次聚类:创建层次结构的聚类树,可以是自底向上的凝聚方法或自顶向下的分裂方法。
DBSCAN:基于密度的聚类算法,能够发现任意形状的簇,并处理噪声点。
十三、OLAP的特性
快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。
可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。
信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
十四、CART(分类与回归树)和KNN(K最近邻)都是机器学习中的算法,它们分别基于不同的原理进行工作。
1、CART:基于统计
CART算法是一种决策树算法,既可以用于分类,也可以用于回归。它将概率论与统计学的知识引入到决策树的研究中,通过最小化平方误差或基尼指数来构建和修剪决策树。
CART算法在进行特征选择时选用的优先分枝指标是基尼系数。基尼系数是衡量数据集不纯度的一种指标,用于确定最优特征和最优分割点。
2、KNN:基于距离
KNN是一种监督学习算法,可用于分类和回归问题,是最简单的机器学习算法之一。它试图通过计算测试数据与所有训练点之间的距离,选择与测试数据最接近的K个点来预测测试数据的正确类别。
KNN(K-nearest neighbors,K最近邻)算法对于样本不均衡的现象是比较敏感的。
KNN属于情性算法,获得结果的实时性较差。
KNN进行重新训练的代价较低。
KNN的时间、空间复杂度取决于训练集大小。
相比于决策树来说,KNN的解释性较弱。
十五、Datav的功能特性有。
支持多种图表组件。
支持多种场景模板。
支持多种数据源接入。
十六、如果数据分析师希望将数据仓库中”customer”数据表的记录全部删除,但保留数据表结构,以MySQL为例,可通过什么命令实现。
truncate table customer
十七、文档型数据库是一种以文档为基本单位存储数据的非关系型数据库。
1、核心特点
1.1、数据模型灵活
文档型数据库使用JSON、BSON或XML等格式存储文档,每个文档都是一组键值对的集合,可以包含嵌套的文档和数组。这种结构使得文档型数据库能够处理复杂和嵌套的数据结构,并且可以根据需要动态添加或修改字段,而无需修改数据库的结构。
1.2、高效读写性能
文档型数据库通常提供高效的读写性能,特别是在处理大规模数据和高并发请求时表现优异。通过高效的索引机制和自包含特性,可以显著提高数据的访问速度。
1.3、可扩展性强
文档型数据库支持水平扩展,通过增加节点可以轻松扩展数据库的存储容量和处理能力。这使得文档型数据库能够适应不断增长的数据量和用户需求。
2、常见类型
MongoDB:目前最流行的文档型数据库之一,使用JSON格式存储数据,提供了丰富的查询语言和强大的索引机制,支持水平扩展和高可用性。
Couchbase:一个高性能的文档数据库,支持多种数据模型,适用于需要高并发读写和复杂查询的场景。
十八、如果将样本量增大到原来的4倍,样本均值的标准差减小为原来的二分之一,总体均值置信区间的宽度减小为原来的二分之一。
十九、KNN实际上是一种分类算法,而不是聚类算法。
在KNN中,需要指定两个关键参数:
k的取值:k表示在做出预测或分类决策时考虑的最近邻居的数量。较小的k值意味着模型更加复杂,可能会更紧密地拟合训练数据(但可能导致过拟合);较大的k值则会使模型更加平滑,但可能会增加欠拟合的风险。
距离的计算公式:KNN算法通过计算待分类点与已知类别点之间的距离来确定最近邻居。常用的距离度量包括欧几里得距离、曼哈顿距离等。选择合适的距离度量对于KNN算法的性能至关重要。
聚类算法(如K-Means、层次聚类等)则与KNN不同,它们的主要目标是将数据集划分为若干个组或簇,使得同一簇内的数据点彼此相似,而不同簇之间的数据点则差异较大。聚类算法通常不需要事先知道数据的类别标签。