/47

AWS MLS-C01

AWS Certified Machine Learning - Specialty 适合担负开发或数据科学职责,并在 AWS 云中开发、构架或运行机器学习/深度学习工作负载方面有一年以上经验的个人。

1 / 47

1.

(2)一位机器学习专家正在设计一个系统来提高公司的销售额。目的是利用公司掌握的有关用户行为和产品偏好的大量信息,根据用户与其他用户的相似性来预测用户会喜欢哪些产品。
专家应该怎么做才能达到这个目标?

2 / 47

2.

(3)一家移动网络运营商正在构建一个分析平台,以使用 Amazon Athena 和 Amazon S3 分析和优化公司的运营。
源系统以 .CSV 格式实时发送数据。数据工程团队希望在将数据存储到 Amazon S3 之前将其转换为 Apache Parquet 格式。
哪种解决方案实施起来最省力?

3 / 47

3.

(7)一位机器学习专家正在构建一个模型,该模型将使用 Amazon SageMaker 执行时间序列预测。专家已完成模型训练,现在正计划在端点上执行负载测试,以便他们可以为模型变体配置 Auto Scaling。
哪种方法可以让专家在负载测试期间查看延迟、内存利用率和 CPU 利用率?

4 / 47

4.

(16)在针对分类问题对神经网络进行小批量训练期间,数据科学家注意到训练准确度会波动。
这个问题最可能的原因是什么?

5 / 47

5.

(23)一位机器学习专家正在构建一个卷积神经网络 (CNN),它将对 10 种动物进行分类。Specialist 在神经网络中构建了一系列层,这些层将获取动物的输入图像,将其传递给一系列卷积层和池化层,最后传递给具有 10 个节点的密集全连接层。专家希望从神经网络获得输出,该输出是输入图像属于 10 个类别中每个类别的概率分布。
哪个函数将产生所需的输出?

6 / 47

6.

(24)一位机器学习专家训练了一个回归模型,但第一次迭代需要优化。专家需要了解模型是否更频繁地高估或低估目标。
专家可以使用什么选项来确定它是高估还是低估了目标值?

7 / 47

7.

(27)一位机器学习专家正在创建一个新的自然语言处理应用程序,用于处理由 100 万个句子组成的数据集。目的是然后运行 ​​Word2Vec 以生成句子的嵌入并启用不同类型的预测。
以下是数据集中的一个示例:
“he quck BROWN FOX jumps over the lazy dog.”
专家需要执行以下哪些操作才能以可重复的方式正确清理和准备数据?(​​选择三项。)

8 / 47

8.

(29)一家保险公司正在开发一种新的车辆设备,该设备使用摄像头观察司机的行为,并在他们分心时提醒他们。该公司在受控环境中创建了大约 10,000 张训练图像,机器学习专家将使用这些图像来训练和评估机器学习模型。
在模型评估期间,专家注意到训练错误率随着时期数的增加而减少得更快,并且模型无法准确地推断未见过的测试图像。
应使用以下哪项来解决此问题?(选择两项。)

9 / 47

9.

(31)监控服务每分钟生成 1 TB 的规模指标记录数据。研究团队使用 Amazon Athena 对此数据执行查询。由于数据量大,查询运行缓慢,团队需要更好的性能。
应该如何将记录存储在 Amazon S3 中以提高查询性能?

10 / 47

10.

(33)一家游戏公司推出了一款在线游戏,人们可以免费开始玩,但如果他们选择使用某些功能,则需要付费。公司需要建立一个自动化系统来预测新用户是否会在 1 年内成为付费用户。该公司已经从 100 万用户那里收集了一个带标签的数据集。
训练数据集包含 1,000 个正样本(来自 1 年内结束付费的用户)和 999,000 个负样本(来自未使用任何付费功能的用户)。每个数据样本包含 200 个特征,包括用户年龄、设备、位置和游戏模式。
使用此数据集进行训练,数据科学团队训练了一个随机森林模型,该模型在训练集上的收敛准确率超过 99%。但是,测试数据集的预测结果并不令人满意
数据科学团队应采用以下哪些方法来缓解此问题?(选择两项。)

11 / 47

11.

(45)数据科学家需要为高速实时流数据创建无服务器摄取和分析解决方案。
摄取过程必须缓冲传入的记录,并将其从 JSON 转换为查询优化的列式格式,而不会丢失数据。输出数据存储必须高度可用,分析师必须能够对数据运行 SQL 查询并连接到现有的商业智能仪表板。
数据科学家应该构建哪种解决方案来满足要求?

12 / 47

12.

(46)一家在线经销商拥有一个大型多列数据集,其中一列缺失 30% 的数据。机器学习专家认为数据集中的某些列可用于重建缺失数据。
专家应该使用哪种重建方法来保持数据集的完整性?

13 / 47

13.

(48)
一位机器学习专家正在训练一个模型来识别图像中车辆的品牌和型号。专家想要使用迁移学习和在一般对象图像上训练的现有模型。专家整理了一个包含不同车辆品牌和型号的图片的大型自定义数据集。
专家应该如何初始化模型以使用自定义数据对其进行重新训练?

14 / 47

14.

(56)机器学习专家正在为 Amazon SageMaker 上的训练准备数据。专家使用 SageMaker 内置算法之一进行训练。数据集以 .CSV 格式存储并转换为 numpy.array,这似乎对训练速度产生了负面影响。
专家应该如何优化用于 SageMaker 训练的数据?

15 / 47

15.

(61)一位机器学习专家正在与一家大型网络安全公司合作,该公司为世界各地的公司实时管理安全事件。该网络安全公司希望设计一种解决方案,使其能够使用机器学习将恶意事件评分为数据被摄取时的异常情况。该公司还希望能够将结果保存在其数据湖中,以供以后处理和分析。
完成这些任务最有效的方法是什么?

16 / 47

16.

(62)数据科学家想要获得对 GZIP 文件数据流的实时洞察。
哪种解决方案允许使用 SQL 以最少的延迟查询流?

17 / 47

17.

(65)Machine Learning Specialist 正在构建一个模型,以根据广泛的经济因素预测未来的就业率。在探索数据时,
专家注意到输入特征的量级变化很大。Specialist 不希望具有较大量值的变量支配模型。
Specialist 应该如何准备模型训练的数据?

18 / 47

18.

(66)机器学习专家必须构建一个流程来使用 Amazon Athena 查询 Amazon S3 上的数据集。该数据集包含超过 800,000 条存储为纯文本 CSV 文件的记录。每条记录包含 200 列,大小约为 1.5 MB。大多数查询只会跨越 5 到 10 列。
机器学习专家应该如何转换数据集以最小化查询运行时间?

19 / 47

19.

(69)一家大型消费品制造商出售以下产品:
* 34 种不同的牙膏变体
* 48 种不同的牙刷变体
* 43 种不同的漱口水变体
所有这些产品的完整销售历史记录都可以在 Amazon S3 中找到。目前,该公司正在使用定制的自回归综合移动平均
(ARIMA) 模型来预测对这些产品的需求。该公司想要预测对即将推出的新产品的需求。
机器学习专家应该应用哪种解决方案?

20 / 47

20.

(71)数据科学家需要将现有的本地 ETL 流程迁移到云端。当前流程以固定的时间间隔运行,并使用 PySpark 将多个大型数据源组合并格式化为单个合并输出以供下游处理。
数据科学家对云解决方案提出了以下要求:
✑ 结合多个数据源。
✑ 重用现有的 PySpark 逻辑。
✑ 按现有计划运行解决方案。
✑ 尽量减少需要管理的服务器数量。
数据科学家应该使用哪种架构来构建这个解决方案?

21 / 47

21.

(73)一家飞机发动机制造公司正在测量一个时间序列中的 200 个性能指标。工程师希望在测试期间近乎实时地检测关键制造缺陷。所有数据都需要存储以供离线分析。
执行近实时缺陷检测的最有效方法是什么?

22 / 47

22.

(78)一位机器学习专家之前在本地机器上使用 scikit-learn 训练了一个逻辑回归模型,现在该专家希望将其部署到生产环境中,仅用于推理。
应采取哪些步骤来确保 Amazon SageMaker 可以托管在本地训练的模型?

23 / 47

23.

(79)一家卡车运输公司正在从其遍布全球的卡车车队收集实时图像数据。数据增长迅速,每天大约产生 100 GB 的新数据。该公司希望探索机器学习用例,同时确保数据仅供特定 IAM 用户访问。
哪个存储选项提供最大的处理灵活性并且允许使用 IAM 进行访问控制?

24 / 47

24.

(85)给定以下电影分类模型的混淆矩阵,浪漫的真实类别频率和
冒险的预测类别频率是多少?

25 / 47

25.

(87)数据科学家需要分析就业数据。该数据集包含对 10 个不同特征的人的大约 1000 万个观察结果。在初步分析期间,数据科学家注意到收入和年龄分布不正常。虽然收入水平如预期的那样呈现右偏态,收入较高的人较少,但年龄分布也呈现右偏态,参与劳动力的老年人较少。
数据科学家可以应用哪些特征转换来修复错误倾斜的数据?(选择两项。)

26 / 47

26.

(90)一位机器学习专家计划创建一个长期运行的 Amazon EMR 集群。EMR 集群将有 1 个主节点、10 个核心节点和 20 个任务节点。为了节省成本,专家将在 EMR 集群中使用 Spot 实例。
专家应在 Spot 实例上启动哪些节点?

27 / 47

27.

(100)一位数据科学家正在开发一个二元分类器,以根据一系列测试结果预测患者是否患有特定疾病。数据科学家拥有
从人群中随机选择的 400 名患者的数据。这种疾病见于 3% 的人口。
数据科学家应该采用哪种交叉验证策略?

28 / 47

28.

(108)一位数据科学家正在开发一条管道来摄取流式网络流量数据。数据科学家需要实施一个流程来识别异常的网络流量模式,作为管道的一部分。这些模式将在下游用于警报和事件响应。如果需要,数据科学家可以访问未标记的历史数据以供使用。
该解决方案需要执行以下操作:
✑ 计算每个网络流量条目的异常分数。
随着时间的推移,使异常事件识别适应不断变化的网络模式。

数据科学家应该采用哪种方法来满足这些要求?

29 / 47

29.

(115)一家零售公司正在使用 Amazon Personalize 在营销活动期间为其客户提供个性化产品推荐。该公司发现,在部署新解决方案版本后,向现有客户推荐商品的销售额立即显着增加,但这些销售额在部署后不久就会下降。只有营销活动之前的历史数据可用于培训。
数据科学家应该如何调整解决方案?

30 / 47

30.

(121)数据科学家使用 Amazon SageMaker 笔记本实例进行数据探索和分析。这需要在笔记本实例上安装 Amazon SageMaker 上本机不可用的某些 Python 包。
机器学习专家如何确保笔记本实例上自动提供所需的包以供数据科学家使用?

31 / 47

31.

(122)数据科学家需要识别公司电子商务平台的欺诈性用户帐户。该公司希望能够确定新创建的帐户是否与先前已知的欺诈用户相关联。数据科学家正在使用 AWS Glue 在摄取期间清理公司的应用程序日志。
哪种策略可以让数据科学家识别欺诈账户?

32 / 47

32.

(125)一家金融公司正试图检测信用卡欺诈行为。该公司观察到,平均有 2% 的信用卡交易是欺诈性的。一位数据科学家根据一年的信用卡交易数据训练了一个分类器。该模型需要从常规交易
(负面)中识别欺诈交易(正面)。公司的目标是准确捕捉尽可能多的积极因素。
数据科学家应该使用哪些指标来优化模型?(选择两项。)

33 / 47

33.

(129)一家公司将来自网络广告点击的机器学习 (ML) 数据提取到 Amazon S3 数据湖中。点击数据通过使用 Kinesis Producer Library (KPL) 添加到 Amazon Kinesis 数据流。使用 Amazon Kinesis Data Firehose 传输流将数据从数据流加载到 S3 数据湖中。随着数据量的增加,一位 ML 专家注意到引入 Amazon S3 的数据速率相对恒定。Kinesis Data Streams 和 Kinesis Data Firehose 需要摄取的数据积压也越来越多。
下一步哪个最有可能提高 Amazon S3 的数据摄取率?

34 / 47

34.

(138)一家公司已使用 Amazon SageMaker 托管服务通过端点设置其机器学习 (ML) 模型并将其部署到生产环境中。ML 团队为其 SageMaker 实例配置了自动扩展以支持工作负载变化。在测试期间,团队注意到在新实例准备就绪之前启动了其他实例。这种行为需要尽快改变。
ML 团队如何解决这个问题?

35 / 47

35.

(156)一家公司向数千家零售店供应批发服装。数据科学家必须创建一个模型来预测每家商店每件商品的每日销量。数据科学家发现超过一半的商店营业时间不到 6 个月。销售数据每周都高度一致。数据库中的每日数据已每周汇总,当前数据集中省略了没有销售的周数。五年 (100 MB) 的销售数据在 Amazon S3 中可用。
哪些因素会对要开发的预测模型的性能产生不利影响,数据科学家应该采取哪些措施来缓解这些因素?
(选择两项。)

36 / 47

36.

(163)一位机器学习专家正在开发一种回归模型,以根据出租清单预测租金。名为 Wall_Color 的变量表示该属性最突出的外墙颜色。以下是样本数据,不包括所有其他变量:

专家选择了一个需要数值输入数据的模型。
专家应该使用哪些特征工程方法来允许回归模型从 Wall_Color 数据中学习?(选择两项。)

37 / 47

37.

(175)一家全球金融公司正在使用机器学习来自动化其贷款审批流程。公司有一个客户信息数据集。该数据集包含一些分类字段,例如按城市划分的客户位置和住房状况。该数据集还包括不同单位的财务字段,例如以美元为单位的账户余额和以美分为单位的月利息。
该公司的数据科学家正在使用梯度提升回归模型来推断每个客户的信用评分。该模型的训练精度为
99%,测试精度为 75%。数据科学家希望提高模型的测试准确性。
哪个过程最能提高测试精度?

38 / 47

38.

(176)机器学习 (ML) 专家需要从文本系列中提取嵌入向量。目标是为数据科学家提供随时可用的特征空间,以开发下游 ML 预测模型。文本由精选的英语句子组成。许多句子使用相似的词,但在不同的上下文中。句子之间有问题和答案,嵌入空间必须区分它们。
哪些选项可以生成捕获单词上下文和顺序 QA 信息所需的嵌入向量?(选择两项。)

39 / 47

39.

(181)一家房地产公司正在推出一种预测新房价格的新产品。属性和价格的历史数据以 .csv 格式存储在 Amazon S3 存储桶中。数据有一个标题、一些分类字段和一些缺失值。该公司的数据科学家使用带有通用开源库的 Python 来用零填充缺失值。数据科学家放弃了所有分类字段,并使用具有默认参数的开源线性回归算法训练了一个模型。
当前模型的预测准确度低于 50%。该公司希望提高模型性能并尽快推出新产品。
哪种解决方案能够以最少的运营开销满足这些要求?

40 / 47

40. (192)报纸出版商有一张客户数据表,其中包含多个数字和分类特征,例如年龄和教育历史,以及订阅状态。公司希望建立一个基于表数据预测订阅状态的针对性营销模型。

应该使用哪种 Amazon SageMaker 内置算法来为目标营销建模?

41 / 47

41. (195)一家地理空间分析公司每天处理数以千计的新卫星图像,以生成用于商业航运的船舶检测数据。该公司将培训数据存储在 Amazon S3 中。训练数据的大小每天都会随着新图像的增加而逐渐增加。

该公司已将 Amazon SageMaker 训练作业配置为使用具有文件输入模式的单个 ml.p2.xlarge 实例来训练内置对象检测算法。上个月的培训过程很成功,但现在由于缺乏存储而失败了。除了增加训练数据外,模型训练过程没有任何变化。

机器学习 (ML) 专家需要更改训练配置以解决问题。该解决方案必须优化性能并且必须最小化培训成本。

哪种解决方案可以满足这些要求?

42 / 47

42.

(21)机器学习专家正在配置 Amazon SageMaker,以便多个数据科学家可以访问笔记本、训练模型和部署终端节点。为确保最佳操作性能,专家需要能够跟踪科学家部署模型的频率、部署的 SageMaker 端点上的 GPU 和 CPU 利用率,以及调用端点时生成的所有错误。
哪些服务与 Amazon SageMaker 集成以跟踪此信息?(选择两项。)

43 / 47

43.

(75)机器学习专家想要为端点自动缩放配置确定适当的 SageMakerVariantInvocationsPerInstance 设置。专家对单个实例执行了负载测试,并确定没有服务降级的每秒峰值请求 (RPS) 约为 20 RPS。由于这是第一次部署,专家打算将调用安全系数设置为 0.5。
根据规定的参数,假设每个实例的调用设置是按分钟计算的,专家应该将什么设置为
SageMakerVariantInvocationsPerInstance 设置?

44 / 47

44.

(147)一家制造公司使用机器学习 (ML) 模型来检测质量问题。这些模型使用公司产品在每个生产步骤结束时拍摄的图像。该公司在生产现场拥有数千台机器,平均每秒生成一幅图像。
该公司使用一台制造机器进行了一次成功的试点。对于试点,ML 专家使用了一台运行 AWS IoT Greengrass 的工业 PC,该 PC 具有长期运行的 AWS Lambda 功能,可将图像上传到 Amazon S3。上传的图像调用了一个用 Python 编写的 Lambda 函数,以使用运行自定义模型的 Amazon SageMaker 终端节点执行推理。推理结果被转发回托管在生产站点的 Web 服务,以防止运送有缺陷的产品。
该公司通过在每台生产机器上安装类似配置的工业 PC,将解决方案扩展到所有制造机器。但是,预测的延迟增加超出了可接受的限度。分析表明互联网连接已达到容量极限。
公司如何才能最具成本效益地解决这个问题?

45 / 47

45.

(184)一家能源公司拥有风力涡轮机、气象站和可生成遥测数据的太阳能电池板。公司希望对这些设备进行预测性维护。这些设备位于不同的位置并且互联网连接不稳定。
一组数据科学家正在使用遥测数据执行机器学习 (ML),以在设备开始恶化之前进行异常检测和预测维护。该团队需要一种可扩展、安全、高速的数据摄取机制。该团队已决定使用 Amazon S3 作为数据存储位置。
哪种方法满足这些要求?

46 / 47

46.

(185)一家零售公司从社交媒体、公司网站和客户通话记录中收集客户对其产品的评论。一组数据科学家和工程师希望找到共同的主题并确定客户在评论中指的是哪些产品。该团队正在使用自然语言处理 (NLP) 构建模型来帮助进行这种分类。
每个产品都可以分为公司定义的多个类别。这些类别是相关的,但并不相互排斥。例如,如果客户评论文档中提到“Sample Yogurt”,则“Sample Yogurt”应分类为“酸奶”、“零食”、
该团队正在使用 Amazon Comprehend 训练模型,必须尽快完成该项目。
团队应该使用 Amazon Comprehend 的哪些功能来满足这些要求?

47 / 47

47. (198)一家公司想要预测从应用程序创建的文档的分类。新文档每 3 秒保存到 Amazon S3 存储桶中。该公司在 Amazon SageMaker 中开发了三个版本的机器学习 (ML) 模型来对文档文本进行分类。该公司希望部署这三个版本来预测每个文档的分类。

哪种方法能够以最少的运营开销满足这些要求?

Your score is

0%

最終更新: 12月 27, 2022