高阶难度:侧重数据质量评估、模型训练集逻辑以及机器学习中的数据偏差分析。
选 单选题(共 25 题,每题 4 分)
在人工智能领域,“数据标注”这项工作最准确的定义和作用是什么?( )
如果一个AI翻译模型在训练时,吸收了大量存在语法错误的民间网络翻译文章,这会导致?( )
科学家在训练AI时,必须将数据划分为“训练集”和“测试集”。“测试集”的主要功能是?( )
龙虾claw小队用1000张“白天在公路上行驶的汽车”照片训练了一个车辆识别AI。到了晚上测试时,AI却什么都认不出来。这是因为?( )
“过拟合”是指AI在训练集上得分极高,但在测试集上表现极差。以下哪种比喻最符合这一现象?( )
在机器学习中,“多模态(Multimodal)模型”相较于传统单一模型,其最大的技术优势在于?( )
如果我们要让一个AI学会下围棋,最适合采用的机器学习方法是?( )
当训练数据中存在明显的“数据不平衡”时(例如:识别猫狗的模型,训练集中99%是猫,1%是狗),最可能发生什么?( )
收集人脸数据用于训练安防AI时,必须遵循的最核心伦理和法律原则是?( )
在大语言模型(如ChatGPT)的训练过程里,“RLHF(基于人类反馈的强化学习)”这一步骤的目的是?( )
大中信奥的教练在教授C++算法时提到,好的算法可以减少冗余计算。而在AI训练中,如果去除训练数据中的“噪声”,可以达到什么效果?( )
“预训练(Pre-training)”是大模型技术中的关键概念,它指的是什么阶段?( )
如果我们用不同医院的X光片数据共同训练一个医疗AI,但各医院互不共享病人原始数据。这种技术属于?( )
在给图像分类模型进行“数据清洗”时,以下哪项操作是合理且必要的?( )
为什么很多强大的人工智能模型(如自动驾驶算法)需要不断地进行版本更新和持续迭代?( )
AI算法在处理自然语言时,经常会使用“词向量(Word Embedding)”技术。它的主要作用是?( )
当你使用AI辅助完成一篇学校的科学调研报告时,发现AI提供的某项数据与课本上不一致。你应该?( )
数据在人工智能的三大核心要素(数据、算力、算法)中扮演着什么角色?( )
“监督学习”是指在训练数据中同时包含了题目和答案。以下哪项任务最适合使用监督学习?( )
在给智能语音音箱收集方言训练数据时,如果只收集了年轻人的口音,这可能会导致?( )
关于开源数据集(Open Source Datasets),以下说法最准确的是?( )
在机器学习项目开发周期中,哪个环节通常会耗费工程师最多的时间和精力?( )
当我们需要AI对一段长视频的内容进行理解和分类时,算法通常会将视频进行怎样的处理?( )
什么是“知识图谱(Knowledge Graph)”?( )
在评估AI模型时,除了准确率,为什么还需要考察模型的“解释性(Interpretability)”?( )