搜 
机考套题 - 大数据技术导论
判断题
MapReduce模型中,Map针对每一个输入元素都要生成一个输出元素,Reduce针对每一个输入列表都要生成一个输出元素.()
维数约简又称为降维,对于较高维空间的数据库X,通过特征提取或者特征选择的方法,将原空间的维数降至m维.()
确定样本子集大小的因素中不包括计算成本和存储要求.()
静态数据是流式数据.()
实时计算系统的设计需要考虑高延迟、高性能、分布式、可扩展、高容错.()
检验假设是数理统计学中根据一定假设条件由样本推断总体的一种方法,先对总体的特征进行某种假设,然后通过抽样研究的统计推理,决定拒绝这个假设还是接受这个假设.()
可视化可以使用计算机支持的、交互的方式来表示抽象数据,以增强用户的认知能力,其侧重于通过可视化文本展现数据中隐含的信息和规律,建立符合人的认知规律的心理映像.()
大数据的获取要避免重复数据.()
图形数字化是将图形的连续模拟量转换成离散的数字量的过程.()
探索性数据分析强调灵活探求线索和证据,而证实性数据分析则着重评估现有证据.()
数据转换可将原始数据转换成适合数据分析的形式,如果数据转换处理不当,将严重扭曲数据本身的内涵,改变数据原本的形态.()
数据清洗的标准只包含返回率和精确度两个方面.()
MapReduce模型中,Map针对每一个输入元素都要生成一个输出元素,Reduce针对每一个输入列表都要生成一个输出元素.()
特征约简是在保留、提高原有判别能力的前提下,从原有的特征中删除不重要或不相关的特征,或者通过对特征进行重组来减少特征的个数,同时减少特征向量的维度.()
数据约简是指在对挖掘任务和数据本身内容理解的基础之上,寻找依赖于发现目标特征的有用数据,以缩减数据规模,从而在尽可能保持数据原貌的前提下,最大限度地精简数据量.()
Cyber空间是指以计算机技术、现代通信网络技术、虚拟现实技术等信息技术的综合运用为基础,以知识和信息为内容的新型空间.()
流式数据的处理是批量处理.()
文本数据是典型的结构化数据类型.()
多维数据分析的目标是探索多维数据项的分布规律和模式,并揭示不同维度属性之间的隐含关系.()
图像信息获取的方法只有扫描技术.()
大数据的获取要避免重复数据.()
从分析的结果上来看,大数据分析主要分为探索性数据分析、证实性数据分析、定性数据分析;从分析的方式上来看,大数据分析主要分为离线数据分析、在线数据分析和交互式分析.()
数据转换可将原始数据转换成适合数据分析的形式,如果数据转换处理不当,将严重扭曲数据本身的内涵,改变数据原本的形态.()
数据清洗是数据预处理的重要部分,其主要工作是检查数据的完整性及数据的一致性, 对其中的噪声数据进行平滑,对丢失的数据进行填补,以及对重复的数据进行消除等.()
MapReduce模型适用场景的特点是任务可被分解成相互联系的子问题.()
数据集成是应用、存储以及各组织之间传送的数据管理实践活动,其主要考虑合并规整数据问题.()
维数约简又称为降维,对于较高维空间的数据库X,通过特征提取或者特征选择的方法,将原空间的维数降至m维.()
实时计算系统的设计需要考虑高延迟、高性能、分布式、可扩展、高容错.()
数据能够记录人类的行为,包括工作、生活和社会的发展.()
检验假设是数理统计学中根据一定假设条件由样本推断总体的一种方法,先对总体的特征进行某种假设,然后通过抽样研究的统计推理,决定拒绝这个假设还是接受这个假设.()
由于数据随着时间而变化,可以将数据变化可视化,然后解释导致数据变化的原因.()
获取的数据是指已被转换为电信号的各种物理量,如温度、水位、风速、压力等.()
OldSQL数据库适用于数据分析应用,NewSQL数据库适用于事务处理应用,NoSQL数据库适用于互联网应用.()
数据分析的分析目标比较明确,分析条件也比较清楚,基本上就是采用统计方法对数据进行多维度的描述,其从一个假设出发,需要自行选择方程或模型来与假设匹配.而数据挖掘不需要假设,其目标不是很清晰,可以自动建立方程与模型.()
平方根转换适用于等比数据.()
数据清洗的目的是消除脏数据,主要消除异常数据、清除重复数据、保证数据的完整性等,进而提高数据的可利用性.()
MapReduce的基本原理就是将大数据分成小块逐个分析,最后将提取出来的数据汇总分析,进而获得需要的结果.()
对于高维数据,通过降维的维数约简方法可以减少冗余数据.()
持久化数据的安全通过不同层次的管理来实现,即物理层、网络层和数据存储层.()
Cyber空间是指以计算机技术、现代通信网络技术、虚拟现实技术等信息技术的综合运用为基础,以知识和信息为内容的新型空间.()
计算机科学是算法与算法变换的科学.()
由大及小的可视化展现方式是:先给出一个整体的画面,可以引导阅读者具体深入到一个聚焦的点.()
数学要素用来确定地学要素的空间相关位置,是地图内容骨架的要素.()
空间数据是一种用点、线、面以及实体等基本空间数据结构来表示自然世界的数据.()
网络爬虫可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等.()
数据挖掘是大数据分析的核心,其通过建模和构造算法来获取信息与知识.()
移动平均法分为一次移动平均法、混合移动平均法和多次移动平均法.()
k-NN近邻缺失数据填充算法是一种简单快速的算法,它利用本身具有完整记录的属性值实现对缺失属性值的估计.()
通常一个作业的输入都是基于分布式文件系统的文件,而对于一个 Map任务而言,它的输入是输入文件的一个数据块,或者是数据块的一部分,也可跨越数据块.()
系统抽样又称为等距抽样,当总体中个体数少,且其分布没有明显的不均匀情况时,常采用系统抽样.()

本页 50 道,共 175 道题目

版权信息-国开题库网-www.guokaitikuwang.com    备案号 粤备65168151