您现在的位置是:首页 > 博客日记 > Java Java

大数据工程师(高级)复习题

2019-12-27 16:20:15 【Java】 人已围观

第一部分:
选择题

1、下列有关 Excel 工作表命名的说法中,正确的是( C)
A、工作表的名字只能以字母开头
B、同一个工作簿可以存在两个同名的工作表
C、工作表的命名应该“见名知义”
D、工作簿默认的工作表名称为 Book1

2、下列有关 Excel 工作表单元格的说法中,错误的是( B)
A、每个单元格都有固定的地址
B、同列不同单元格的宽度可以不同
C、若干单元格构成工作表
D、同列不同单元格可以选择不同的数字分类

3、下列关于 Excel 公式或函数的说法中,错误的是(D )
A、公式中的乘、除号分别用*、/表示
B、公式复制后,被引用的地址有可能变化
C、公式必须以“=”号开头
D、函数“MAX(A1:C3)”引用了 4 个单元格

4、用鼠标拖放操作复制单元格数据时必须同时按住( C)
A、<Tab>
B、<Alt>
C、<Ctrl>
D、<Shift>

5、在 Exce1 工作表中,每个单元格都有唯一的编号叫地址,地址的使用方法是(B )
A、字母+数字
B、列标+行号
C、数字+字母
D、行号+列标

6、在 Exce1 操作中,假设 A1,B1,C1,D1 单元分别为 2,3,7,3,则 SUM(A1:C1)/D1 的值 为 (D )
A、15
B、18
C、3
D、4

7、Exce1 中有多个常用的简单函数,其中函数 AVERAGE(区域)的功能是( B)
A、求区域内数据的个数
B、求区城内所有数字的平均值
C、求区城内数字的和
D、返回函数的最大值

8、如果用预置小数的方法输入数据时,当设定小数位数是“2”时,输入 12345 表示 (D )
A、1234500
B、123.45
C、12345
D、12345.00

9、在 EXCEL 中,可使用( B)中的命令,给选定的单元格加边框
A、视图菜单
B、格式菜单
C、工具菜单
D、窗口菜单

10、在 EXCEL 中,如果我们只需要数据列表中记录的一部分时,可以使用 EXCEL 提 供的(B )功能
A、排序
B、自动筛选
C、分类汇总
D、以上全部

11、在关系型数据库中储蓄所有多个储户,储户在多个储蓄所存取款,储蓄所与 储户之间是 (D )
A、一对一的联系
B、一对多的联系
C、多对一的联系
D、多对多的联系

12、使用 SQL 语句进行分组检索时,为了去掉不满足条件的分组,应当 (B )
A、使用 WHERE 子句
B、在 GROUP BY 后面使用 HAVING 子句
C、先使用 WHERE 子句,再使用 HAVING 子句
D、先使用 HAVING 子句,再使用 WHERE 子句

13、在 SQL 语句中,与表达式”仓库号 NOT IN(”wh1”,”wh2”) 功能相同的表 达式是(D )
A、仓库号=”wh1” AND 仓库号=”wh2”
B、仓库号!=”wh1” OR 仓库号!= “wh2”
C、仓库号=”wh1” OR 仓库号=”wh2”
D、仓库号!=”wh1” AND 仓库号!=”wh2”

14、设有图书管理数据库: 图书(总编号C(6),分类号C(8),书名C(16),作者C(6),出版单位C(20),单价N(6,2)) 读者(借书证号 C(4),单位 C(8),姓名 C(6),性别 C(2),职称 C(6),地址 C(20)) 借阅(借书证号 C(4),总编号 C(6),借书日期 D(8)) 对于图书管理数据库,分别求出各个单位当前借阅图书的读者人次。下面的 SQL 语句正确的是 (A ) SELECT 单位,__ FROM 借阅,读者 WHERE;借阅.借书证号=读者.借书证号 __
A、COUNT(借阅.借书证号) ,GROUP BY 单位
B、SUM(借阅.借书证号) ,GROUP BY 单位
C、COUNT(借阅.借书证号), ORDER BY 单位
D、COUNT(借阅.借书证号) ,HAVING 单位

15、在 EXCEL 中,公式输入完后应按(A )
A、ENTER
B、CTRL+ENTER
C、SHIFT+ENTER
D、CTRL+SHIFT+ENTER

16、EXCEL 的主要功能有(B )
A、电子表格、文字处理、数据库
B、电子表格、图表、数据库
C、工作表、工作簿、图表
D、电子表格、工作簿、数据库

17、在 EXCEL 工作表中,当插入行或列时,后面的行或列将向(A )方向自动移动
A、向下或向右
B、向下或向左
C、向上或向右
D、向上或向左

18、在 EXCEL 中,创建公式的操作步骤有:①在编辑栏键入“=”;②键入公式; ③按 ENTER 键;④选择需要建立公式的单元格;其正确的顺序是(C )
A、①②③④
B、④①③②
C、④①②③
D、④③①②

19、在 EXCEL 中,当数据超过单元格的列宽,在单元格中显示的一组符号是(B ) A、?
B、#
C、%
D、*

20、以下选项中描述正确的是 (D )
A: 数据库设计是指设计数据库管理系统
B: 数据库系统中,数据的物理结构必须与逻辑结构一致
C: 数据库是一个独立的系统,不需要操作系统的支持
D: 数据库技术的根本目标是要解决数据共享的问题

21、EXCEL 中的数据类型有(D )
A、数值型
B、字符型
C、逻辑型
D、以上全部

22、在 excel 中,选定一个单元格后按 DEL 键,将被删除的是(B )
A、单元格
B、单元格中的内容
C、单元格中的内容及格式等
D、单元格所在的行

23、SQL 语言的数据操纵语句包括 SELECT、INSERT、UPDATE、DELETE 等。其 中最重要的,也是使用最频繁的语句是(B )。
A.UPDATE
B.SELECT
C.DELETE
D.INSERT

24、在 Excel 工作表的第 3 行第 4 列的单元格地址是(A )
A、D3
B、D4
C、3D
D、4D

25、excel 的每一个工作表最多可包含(C )列
A、255
B、254
C、256
C、没有限定

26、excel 的每一个工作表最多可包含(B )行
A、65535
B、65536
C、60000
D、65555

27、单元格中( C)
A、只能包含数字
B、只能包含文字
C、可以是数字、字符、公式等
D、以上都不是

28、如果要将一单元格中的公式计算结果数值复制到另一单元格中,应选择菜单 (B )
A、文件
B、编辑
C、格式
D、工具

29、数据独立性是数据库技术的重要特点之一,关于数据独立性,以下选项中描 述正确的是 (D )
A: 数据与程序独立存放
B: 不同数据只能被对应的应用程序所使用
C: 不同数据被存放在不同的文件中
D: 以上三种说法都不对

30、在同一个工作簿中要引用其他工作表某个单元格的数据(如 sheet8 单元格中 的数据),下面的表达方式中正确的是( A)
A、= sheet8!D8
B、=D8( sheet8)
C、+ sheet8!D8
D、$ sheet8>$D8

31、在 SQL 语言中,子查询是(D )。
A.选取单表中字段子集的查询语句
B.选取多表中字段子集的查询语句
C.返回单表中数据子集的查询语言
D.嵌入到另一个查询语句之中的查询语句

32、下面哪个函数可以返回逻辑值 TRUE ( B)
A、AND(TRUE, TRUE, FALSE)
B、OR(TRUE, TRUE, FALSE)
C、OR(FALSE, FALSE. FALSE)
D、NOT(TRUE)

33、若单元格 B2、C2、D2 的内容分别为 2800、89、88,单元格 E2 中有函数 “ =IF(AND(B2>2000,OR(C2>90,D2>90),” 五 星”,IF(AND(B2>1800,OR(C2>85,D2>85)),”四星”,”三星”))”则最终单元格 E2 中显示 的内容为 (C )
A、出错
B、三星
C、四星
D、五星

34、若在单元格中输入函数 MOD(7,-2),则单元格会显示(A )
A、-1
B、1
B、-3
D、3

35、函数 find(“t”,”yesterday after tomarrow”,5)返回(B )
A、4
B、13
C、17
D、20

36、在视图上不能完成的操作是(B )
A.查询
B.在视图上定义新的视图
C.更新视图
D.在视图上定义新的表

37、下列不能从“yesterday“中取出字符串”yes“的函数是(C )
A、MID(“yesterday”,1,3)
B、LEFT(“yesterday”,3)
C、MIDB(“yesterday”,1,6)
D、RIGHT(MID(“yesterday”,1,3),3)

38、函数 COLUMNE(B1:E5)返回( C)
A、1
B、2
C、4
D、5

39、在下列哪种情况下需要引用绝对地址 ( D)
A、当把一个含有单元格地址的公式拷贝到一个新的位置时,为使公式中单元格地 址随新位置而变化
B、当在引用的函数中填入一个范围时,为使函数中的范围随地址位置不同而变化
C、当把一个含有范围的公式或函数拷贝到一个新的位置时,为使公式或函数中范 围随新位置不同而变化
D、当把一个含有范围的公式或函数拷贝到一个新的位置时,为使公式或函数中范 围不随新位置不同而变化

40、以下选项中说法错误的是 (C )
A: DML 是数据操纵语言
B: DCL 是数据控制语言
C: DBMS 是数据库系统
D: DDL 是数据定义语言

41、cloudera 提供哪几种安装 CDH 方法( D )。
· 1)Cloudera manager
· 2)Tarball
· 3)Yum
· 4)Rpm
A.1,2
B.1,2,3
C. 1,2,4
D. 1,2,3,4

42、下面哪个端口不是 spark 自带服务的端口 (C )
A.8080
B.4040
C.8090
D.18080

43、Spark Job 默认的调度模式 (A )
A FIFO
B FAIR
C 无
D 运行时指定

44、哪个不是本地模式运行的个条件 ( D )
A spark.localExecution.enabled=true
B 显式指定本地运行
C finalStage 无父 Stage
D partition 默认值

45、下面哪个不是 RDD 的特点 ( C )
A.可分区
B 可序列化
C 可修改
D 可持久化

46、关于广播变量,下面哪个是错误的 ( D )
A 任何函数调用
B 是只读的
C 存储在各个节点
D 存储在磁盘或 HDFS

47、关于累加器,下面哪个是错误的 (D )
A 支持加法
B 支持数值类型
C 可并行
D 不支持自定义类型

48、Spark 支持的分布式部署方式中哪个是错误的 (D )
A standalone
B spark on mesos
C spark on YARN
D Spark on local

49、Stage 的 Task 的数量由什么决定 (A )
A Partition
B Job
C Stage
D TaskScheduler

50、下面哪个操作肯定是宽依赖 ( C )
A map
B flatMap
C reduceByKey
D sample

51、下列哪项不可以作为集群的管理?( D )
A、Puppet
B、Pdsh
C、Cloudera Manager
D、Zookeeper

52、Spark Streaming 和 Storm 有何区别?? ( B )
A.一个实时毫秒一个准实时亚秒,不过 Spark Streaming 的吞吐率比较低
B.一个实时毫秒一个准实时亚秒,不过 storm 的吞吐率比较低
C.一个准实时亚秒一个实时毫秒,不过 storm 的吞吐率比较低
D.一个准实时亚秒一个实时毫秒,不过 park Streaming 的吞吐率比较低

53、ETL 过程中四个基本的过程分别是什么? ( A )
A、抽取(extract)、清洗(clean)、一致性处理(comform)和交付(delivery), 简称为 ECCD
B、抽取(extract)、清洗(clean)、交付(delivery)和一致性处理(comform), 简称为 ECDC
C、抽取(extract)、一致性处理(comform)、清洗(clean)、和交付(delivery), 简称为 ECCD

54、读取源系统的数据模型,连接并访问源系统的数据,变化数据捕获,抽取 数据到数据准备区。以上四项功能是属于 ETL 哪个阶段的任务?( C )
A、一致性
B、清洗
C、抽取
D、交付

55、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C )
A、频繁模式挖掘
B、分类和预测
C、数据预处理
D、数据流挖掘

第二部分:问答题(4 题,共 20 分)
问题一、什么是 Tableau?如何从 Tableau 中的提取?
参考答案: Tableau 是一种商业智能软件,允许任何人连接到相应的数据,然后可视化并创 建交互式的可共享仪表板。 可用于提高性能和离线分析的数据源的已保存子集。

问题二、叙述 tableau 的优势 参考答案:
1)、什么都能连:都能连,不能直连的也可通过 odbc 来连
2)、学习门槛低:官方有最新版本的视频、文本、案例提供。
3)、轻量级:简单拖拉拽就能快速创建一个报表
4)、更智能,比如自动识别维度和度量、自动求和、自动识别关联条件
5)、给人亲切感:能找到 excel、PPT 及其他数据分析工具的身影,功能类似
6)、丰富的图表展示

问题三、存储过程有什么优点?
参考答案: 存储过程或者函数可以重复使用,可以减少数据库开发人员,尤其是应用程序开 发人员的工作量。 使用存储过程或者函数可以增强数据的安全访问控制。可以设定只有某些数据库 用户才具有某些存储过程或者函数的执行权。

问题四、请简述 cloudera manager 有哪四大功能:?
参考答案:
(1)管理:对集群进行管理,如添加、删除节点等操作。
(2)监控:监控集群的健康情况,对设置的各种指标和系统运行情况进行全面 监控。
(3)诊断:对集群出现的问题进行诊断,对出现的问题给出建议解决方案。
(4)集成:对 hadoop 的多组件进行整合。

问题五、实时数据统计会用到哪些技术,他们各自的应用场景及区别是什么?
参考答案:
flume:日志收集系统,主要用于系统日志的收集
kafka:消息队列,进行消息的缓存和系统的解耦
storm:实时计算框架,进行流式的计算。

参考答案: 1-5 CBDCB 6-10 DBDBB 11-15 DBDAA 16-20 BACBD 21-25 DBBAC 26-30 BCBDA 31-35 DBCAB 36-40 BCCDC 41-45 DCADC 46-50DDDAC 51-55DBACC



关注TinyMeng博客,更多精彩分享,敬请期待!
 

很赞哦! ()