您的位置 首页 java

最全腾讯等BAT大数据面试99题:hadoop、java、spark、机器算法等

以下是面试腾讯等 BAT 公司所做的大数据面试题汇总,主要包括以下几大类:

一、 spark 相关

1.Spark的Shuffle原理及调优?

2. Hadoop 和spark使用场景?

3.spark如何保证宕机迅速恢复?

4.hadoop和spark的相同点和不同点?

5. RDD 持久化原理?

6.checkpoint检查点机制?

7.checkpoint和持久化机制的区别?

8.Spark Streaming和Storm有何区别?

9.RDD机制?

10.Spark streaming以及基本工作原理?

11.DStream以及基本工作原理?

12.spark有哪些组件?

13.spark工作机制?

14.Spark工作的一个流程?

15.spark核心编程原理?

16.spark基本工作原理?

17.spark性能优化有哪些?

18.updateStateByKey详解?

19.宽依赖和窄依赖?

20.spark streaming中有状态转化操作?

21.spark常用的计算框架?

22.spark整体架构?

23.Spark的特点是什么?

24.搭建spark集群步骤?

25.Spark的三种提交模式是什么?

26..spark内核架构原理?

27.Spark yarn-cluster架构?

28.Spark yarn-client架构?

29.SparkContext初始化原理?

30.Spark主备切换机制原理剖析?

31.spark支持故障恢复的方式?

32.spark解决了hadoop的哪些问题?

33.数据倾斜的产生和解决办法?

34.spark 实现高可用性:High Availability?

35.spark实际工作中,是怎么来根据任务量,判定需要多少资源的?

36.spark中怎么解决内存泄漏问题?

二、hadoop

1.讲述 HDFS 上传文件和读文件的流程?

2.HDFS在上传文件的时候,如果其中一个块突然损坏了怎么办?

3. NameNode 的作用?

4.NameNode在启动的时候会做哪些操作?

5.NameNode的HA?

6.Hadoop的作业提交流程?

7.Hadoop怎么分片?

8.如何减少Hadoop Map端到Reduce端的数据传输量?

9.Hadoop的Shuffle?

10.哪些场景才能使用Combiner呢?

11.HMaster的作用?

12.如何实现hadoop的安全机制?

13.hadoop的调度策略的实现,你们使用的是那种策略,为什么?

14.数据倾斜怎么处理?

15.评述hadoop运行原理?

16.简答说一下hadoop的map-reduce编程模型?

17.hadoop的TextInputFormat作用是什么,如何自定义实现?

18.map-reduce程序运行的时候会有什么比较常见的问题?

19.Hadoop平台集群配置、环境变量设置?

20.Hadoop性能调优?

21.Hadoop高并发?

三、 HBase

1.HBase的操作数据的步骤?

2.HDFS和HBase各自使用场景?

3.热点现象及解决办法?

4.RowKey的设计原则?

5.hbase.hregion.max.filesize应该设置多少合适?

6.autoflush=false的影响?

8.Hbase行健列族的概念,物理模型,表的设计原则?

9.HBase存储单元Cell?

10.HBase物理模型?

11.HBase的客户端Client?

12.HBase二级索引?

四、 hive

1. hadoop中两个大表实现join的操作,简单描述?

2.Hive中存放是什么?

3.Hive与 关系型数据库 的关系?

4.讲一下数据库,SQl ,左外连接, 原理,实现?

5.大表和小表join?

6. 数据清洗怎么做的?怎么用spark做数据清洗?

7. Hadoop中二次排序怎么做?

8. hadoop常见的join操作?

9. hive优化有哪些?

10. 分析函数?

五、 Java

1.讲讲 多线程 吧,要是你,你怎么实现一个 线程池 呢?

2.项目用什么语言写? Scala ? Scala的特点? 和Java的区别?

3.平时对多线程这方面是怎么处理呢?

4.什么是 jvm

5.jvm怎么调优的?

6.jvm结构?堆里面几个区?

7. jdbc ?mysql的驱动包名字叫什么?

8.java自带有哪几种线程池?

9. GC机制?

10. 使用泛型的好处?

11.HashMap?

12.Java多线程的状态?

六、机器学习 算法

1.简要描述你知道的 数据挖掘算法 和使用场景?

2.mllib支持的算法?

3.ALS算法原理?

4. kmeans 算法原理?

5.canopy算法原理?

6.朴素贝叶斯分类算法原理?

7.关联规则挖掘算法apriori原理?

结束语:大量粉丝还没有养成阅读后点赞的习惯,希望大家在阅读后顺便点赞,如果喜欢,也请分享给身边的朋友,以示对我们的鼓励!

文章来源:智云一二三科技

文章标题:最全腾讯等BAT大数据面试99题:hadoop、java、spark、机器算法等

文章地址:https://www.zhihuclub.com/191195.shtml

关于作者: 智云科技

热门文章

网站地图