分布式(hadoop)内核研发面试指南

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
云数据库 MongoDB,通用型 2核4GB
简介: 最近一直在看简历,面试同学,发现符合要求的很少。本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。 如果 以下的问题不能很好回答,还是多多学习啊。

最近一直在看简历,面试同学,发现符合要求的很少。本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。

如果 以下的问题不能很好回答,还是多多学习啊。 如果很好回答,对阿里云有兴趣,欢迎找我。

面试:

基础能力

这里涉及一般为

  • 语言基础知识(一般需要在某语言2年以上经验)
  • 比如:JVM的GC算法,JAVA多线程并发机制,线程安全机制,OOM咋办,core了咋办
  • 算法基础知识,冒泡排序、链表、树、线性回归……
  • 分布式理论:数据分布方式、Lease机制、日志技术、两阶段提交、CAP理论、Quorum机制
  • 操作系统

……

复杂工程能力

  • 就是有没有做过,多人协作的项目
  • 你在其中什么角色? 一般项目有啥难点,遇到难点怎么办?

逻辑思维能力及表达能力

  • 考查思维,思路。需要清楚的回答上述的一些问题,不卑不亢。

潜力

  • 就是发展潜力,如果人比较有冲劲,思维比较活跃,目标明确,对未来规划也比较明确,潜力就比较大

稳定性(我们更加看重持续发展的同学,不是打一枪就跑了)

  • 为什么你要从这家公司离职?
  • 你打算进来,2年后,你想有什么样的改变?

hadoop相关(专家级,一般是开放式的)

比如:

  • 分析时数据倾斜了怎么办?
  • hdfs写的链路是啥?
  • 集群的利用率不高,为什么?怎么调查?
  • hbase二级索引是咋回事情?
  • 数据高可靠,服务高可用怎么做?
  • system占用率比较高,一般啥原因?
  • 如果让你设计一个spark,你打算怎么设计?
  • 流式计算怎么流控?
  • 实时计算与离线怎么混合部署?
  • 一车分布式理论的知识?

笔试:

主要考察编码能力,一般来讲,经常写代码的同学可能比较上手。
一般为5个题目,其中有2个算法题目。笔试过的同学80%都说比较简单,但是做起来就是不太理想。这个要注意平时写代码要记住关键的词(因为写代码没有自动补全,基本就是纸上或者在记事本上写的)

加分项

  • 一直在写技术博客,比如:flink源码分析
  • 参与社区项目开发,比如:贡献spark、hbase源码
  • 发表顶级论文

HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入:https://dwz.cn/Fvqv066s
相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
14天前
|
监控 负载均衡 Cloud Native
ZooKeeper分布式协调服务详解:面试经验与必备知识点解析
【4月更文挑战第9天】本文深入剖析ZooKeeper分布式协调服务原理,涵盖核心概念如Server、Client、ZNode、ACL、Watcher,以及ZAB协议在一致性、会话管理、Leader选举中的作用。讨论ZooKeeper数据模型、操作、会话管理、集群部署与管理、性能调优和监控。同时,文章探讨了ZooKeeper在分布式锁、队列、服务注册与发现等场景的应用,并在面试方面分析了与其它服务的区别、实战挑战及解决方案。附带Java客户端实现分布式锁的代码示例,助力提升面试表现。
30 2
|
3月前
|
分布式计算 Ubuntu Hadoop
百度搜索:蓝易云【Ubuntu搭建全分布式Hadoop】
请注意,以上只是概述,并不包含详细的步骤和指令。搭建全分布式Hadoop是一个复杂的过程,需要对Hadoop的架构和配置有深入的理解,并熟悉Linux系统管理。建议在搭建全分布式Hadoop之前,先学习相关知识并查阅官方文档和教程,以确保正确搭建和配置Hadoop集群。
27 0
|
14天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
2天前
|
存储 分布式计算 Hadoop
基于Hadoop分布式数据库HBase1.0部署及使用
基于Hadoop分布式数据库HBase1.0部署及使用
|
15天前
|
分布式计算 资源调度 监控
Hadoop生态系统深度剖析:面试经验与必备知识点解析
本文深入探讨了Hadoop生态系统的面试重点,涵盖Hadoop架构、HDFS、YARN和MapReduce。了解Hadoop的主从架构、HDFS的读写流程及高级特性,YARN的资源管理与调度,以及MapReduce编程模型。通过代码示例,如HDFS文件操作和WordCount程序,帮助读者巩固理解。此外,文章强调在面试中应结合个人经验、行业动态和技术进展展示技术实力。
|
18天前
|
存储 NoSQL Java
分布式锁,Redission,其它实现问题讲解,以及面试题回答案例
分布式锁,Redission,其它实现问题讲解,以及面试题回答案例
30 1
|
1月前
|
消息中间件 缓存 负载均衡
这些年背过的面试题——分布式篇
本文是技术人面试系列分布式篇,面试中关于分布式都需要了解哪些基础?一文带你详细了解,欢迎收藏!
140 1
这些年背过的面试题——分布式篇
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop分布式
基于Java的分布式计算平台,旨在处理海量数据。【2月更文挑战第19天】
25 2
|
3月前
|
设计模式 Java 关系型数据库
BAT等大厂年薪30W+面试清单:JVM\MySQL\设计模式\分布式\微服务
疫情影响下招聘名额缩减不少,但阿里、腾讯、抖音、快手等互联网公司却加快了人才招聘的节奏。这里根据自身的实际经历,整理了一份面试这些大厂的清单,希望能帮助到大家查漏补缺,攻克面试难关。
|
3月前
|
缓存 NoSQL Java
毕业季-Java分布式开发面试题
毕业季-Java分布式开发面试题