計(jì)算機(jī)四級網(wǎng)絡(luò)工程師試題結(jié)構(gòu),計(jì)算機(jī)四級網(wǎng)絡(luò)工程師考試題型
建造師
- 結(jié)構(gòu)工程師
- 2025-03-04
- 12
公司A:
1.講講你做的過的項(xiàng)目。 項(xiàng)目里有哪些 難點(diǎn)重點(diǎn)注意點(diǎn)呢?
2.講講多線程吧, 要是你,你怎么實(shí)現(xiàn)一個線程池呢?
3.講一下Mapreduce或者h(yuǎn)dfs的原理和機(jī)制。map讀取數(shù)據(jù)分片。
4.shuffle 是什么? 怎么調(diào)優(yōu)?
5.項(xiàng)目用什么語言寫? Scala? Scala的特點(diǎn)? 和Java的區(qū)別?
6.理論基礎(chǔ)怎么樣,比如數(shù)據(jù)結(jié)構(gòu),里面的快速排序,或者,樹? 講一講你了解的樹的知識?
7.數(shù)學(xué)怎么樣呢?
8.講一下數(shù)據(jù)庫,SQl ,左外連接, 原理,實(shí)現(xiàn)?
9.還了解過數(shù)據(jù)的什么知識? 數(shù)據(jù)庫引擎?
10.Hadoop的機(jī)架怎么配置的?
11.Hbase的設(shè)計(jì)有什么心得?
12.Hbase的操作是用的什么API還是什么工具?
13.對調(diào)度怎么理解.? 用什么工具嗎?
14.用kettle 這種工具還是 自己寫程序? 你們公司是怎么做的?
15.你們數(shù)據(jù)中心開發(fā)周期是多長?
16.你們hbase里面是存一些什么數(shù)據(jù)。
二面。三個人。
1.講講你做的項(xiàng)目。
2.平時 對多線程 這方面是怎么處理呢? 異步 是怎么思考呢? 遇到的一些鎖啊, 是怎么做的呢? 比如兩個人同時操作一樣?xùn)|西。怎么做的呢?一些并發(fā)操作設(shè)計(jì)到一些變量怎么做的呢?
3.你們用的最多是 http協(xié)議吧? 有沒有特殊的頭呢? 講講 你對tcp/ip的理解?
4.有沒有用過Zookeeper呢? Zookeeper的適用場景是什么? HA 狀態(tài)維護(hù) 分布式鎖 全局配置文件管理 操作Zookeeper是用的什么?
Spark方面:
5.spark開發(fā)分兩個方面?哪兩個方面呢?
6.比如 一個讀取hdfs上的文件,然后count有多少行的操作,你可以說說過程嗎。那這個count是在內(nèi)存中,還是磁盤中計(jì)算的呢?磁盤中。
7.spark和Mapreduce快? 為什么快呢? 快在哪里呢? 1.內(nèi)存迭代。2.RDD設(shè)計(jì)。 3,算子的設(shè)計(jì)。
8.spark sql又為什么比hive快呢?
10.RDD的數(shù)據(jù)結(jié)構(gòu)是怎么樣的? Partition數(shù)組。 dependence
11.hadoop的生態(tài)呢。說說你的認(rèn)識。 hdfs底層存儲 hbase 數(shù)據(jù)庫 hive數(shù)據(jù)倉庫 Zookeeper分布式鎖 spark大數(shù)據(jù)分析
公司B:
1.Spark工作的一個流程。
提交任務(wù)。
QQ圖片20161019131411.png
用戶提交一個任務(wù)。 入口是從sc開始的。 sc會去創(chuàng)建一個taskScheduler。根據(jù)不同的提交模式, 會根據(jù)相應(yīng)的taskchedulerImpl進(jìn)行任務(wù)調(diào)度。
同時會去創(chuàng)建Scheduler和DAGScheduler。DAGScheduler 會根據(jù)RDD的寬依賴或者窄依賴,進(jìn)行階段的劃分。劃分好后放入taskset中,交給taskscheduler 。
appclient會到master上注冊。首先會去判斷數(shù)據(jù)本地化,盡量選最好的本地化模式去執(zhí)行。
打散 Executor選擇相應(yīng)的Executor去執(zhí)行。ExecutorRunner會去創(chuàng)建CoarseGrainerExecutorBackend進(jìn)程。 通過線程池的方式去執(zhí)行任務(wù)。
反向:
Executor向 SchedulerBackend反向注冊
Spark On Yarn模式下。 driver負(fù)責(zé)計(jì)算調(diào)度。appmaster 負(fù)責(zé)資源的申請。
2.Hbase的PUT的一個過程。
3.RDD算子里操作一個外部map比如往里面put數(shù)據(jù)。然后算子外再遍歷map。有什么問題嗎。
4.shuffle的過程。調(diào)優(yōu)。
5.5個partition里面分布有12345678910.用算子求最大值或者和。不能用廣播變量和累加器?;蛘遱ortbykey.
6.大表和小表join.
7.知道spark怎么讀hbase嗎?spark on hbase.。華為的。
8.做過hbase的二級索引嗎?
9.sort shuffle的優(yōu)點(diǎn)?
10.stage怎么劃分的? 寬依賴窄依賴是什么?
公司W(wǎng):
1.講講你做過的項(xiàng)目(一個整體思路)
2.問問大概情況。公司里集群規(guī)模。hbase數(shù)據(jù)量。數(shù)據(jù)規(guī)模。
3.然后挑選數(shù)據(jù)工廠開始詳細(xì)問。問hbase.。加閑聊。
4.問二次排序是什么。topn是什么。二次排序要繼承什么接口?
5.計(jì)算的數(shù)據(jù)怎么來的。
6.kakfadirect是什么,。為什么要用這個,有什么優(yōu)點(diǎn)?。和其他的有什么區(qū)別。
/**
* Create an input stream that directly pulls messages from Kafka Brokers
* without using any receiver. This stream can guarantee that each message
* from Kafka is included in transformations exactly once (see points below).
*
* Points to note:
* - No receivers: This stream does not use any receiver. It directly queries Kafka
* - Offsets: This does not use Zookeeper to store offsets. The consumed offsets are tracked
* by the stream itself. For interoperability with Kafka monitoring tools that depend on
* Zookeeper, you have to update Kafka/Zookeeper yourself from the streaming application.
* You can access the offsets used in each batch from the generated RDDs (see
* [[org.apache.spark.streaming.kafka.HasOffsetRanges]]).
* - Failure Recovery: To recover from driver failures, you have to enable checkpointing
* in the [[StreamingContext]]. The information on consumed offset can be
* recovered from the checkpoint. See the programming guide for details (constraints, etc.).
* - End-to-end semantics: This stream ensures that every records is effectively received and
* transformed exactly once, but gives no guarantees on whether the transformed data are
* outputted exactly once. For end-to-end exactly-once semantics, you have to either ensure
* that the output operation is idempotent, or use transactions to output records atomically.
* See the programming guide for more details.
*
* @param ssc StreamingContext object
* @param kafkaParams Kafka * configuration parameters. Requires "metadata.broker.list" or "bootstrap.servers"
* to be set with Kafka broker(s) (NOT zookeeper servers) specified in
* host1:port1,host2:port2 form.
* @param fromOffsets Per-topic/partition Kafka offsets defining the (inclusive)
* starting point of the stream
* @param messageHandler Function for translating each message and metadata into the desired type
*/
7.問了shuffle過程。
8.怎么調(diào)優(yōu)的,jvm怎么調(diào)優(yōu)的?
9.jvm結(jié)構(gòu)?堆里面幾個區(qū)?
10.數(shù)據(jù)清洗怎么做的?
11.怎么用spark做數(shù)據(jù)清洗
12.跟我聊了spark的應(yīng)用,商場里廣告投放,以及黃牛檢測
13.spark讀取 數(shù)據(jù),是幾個Partition呢? hdfs幾個block 就有幾個 Partition?
14.spark on yarn的兩種模式? client 模式? 和cluster模式?
15.jdbc?mysql的驅(qū)動包名字叫什么?
16.region多大會分區(qū)?
公司Q
1.說說Mapreduce?一整個過程的理解。講一下。
2.hbase存數(shù)據(jù)用什么rowkey?加時間戳的話,會不會出現(xiàn)時間戳重復(fù)的問題,怎么做的呢?
3.Spring的兩大模塊? AOP,IOC在你們項(xiàng)目中分別是怎么用的呢?
4.你們集群的規(guī)模, 數(shù)據(jù)量?
公司M
1.畫圖,畫Spark的工作模式,部署分布架構(gòu)圖
2.畫圖,畫圖講解spark工作流程。以及在集群上和各個角色的對應(yīng)關(guān)系。
3.java自帶有哪幾種線程池。
4.數(shù)據(jù)是怎么收集的。 kafka收集數(shù)據(jù)的原理?
5.畫圖,講講shuffle的過程。那你怎么在編程的時候注意避免這些性能問題。
6.講講列式存儲的 parquet文件底層格式。
7.dataset和dataframe?
8.通過什么方式學(xué)習(xí)spark的?
9.有哪些數(shù)據(jù)傾斜,怎么解決?
10.寬依賴窄依賴?
11.yarn的原理?
12.BlockManager怎么管理硬盤和內(nèi)存的。
13.哪些算子操作涉及到shuffle
14.看過源碼? 你熟悉哪幾個部分的源碼?
15.集群上 nodemanager和ResourceManager的數(shù)量關(guān)系?
16.spark怎么整合hive? 大概這樣。 spark on hive 。 hive還是hive 執(zhí)行引擎是spark。
其他人的:
1.Spark如何處理結(jié)構(gòu)化數(shù)據(jù),Spark如何處理非結(jié)構(gòu)話數(shù)據(jù)?
2.Spark性能優(yōu)化主要有哪些手段?
3.簡要描述Spark分布式集群搭建的步驟
4.對于Spark你覺得他對于現(xiàn)有大數(shù)據(jù)的現(xiàn)狀的優(yōu)勢和劣勢在哪里?
5.對于算法是否進(jìn)行過自主的研究設(shè)計(jì)?
6.簡要描述你了解的一些數(shù)據(jù)挖掘算法與內(nèi)容 基本我有印象的就這幾個問題,聊了2個多小時,腦子都差點(diǎn)被問干了
圖文來自網(wǎng)絡(luò)、如涉及版權(quán)問題,請聯(lián)系我們以便處理。文章內(nèi)容純屬作者個人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)。
免責(zé)聲明: 本站提供的任何內(nèi)容版權(quán)均屬于相關(guān)版權(quán)人和權(quán)利人,如有侵犯你的版權(quán)。 請來信指出,我們將于第一時間刪除! 所有資源均由免費(fèi)公共網(wǎng)絡(luò)整理而來,僅供學(xué)習(xí)和研究使用。請勿公開發(fā)表或 用于商業(yè)用途和盈利用途。
本文鏈接:http://dsdealer.com/jiegou/31294.html
發(fā)表評論