當(dāng)前位置:首頁 > 結(jié)構(gòu)工程師 > 正文

計(jì)算機(jī)四級網(wǎng)絡(luò)工程師試題結(jié)構(gòu),計(jì)算機(jī)四級網(wǎng)絡(luò)工程師考試題型

  公司A:

  1.講講你做的過的項(xiàng)目。 項(xiàng)目里有哪些 難點(diǎn)重點(diǎn)注意點(diǎn)呢?

  2.講講多線程吧, 要是你,你怎么實(shí)現(xiàn)一個線程池呢?

  3.講一下Mapreduce或者h(yuǎn)dfs的原理和機(jī)制。map讀取數(shù)據(jù)分片。

  4.shuffle 是什么? 怎么調(diào)優(yōu)?

  5.項(xiàng)目用什么語言寫? Scala? Scala的特點(diǎn)? 和Java的區(qū)別?

  6.理論基礎(chǔ)怎么樣,比如數(shù)據(jù)結(jié)構(gòu),里面的快速排序,或者,樹? 講一講你了解的樹的知識?

  7.數(shù)學(xué)怎么樣呢?

  8.講一下數(shù)據(jù)庫,SQl ,左外連接, 原理,實(shí)現(xiàn)?

  9.還了解過數(shù)據(jù)的什么知識? 數(shù)據(jù)庫引擎?

  10.Hadoop的機(jī)架怎么配置的?

  11.Hbase的設(shè)計(jì)有什么心得?

  12.Hbase的操作是用的什么API還是什么工具?

  13.對調(diào)度怎么理解.? 用什么工具嗎?

  14.用kettle 這種工具還是 自己寫程序? 你們公司是怎么做的?

  15.你們數(shù)據(jù)中心開發(fā)周期是多長?

  16.你們hbase里面是存一些什么數(shù)據(jù)。

  二面。三個人。

  1.講講你做的項(xiàng)目。

  2.平時 對多線程 這方面是怎么處理呢? 異步 是怎么思考呢? 遇到的一些鎖啊, 是怎么做的呢? 比如兩個人同時操作一樣?xùn)|西。怎么做的呢?一些并發(fā)操作設(shè)計(jì)到一些變量怎么做的呢?

  3.你們用的最多是 http協(xié)議吧? 有沒有特殊的頭呢? 講講 你對tcp/ip的理解?

計(jì)算機(jī)四級網(wǎng)絡(luò)工程師試題結(jié)構(gòu),計(jì)算機(jī)四級網(wǎng)絡(luò)工程師考試題型  第1張

  4.有沒有用過Zookeeper呢? Zookeeper的適用場景是什么? HA 狀態(tài)維護(hù) 分布式鎖 全局配置文件管理 操作Zookeeper是用的什么?

  Spark方面:

  5.spark開發(fā)分兩個方面?哪兩個方面呢?

  6.比如 一個讀取hdfs上的文件,然后count有多少行的操作,你可以說說過程嗎。那這個count是在內(nèi)存中,還是磁盤中計(jì)算的呢?磁盤中。

  7.spark和Mapreduce快? 為什么快呢? 快在哪里呢? 1.內(nèi)存迭代。2.RDD設(shè)計(jì)。 3,算子的設(shè)計(jì)。

  8.spark sql又為什么比hive快呢?

  10.RDD的數(shù)據(jù)結(jié)構(gòu)是怎么樣的? Partition數(shù)組。 dependence

  11.hadoop的生態(tài)呢。說說你的認(rèn)識。 hdfs底層存儲 hbase 數(shù)據(jù)庫 hive數(shù)據(jù)倉庫 Zookeeper分布式鎖 spark大數(shù)據(jù)分析

  

  公司B:

  1.Spark工作的一個流程。

  提交任務(wù)。

  QQ圖片20161019131411.png

  用戶提交一個任務(wù)。 入口是從sc開始的。 sc會去創(chuàng)建一個taskScheduler。根據(jù)不同的提交模式, 會根據(jù)相應(yīng)的taskchedulerImpl進(jìn)行任務(wù)調(diào)度。

  同時會去創(chuàng)建Scheduler和DAGScheduler。DAGScheduler 會根據(jù)RDD的寬依賴或者窄依賴,進(jìn)行階段的劃分。劃分好后放入taskset中,交給taskscheduler 。

  appclient會到master上注冊。首先會去判斷數(shù)據(jù)本地化,盡量選最好的本地化模式去執(zhí)行。

  打散 Executor選擇相應(yīng)的Executor去執(zhí)行。ExecutorRunner會去創(chuàng)建CoarseGrainerExecutorBackend進(jìn)程。 通過線程池的方式去執(zhí)行任務(wù)。

  反向:

  Executor向 SchedulerBackend反向注冊

  Spark On Yarn模式下。 driver負(fù)責(zé)計(jì)算調(diào)度。appmaster 負(fù)責(zé)資源的申請。

  2.Hbase的PUT的一個過程。

  3.RDD算子里操作一個外部map比如往里面put數(shù)據(jù)。然后算子外再遍歷map。有什么問題嗎。

  4.shuffle的過程。調(diào)優(yōu)。

  5.5個partition里面分布有12345678910.用算子求最大值或者和。不能用廣播變量和累加器?;蛘遱ortbykey.

  6.大表和小表join.

  7.知道spark怎么讀hbase嗎?spark on hbase.。華為的。

  8.做過hbase的二級索引嗎?

  9.sort shuffle的優(yōu)點(diǎn)?

  10.stage怎么劃分的? 寬依賴窄依賴是什么?

  公司W(wǎng):

  1.講講你做過的項(xiàng)目(一個整體思路)

  2.問問大概情況。公司里集群規(guī)模。hbase數(shù)據(jù)量。數(shù)據(jù)規(guī)模。

  3.然后挑選數(shù)據(jù)工廠開始詳細(xì)問。問hbase.。加閑聊。

  4.問二次排序是什么。topn是什么。二次排序要繼承什么接口?

  5.計(jì)算的數(shù)據(jù)怎么來的。

  6.kakfadirect是什么,。為什么要用這個,有什么優(yōu)點(diǎn)?。和其他的有什么區(qū)別。

計(jì)算機(jī)四級網(wǎng)絡(luò)工程師試題結(jié)構(gòu),計(jì)算機(jī)四級網(wǎng)絡(luò)工程師考試題型  第2張

  /**

  * Create an input stream that directly pulls messages from Kafka Brokers

  * without using any receiver. This stream can guarantee that each message

  * from Kafka is included in transformations exactly once (see points below).

  *

  * Points to note:

  * - No receivers: This stream does not use any receiver. It directly queries Kafka

  * - Offsets: This does not use Zookeeper to store offsets. The consumed offsets are tracked

  * by the stream itself. For interoperability with Kafka monitoring tools that depend on

  * Zookeeper, you have to update Kafka/Zookeeper yourself from the streaming application.

  * You can access the offsets used in each batch from the generated RDDs (see

  * [[org.apache.spark.streaming.kafka.HasOffsetRanges]]).

  * - Failure Recovery: To recover from driver failures, you have to enable checkpointing

  * in the [[StreamingContext]]. The information on consumed offset can be

  * recovered from the checkpoint. See the programming guide for details (constraints, etc.).

  * - End-to-end semantics: This stream ensures that every records is effectively received and

  * transformed exactly once, but gives no guarantees on whether the transformed data are

  * outputted exactly once. For end-to-end exactly-once semantics, you have to either ensure

  * that the output operation is idempotent, or use transactions to output records atomically.

  * See the programming guide for more details.

  *

  * @param ssc StreamingContext object

  * @param kafkaParams Kafka * configuration parameters. Requires "metadata.broker.list" or "bootstrap.servers"

  * to be set with Kafka broker(s) (NOT zookeeper servers) specified in

  * host1:port1,host2:port2 form.

  * @param fromOffsets Per-topic/partition Kafka offsets defining the (inclusive)

  * starting point of the stream

  * @param messageHandler Function for translating each message and metadata into the desired type

  */

  7.問了shuffle過程。

  8.怎么調(diào)優(yōu)的,jvm怎么調(diào)優(yōu)的?

  9.jvm結(jié)構(gòu)?堆里面幾個區(qū)?

  10.數(shù)據(jù)清洗怎么做的?

  11.怎么用spark做數(shù)據(jù)清洗

  12.跟我聊了spark的應(yīng)用,商場里廣告投放,以及黃牛檢測

  13.spark讀取 數(shù)據(jù),是幾個Partition呢? hdfs幾個block 就有幾個 Partition?

  14.spark on yarn的兩種模式? client 模式? 和cluster模式?

  15.jdbc?mysql的驅(qū)動包名字叫什么?

  16.region多大會分區(qū)?

  公司Q

  1.說說Mapreduce?一整個過程的理解。講一下。

  2.hbase存數(shù)據(jù)用什么rowkey?加時間戳的話,會不會出現(xiàn)時間戳重復(fù)的問題,怎么做的呢?

  3.Spring的兩大模塊? AOP,IOC在你們項(xiàng)目中分別是怎么用的呢?

  4.你們集群的規(guī)模, 數(shù)據(jù)量?

  公司M

  1.畫圖,畫Spark的工作模式,部署分布架構(gòu)圖

  2.畫圖,畫圖講解spark工作流程。以及在集群上和各個角色的對應(yīng)關(guān)系。

  3.java自帶有哪幾種線程池。

  4.數(shù)據(jù)是怎么收集的。 kafka收集數(shù)據(jù)的原理?

  5.畫圖,講講shuffle的過程。那你怎么在編程的時候注意避免這些性能問題。

  6.講講列式存儲的 parquet文件底層格式。

  7.dataset和dataframe?

  8.通過什么方式學(xué)習(xí)spark的?

  9.有哪些數(shù)據(jù)傾斜,怎么解決?

  10.寬依賴窄依賴?

  11.yarn的原理?

  12.BlockManager怎么管理硬盤和內(nèi)存的。

  13.哪些算子操作涉及到shuffle

  14.看過源碼? 你熟悉哪幾個部分的源碼?

  15.集群上 nodemanager和ResourceManager的數(shù)量關(guān)系?

  16.spark怎么整合hive? 大概這樣。 spark on hive 。 hive還是hive 執(zhí)行引擎是spark。

  其他人的:

  1.Spark如何處理結(jié)構(gòu)化數(shù)據(jù),Spark如何處理非結(jié)構(gòu)話數(shù)據(jù)?

  2.Spark性能優(yōu)化主要有哪些手段?

  3.簡要描述Spark分布式集群搭建的步驟

  4.對于Spark你覺得他對于現(xiàn)有大數(shù)據(jù)的現(xiàn)狀的優(yōu)勢和劣勢在哪里?

  5.對于算法是否進(jìn)行過自主的研究設(shè)計(jì)?

  6.簡要描述你了解的一些數(shù)據(jù)挖掘算法與內(nèi)容 基本我有印象的就這幾個問題,聊了2個多小時,腦子都差點(diǎn)被問干了

  圖文來自網(wǎng)絡(luò)、如涉及版權(quán)問題,請聯(lián)系我們以便處理。文章內(nèi)容純屬作者個人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)。

發(fā)表評論