PTT推薦

[請益] Web跟資料工程

看板Soft_Job標題[請益] Web跟資料工程作者
lin3835
(小小母牛)
時間推噓17 推:17 噓:0 →:54

各位好
小弟目前的工作是後端Web仔寫寫API
後來業務上有接觸到mapreduce Apache Flink 這種大數據運算框架
想請教一下各位前輩
如果為了下一份工作打算
會用這些框架 是有辦法往資料工程師當下一份工作嗎?
或者是說需要補足的知識工具其實更多?
靠刷題之後找Backend Engineer比較容易?
謝謝各位

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.30.197 (臺灣)
PTT 網址

ripple012904/10 06:13Chatgpt問世後未來說不準了

kimoji04/10 08:35很多資料工程都要值班維運喔

gpctv04/10 08:55ETL很可怕

BigCockman04/10 09:49身兼backend和data 老闆最愛

hsuchengmath04/10 12:24要轉data eng ,看他的JD啊,或是去linkedin敲data

hsuchengmath04/10 12:24 eng 然後問

acgotaku04/10 12:46這些都是高級excel 只是工具 沒啥優勢或門檻

acgotaku04/10 12:49AI 取代這種工具類的操作/分析者 是可預見的未來

samhsu04/10 12:56Data Engineer 炙手可熱,就算沒落也可以轉後端,沒道理

samhsu04/10 12:56不選

是怕資料工程這塊 是不是需要補很多東西 弄一弄反而沒刷題走後端高? 不然好像刷題走後端比較容易?

alan504/10 13:00你可以試著取代看看啊 de的重點一直是人不是工具操作

acgotaku04/10 13:09我沒有說取代de 是取代初級的分析操作者

acgotaku04/10 13:12因為我認為原po敘述 離 de的能力需求還是差滿多

loadingN04/10 13:39看你想清資料還是繼續當web仔

DrTech04/10 13:39身為專業工程師,有時間可以拿實際證據與實作來說明吧。如

DrTech04/10 13:39果DE可以被AI部分取代,真的歡迎拿實際例子來交流學習。

DrTech04/10 13:48資料工程師養成,要實務一點,不要會一堆工具,然後什麼都

DrTech04/10 13:48沒做過。舉例:有10億筆結構化資料,你要怎麼存與查詢,一

DrTech04/10 13:48秒可以查到? 朝這種很實務的角度去學,才是正軌。沒環境

DrTech04/10 13:48就自己造垃圾資料,架虛擬環境來玩。

DrTech04/10 13:50只是用過工具,然後一遇到實際問題就掛,可能很難找類似工

DrTech04/10 13:50作。

Hsins04/10 14:36DE 在處理的主要業務不是分析操作,樓上 DrTech 說的才是 D

Hsins04/10 14:36E 在關心的,需要根據業務需求規劃資料生命周期內的資料儲

Hsins04/10 14:36存方式跟型態,說是高級 Excel 工具是在哈囉……

abc6537904/10 15:00看起來你想走運算平台而不是倉儲?

對應該是資料工程那塊 倉儲應該算是資料分析? 可能比較像D大跟H大說這樣 因為我也是自己摸索來用 但說是高級EXCEL工具是有點怪 啦 這些框架大方向應該都算是強調大數據資料可以更快速的吧

Sunal04/10 16:00原來現在DE只是專注工具的使用?那被AI取代剛剛好

cmcer04/10 16:22大家都預設AI不能解決實務的問題也是挺值得討論的點

alan504/10 17:15解決老闆不想用rdb想用mongo存結構化資料的問題

alan504/10 17:15ai應該會叫我解決老闆

breccia04/10 17:30說mapreduce Apache Flink是高級excel是在搞笑嗎= =?先搞

breccia04/10 17:30清楚資料分析和data engineer的區別好嗎

TAKADO04/10 19:45好的DE跟日本原裝壓縮機一樣十分稀少,要對domain 的深入

TAKADO04/10 19:45理解跟大量的技術與經驗積累。遇過那種高手就知道,本來只

TAKADO04/10 19:45能等都更炸掉重改的中古垃圾屋,都能給你翻成漂漂亮亮的北

TAKADO04/10 19:45歐風溫馨文青宅。

kero96124004/10 20:47想詢問哪裡可以學到相關知識

※ 編輯: lin3835 (111.243.30.197 臺灣), 04/10/2023 22:34:30

Hsins04/10 22:58倉儲是資料工程喔,經典著作 The Data Warehouse Toolkit

Hsins04/10 22:58有時間可以慢慢翻一下。會說是高級 Excel 工具應該是指看到

Hsins04/10 22:58 MapReduce 的部分,但這種操作並不是只能用在分析上……

哦哦 謝謝H大 我想了一下 現在業務上是用hadoop Flink這類的大數據框架 去應用 似乎好像比較偏向資料分析這塊不是資料工程? 聽起來只會應該這類框架還是需要補足很多相關知識才能走這條路? 那感覺是後端那種單純刷題會容易一些? 我目前是因為剛好接觸到 所以才想說有沒有走這條路的可能這樣

※ 編輯: lin3835 (111.243.30.197 臺灣), 04/10/2023 23:11:48

Hsins04/10 23:09至於待遇跟薪水問題,去看 DrTech 寫過的某篇文吧,國家跟

Hsins04/10 23:10產業的權重會比職稱和使用的技術要高,你說資料工程跟後端

Hsins04/10 23:10來比誰高,不提產業也無從比較起…

Hsins04/10 23:13框架的大方向未必是處理效率問題,有的是處理擴展性問題

Hsins04/10 23:16Hadoop 生態系沒有偏向資料分析呀~ 至於 Flink 是是為了處

我感覺會用這個應該主要是想用分散式集群的功能運算吧 把那些資料套用個什麼規則 整 理出某個 人能參考依據 這樣聽一聽 跟我實際摸索 好像真的不是會用一點工具就能往這 行走

※ 編輯: lin3835 (111.243.30.197 臺灣), 04/10/2023 23:25:55

Hsins04/10 23:18理一些需要實時計算的資料的,當大量資料實時產生的同時需

Hsins04/10 23:19要分析計算會用到,要看一下你現在的業務到底接觸的是哪一

※ 編輯: lin3835 (111.243.30.197 臺灣), 04/10/2023 23:27:12

Hsins04/10 23:29越接近用戶端使用的部分,相較是比較簡單的,上面 D 大提到

Hsins04/10 23:30的,是偏向於提供資料使用人員(DS/DA)去做的 infra

Hsins04/10 23:34多數 DE 會在串接跟維護 Data Pipeline,你說的套用某個規

Hsins04/10 23:34則去整理出某人或是某個部門的資料,可能只是這條 pipeline

Hsins04/10 23:35上,某一個資料出水口需要做的事~ 要挖的東西是滿多的,有

Hsins04/10 23:35興趣可以從這個方向開始切進來~

Hsins04/10 23:37的確在有些公司 DE 除了基礎服務設施和資料處理之外,還要

luce04/10 23:38現在有人在用mapreduce? 我還真的沒在商業產品上看到過

Hsins04/10 23:38包山包海去處理分析和視覺化…

alihue04/10 23:42公司資料量夠大都要靠 map reduce 來做分散式處理吧…幾

alihue04/10 23:42億筆資料的 indexing 難到你要一台機器做

alihue04/10 23:43還有大量 log 的 data pipeline,use case 很多

Hsins04/10 23:54還有不少用 Hive 的,背後做還是 MapReduce,現在的確 Spar

Hsins04/10 23:54k 跟 Flink 居多

alan504/11 12:17只是比較沒有純寫mapreduce 框架背後還是mr啊

alan504/11 12:19de會去服務使用flink分析的user de就要了解flink

ab0727556604/12 09:44DE 是個坑,每家DE 要的技能點可能都有點些許不同,進

ab0727556604/12 09:44來會發現包山包海,什麼能力都要,可以多看看,再看要

ab0727556604/12 09:44不要走 DE

weinine3204/12 10:00mapreduce早被淘汰了,居然還有人在用Zzzz

daydream77204/12 14:54分散式運算被後概念就是mr啊,還是你以為跑spark就

daydream77204/12 14:54不是MR

weinine3204/12 18:18那你應該先學Java,順便把原始碼、論文看一看,加油 Zz

weinine3204/12 18:18zz