PTT推薦

Re: [問題] 申請化工領域的苦惱

看板studyabroad標題Re: [問題] 申請化工領域的苦惱作者
tzyyshyang
(shun)
時間推噓25 推:25 噓:0 →:18

身為一個搞高分子模型

加上最近實驗室想轉去做polymer informatics的人

看到有人想跳進來來分享幾句



先簡單提一下我的背景

大學主修物理、專題主要做膠體分子的泳動(實驗+理論)

目前美東科技大學化工所博四、題目主要兩個:

1. polymer network形成的模擬、topology quantification、以及機械性質預測

2. polymer informatics,目前主要是設計專用於高分子的representation、
data schema,還有弄一些簡單的高分子ML



我想分幾個方向來談一下


首先是關於念不念phd跟念甚麼的點

在推文裡面有提到你是想找教職的

如果你很篤定,那phd非念不可


但作為一個念到後期,看到身邊的人怨念愈來愈深的人

我建議規劃的時候多考慮一點後路


不是說不要有理想有衝勁去念書做研究


而是就算我們系上整天號稱全美化工系教職有超過1/3都我們系友

攤下來我們一屆50人有15-20人真的最後找到教職就不錯了

現在還沒畢業,旁邊就好幾個同學決定不考慮找教職了


尤其是你永遠不知道會不會在你要找教職的cycle發生甚麼奇怪的事情

像是誰知道今年會疫情爆發,突然很多學校不太敢招人


況且接下來幾年美國估計經濟不會太好,教職競爭應該會異常激烈

不過你還沒開始念,所以到時候說不定景氣已經回彈了

你比較需要擔心的是你想找的老師這波會不會餓死沒經費


就像原文推文有提到的,把phd當一個工作

原文有很多很好的建議,不要只考慮東西看上去過幾年前景怎麼樣

而是要思考一下這些錢都是哪來的


反正就是去算畢業的時候可能的情況

把最好的跟最壞的都算進去,挑一個你可以接受的


---


再來是怎麼丟的點

這分兩個層次:

1. 你怎麼先弄出第一張大表,把你可能有興趣的program都抓出來

2. 怎麼把這張縮減到最後可操作的清單


第一部份我建議多管齊下

首先,就像你說的,去看paper,去研究有哪些program有適合的老師

先不要管他們實際上在甚麼系,找到的全部列下來


接著,看看你有興趣的題目都對應到甚麼系,然後開始橫向去看看其他學校類似的
program有沒有也有你有興趣的老師


這樣順藤摸瓜重複幾輪,你就有你的大表了


當然,這樣很累,因為基本上你要做的功課會是單純瞄準化工所的5-6倍

如果客觀條件上不允許,那就先另外訂條件篩掉一部分的系


像是我自己當初申請,大學念物理系,想說換換口味

看看工程一點的人在幹嘛 就直接把物理系都先篩掉了



第二部分就扯到你最後的名單怎麼選了

這個很多版友都分享過了

基本就幾個夢幻區,你不要管太多你自己的qualification,上了賺

幾個比較實際的,最後幾個比較保險的


這部分最重要的考量是你到底上的機會多大

然後因為你"轉領域",你要打聽好是一開始就得寫說要找informatics的人

還是有沒有可能先上了再去找其他教授


其他系我不知道,但化工系很多都是committee在收人

所以其實進去之後做甚麼題目很難說,看你跟哪個老闆最後互相看對眼

SOP其實可以挑最強的方向來寫


像我們系,基本禁止你進來之前先講好要跟誰

所以可以先擠進來之後再來想辦法擠進你想要的實驗室


這種只能說,多打聽,多問問實際狀況
(然後順便推銷一下我們學校的PPSM http://polymerscience.mit.edu/
進來之後全校搞高分子的PI都能選
不過我不是這個program的....)


---

再來是關於你提到的領域的觀察


其他地方不知道,美國化工現在絕對是大ML時代

甚麼東西都在往哪邊靠

Chem/bioinformatics絕對是熱門中的熱門


只是所有用statistical tool/ML來研究的都是廣義的informatics

你首先需要釐清的是,在你想用informatics的方法的前提下

你有興趣的到底是甚麼樣方向的研究或是應用



原文中提到了高分子,剛好跟我自己的題目方向有關,我就從這邊聊聊


你有興趣的是拿informatics來搞高分子的哪一塊?

你是想從應用端出發,像是針對生醫材料或是其他材料(像是電池)
來做高分子開發嗎?

還是你也願意去做更基礎的,去研究怎麼把有機化學那邊QSAR的東西、生物資訊那邊的工具、或是其他的ML工具,開發成適用高分子研究的東西?

(這些不一定是單選,但多想想你自己是比較對特定應用有興趣,還是對整體方法有興趣 ,對建構你自己的技能樹會比較有幫助)



Polymer informatics相對化學資訊跟生物資訊,是發展非常緩慢的一個學門

主要問題不在於沒有後端的統計分析工具,也不在於沒有data
(跟化學比,跟CV或是NLP比當然……跪求data set)

而是大部分的data以informatics角度來說不是太難用,就是根本不能用


一堆古老的paper/handbook

全都是寫給人看的格式,很難自動化把資料爬出來

一大堆甚至不是文字檔……



甚麼,你說NLP+OCR?

大哥,你一定沒讀過高分子文獻

爬高分子名不夠
(喔對,聚苯乙烯有1800種名字喔 [1]

你還要爬他的分子量
他的dispersity
他的composition
他的tacticity
他的regiosequence…….
(你的聚乙烯不是你的聚乙烯,更不是我的聚乙烯


這些大多沒有標準定義跟標準的data schema


甚麼,OK的,你能搞定?

那你能不能順便寫個CV程式幫我解SI裡面的解析度神差的GPC curve

順便幫我把NLP+CV爬到的資訊再整合一下?



更麻煩的是

有時候這些資訊還是間接推出來的

像是你合polymer graft,你的分子量根本不是直接量的

而是你先量過backbone的分子量

再去solvolysis量graft的分子量

可能從頭到尾你壓根就沒直接對你的polymer graft做過測量

NLP再猛你也抓不到你需要的資訊



喔對,我們還沒討論processing, morphology, phase separation

跟其他大尺度或是非平衡的東西



簡單來說就是高分子系統一點都不乾淨

光是兩篇號稱研究同一個高分子的文獻可能都很難做apple to apple比較了

更遑論你還要把這些東西丟進model裡面跑

現階段我只能說good luck,小心GIGO

然後不要想太多甚麼Graph NN或其他炫泡ML模型

我猜random forest完虐其他選手

(另外我很好奇原文提到的用ML預測機械性質的文章
rheology複雜起來實驗怎麼詮釋複雜到哭
我很難相信現階段的模型能處理這麼亂的東西
是GA tech的polymer genome系列的文章嗎)



這種時候就會很羨慕cheminformatics跟bioinformatics

你一組SMILES或是一組核酸序列就定義了你的系統

而且還有ChEMBL或是PDB這種神器

只能說貴圈真有遠見,數位高分子資料庫目前只看到polyinfo一個真的能用的



基本上相較chem/bioinformatics這些很成熟的領域

Polymer informatics目前還是在泥淖中慢慢爬的階段



當然這不見得是壞事,甚至可以說是好事

相較於其他地方戰國時代,殺出一條血路很困難

這邊還算是有空間



只是你得有心理準備

你要幹很多髒活

很髒很髒,髒到你要去過去30年的文獻裡面打滾

手動慢慢annotate資料的程度



當然也有另外一種做法

那就是拿模擬的資料出來用

這也是一塊很有潛力的領域

不論你是能把高分子模擬用ML模型加速

或是能從現有的trajectory抽出更多的資訊

都對整個material discovery loop,甚至是基礎的高分子物理很有幫助



---

回到原文的問題

你該準備些甚麼?



以一個半路出家的高分子人士來看

最核心的還是你要腳踩你原本的專業,然後聽得懂其他人在幹嘛


所以依你的biomaterial背景,尤其是看起來你有wet lab經驗

如果能補上你說的那些python/ML/algorithm/stat mech

其實就很足夠了

你這樣的背景已經比我們實驗室搞polymer informatics的人都強了(包括我)



美國人很流行合作,就算是我們系上N年一見的神人,畢業直接拿系上offer的

(我們系一般的policy是不收自己博士班或博後當faculty)

也都是跟隔壁csail的ML專家合作

所以其實除非你就是想完全的轉去做ML,先腳踩核心專業(模擬/化學/材料...etc

然後再把自己變成雙語(CS+X),才是最有效的做法

(歐洲合作的傳統更強,我猜情況類似,有待版友補充)



如果你提的那些都做到了

這樣你不但聽得懂做模型的那端在幹嘛 也知道實務上實驗數據的一些眉眉角角

這種背景其實很難得,因為大部分的人都只會一邊



然後不用擔心

你這題目絕對不冷門

你要擔心的是這東西會不會你還沒念完就熱到泡沫化


--

廢話這麼多,希望多少有幫助

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 71.233.156.119 (美國)
PTT 網址

joshua4030204/05 15:34推大神

peterqlin04/05 15:34有神快拜<(_ _)>

jump12004/05 15:38推大神

pgsa04/05 18:51推大神

ryanpaul102104/05 19:16推大神

jimmy040504/05 20:01推大神

erictaur04/05 20:25看完受益良多

space2002104/05 20:38推宙斯

a193346452204/05 20:58

thid533504/06 00:40Coley真的扯

真的扯

ron090804/06 00:47太神啦,光聽就覺得累XD

jimmycolor04/06 01:13看到大神先推了!

Faker556604/06 01:20美東科技大學XD

coldlee04/06 01:43釣出好多神人...

coldlee04/06 01:44美東科技大學是三小啦XD

沒講錯R,美東私立科大啊

TingTT04/06 02:09受益良多,所以基本上都要有一些coding能力會比較好?

通常是 畢竟不論你是做模擬還是做其他modeling 會寫程式都只是基礎而已 當然有極端情況 像是我老闆就有收一個不會python的進來 但他的工作主要是搭整套processing跟自動化合成的流程出來 拿active learning來選實驗接下來要做甚麼只是順便做 (不過沒想到現在進不去實驗室 變成full time寫code..... 但這畢竟是少數 通常博士班還多少願意培養 但從不會寫code開始對老師風險有點大 系上主要做軟物質模擬的老師 要是你完全沒有模擬或統力背景 會很委婉地勸退你

WTF111104/06 02:18推,釣到好多好棒的回應,羨慕原po

WTF111104/06 02:19美東私立科大 XD

bnn04/06 07:51原來是美東科技學院XD

unmolk04/06 07:55美東科技大學XDDDDD太神啦

chieher04/06 12:14公蝦毀 XD 我整篇都看不懂但是推

physics1104/06 12:55看到是神人,小弟我就跪著回覆了

physics1104/06 12:55首先謝謝大大前面對於教職跟經費的打聽,十分受用

physics1104/06 12:55再來是我想要應用informatics來探討高分子的機械性質,

physics1104/06 12:55例如:我想知道用Ml來找出critical H-bond density可以

physics1104/06 12:55讓高分子流動行為改變,而非一直trial and error來找。

physics1104/06 12:55不過我自己知道這很難,

ML有可能拿來做這個 不過trial-n-error之外 物理模型跟模擬常常也能給出還可以的預測 所以除了想說要用modeling來預測之外 還要想想你有興趣的問題 現在實際的痛點在哪 ML為什麼可以解決現在的困境 是有多的資料嗎? 還是你能做自動化的合成 可以自己選你要的資料? 還是單純現在計算太慢 你要train一個模型跳過模擬花時間的步驟? ML應用炸開很大一部份是DL的效果實在太好 資料夠多可以自動抓出對的representation 對應到化學這邊 也有很多fancy的模型 像是各種GNN 或是拿SMILES去套NLP的東西 不過這些東西通常很data hungry 很多時候化學的dataset你隨便random forest效果還比較好 如果只是簡單的model的話 20年前就有像Bicerano, van Krevelen之類的 各種group contribution theory或是手湊出來的correlation 這種模型其實預測力常常很驚人 你模型沒建好估計連他們baseline都比不贏

physics1104/06 12:55因為高分子合成類的paper最讓人詬病的是-你反應有很多

physics1104/06 12:55因素是不會在paper裡頭呈現的,誠如大大講的,你的PS不

physics1104/06 12:55是我的PS,就算做了分析,有許多characterization的方

physics1104/06 12:55式也是值得存疑的(就真的如同大大提的,溶液聚合來推

physics1104/06 12:55你grafting onto的分子量這方法就是一個問號)

physics1104/06 12:55不過我還是希望能有跟版大類似的環境去嘗試polymer inf

physics1104/06 12:55ormatics,但之後餓不餓死我這幾天會去找資料打聽看看

physics1104/06 12:55至於我之前說的那篇paper好像也是來自美東科大的,我待

physics1104/06 12:55會把doi傳過去XD

physics1104/06 12:55經過大大解說,我才知道原來這在美國是大熱門...之後對

physics1104/06 12:55這領域有進一步的問題可以私訊大大嗎?

沒問題啊 可以私下問 也可以推文我回版上

b9890105604/06 14:02推大神 未看先猜有私立科大xd

D81E61G12G1804/06 15:24推!

sumon04/06 19:21朝聖推!

ddbsky04/06 19:21朝聖推

lzc85103104/06 20:07朝聖個美東科大......

※ 編輯: tzyyshyang (71.233.156.119 美國), 04/07/2020 11:28:11