Re: [請益] 軟體失業是遲早的事吧
沒有要ㄉ一ㄤ誰的意思
就是這benchmark到底存不存在
小弟我相信 這一定是有論文的
找了一下
還真的有
https://arxiv.org/html/2501.16857v1
以下為AI翻譯 並由我這個人腦節錄:
1. 在本研究中,我們使用 GPT-4(OpenAI 於 2024 年 4 月前兩週提供的版本)作為代表性 LLM,針對 LLM 與人類生成的 Python 程式碼,在各項效能指標上進行比較。
2. 該研究採用包含 72 項 Python 編碼任務的基準數據集,這些任務涵蓋了來自先前研究[7]的各種軟體工程問題。一位具有軟體開發經驗的計算機專業大四學生(人類程式設計師)為這 72 項編碼任務開發了程式碼,同時使用 GPT-4(即 2024 年 4 月可用版本)生成程式碼樣本,以產生對等的 LLM 輸出。
3. 在編碼標準評估中,Pylint 和 Radon 分析顯示,雖然 LLM 生成與人工編寫的程式碼都存在缺陷,但 LLM 更可能犯下可透過嚴格遵守編碼標準來避免的錯誤。儘管程度較輕,但研究中的 LLM(以及人類)有時會忽略編碼風格和標準程序中的重要細節,這些細節對於維護可讀性和程式碼品質至關重要。
4. 與人工生成的程式碼相比,LLM 通常會產生具有更高循環複雜度的程式碼。我們的結果表
明,LLM 傾向過度設計解決方案,這可能導致程式碼更難維護,且在軟體開發後期階段更容易出現錯誤。
5. LLM 生成的程式碼在功能正確性測試中經常表現良好,證明了 LLMs 在自動化執行簡單且
定義明確的編碼任務上的實用性。相反地,在需要深厚領域專業知識或複雜問題解決能力的任務中,人類程式設計師往往比 LLMs 表現更出色。
(編註:人類編寫的程式碼通過率為 54.9%,而 LLM 生成的程式碼通過率達 87.3%)
要說這篇論文缺點是什麼的話
就是他只有一個大四學生當作人類基準
所以樣本數非常不足 另外用的模型也是稍舊
歡迎質疑paper的人花錢花精力自己去做一次benchmark
學術界本來就是這樣
總之結論大概就是: 就該文獻的場景與數據來看 人類與LLM擅長的不同 優缺點不同
不過當手裡只有錘子時,在某些人看起來,所有東西都像是釘子
--
推
推最後一句
swe是蠻有參考性的。但還是有各種作弊方式,像上面就是某
個漏洞,被claude,qwen跟其它llms利用來獲取更高分數。
但設計者說,分數其實不要互比,要自己比自己,互比參考
意義不大。因為....(原因太多,我懶的打了)
你是在反串搞笑嗎,這篇論文又不是 swe-bench verified
你有閱讀障礙嗎? 我可沒說這是SWE bench啊XD 他推文寫「人類自己都沒有benchmark」我就找一個人機對比的benchmark paper來舉例囉
大廠用swe-bench verified是因為,這些題目才是真實工作時
會遇到的情況。拿一篇品質更爛的論文,難以說明什麼新發現
。
benchmark的方式又不只一種 重點是你今天到底是要比對人與模型的差異 還是要比對模型與模型的差異 所以我不知道你拘泥於單一觀點想說明什麼 還是你也只會揮舞槌子而已 還有人與LLM比較benchmark的論文難寫 估計就是實驗難做&經費問題 用dataset去讓各模型跑分比較更容易些 你覺得論文爛 論文作者至少還有實驗精神 反而是某些人只會出一張嘴@@
※ 編輯: SkankHunt42 (146.70.205.60 日本), 10/15/2025 17:11:45XD
我體感覺得啦,本科剛畢業新人去做這個benchmark大概30
分左右
最後一句XD
論文就是拿一個沒有參考價值不知名的題目,測一個大四學生
,連研討會都投不上。結果你把這種學生報告當成寶。
會引用這種爛論文的人也只是出張嘴而已。外行人。
第一句:沒有要ㄉ一ㄤ誰的意思,結果推文拼命ㄉ一ㄤ。果然
你手裡有錘子的你,看到誰都在捶。
拿出正常一點的論文,再來討論啦,外行人又愛ㄉ一ㄤ別人。
不知道原PO堅持發引用一篇,連研討會都沒上的低品質論文,
是要強調或能證明什麼?還是純粹故意引戰ㄉ一ㄤ人?
我比較好奇DrTech是在哪高就 一定很內行 小弟不才 公司就賣賣顯卡的上市公司而已 你待的公司一定很屌你職位一定很內行對吧 我覺得我上面已經說得很清楚了 為什麼這樣的論文難找 就是經費問題 大部分學生連填問券抽獎做論文 參與的人都興致缺缺了 首先你要找多少工程師?這些工程師要代表怎樣的群體? 要付你多少錢你才願意抽空做題目只為了讓人發論文? 題目是否具有公平性能準確涵蓋這些工程師的能力範圍又不失偏頗? SWE-bench是gold standard沒錯 但目前就是沒有找到人類參與比較的數據 (甚至要怎麼比才有代表性都有問題) 我提這篇論文 是看過這篇論文覺得滿有趣的 至少是一個方法 也可能我爛 我找不到好的論文 當我們在討論有沒有benchmark可以比較人類與LLM解決工程問題時 我確實拿了一篇不怎樣的論文 雖然樣本數只有一 但至少是一個實驗、一個方向 不過我現在只看到一個巨嬰躺在地上打滾 這不是SWE-bench~ 這不是SWE-bench~ 哇~~~~~ 哇~~~~ ToT 然後轉頭又要別人找論文 奇怪 現在網路打臉人的方式已經不是自己找到更好、更具參考價值的論文或數據 而是一直叫人舉證 好像他是我指導教授還口委一樣 他作為質疑者唯一的工作就是在推文裡出一張嘴 這就是所謂的內行嗎
我聽到玻璃碎掉的聲音,不知道怎麼回事
我有點看不懂在吵什麼?感覺主題歪了
人類沒辦法copy而且方差太大 測benchmark就沒啥意義這樣
把可以複製並且表現都差不多的工具和不具備重現性的人類
用同一種評估方式就沒啥實用價值 俗稱做身體健康的
本質應該和試證明理科生已墜入情網差不多
一本正經講幹話 但是其實也沒那麼幹話那種感覺(
原po找一個沒什麼參考價值的論文來說服別人,別人提出反
對意見也很合理吧
我是對y的推文「是否存在對人類的benchmark」做出回應 考慮到這是在討論LLM與人類性能的比較 所以我認為題目具體為
「是否存在於同時能同時評估LLM與人類解決工程問題的benchmark」有沒有這樣的benchmark存在? 答案是: 有 而該論文的題目來源是參考自: Y. Feng et al. (2023). ”Investigating Code Generation Performance of ChatGPT with Crowdsourcing Social Data,” in Proceedings of the IEEE 47th Annual Computers, Software, and Applications Conference (COMPSAC), Torino, Italy, pp. 876-885. 這是一篇被引用172次的的論文所用的dataset 72筆prompt的題目 dataset在這裡:
https://yunhefeng.me/research/Compsac_ChatGPT_Python_Prompt_Code/老實講前一篇推文吵得那一串我根本沒打算說服哪一方 我原文也講了 人與LLM擅長的不同 在我看來這跟吵腳踏車跟機車哪個好差不多 那現在問題來了 這篇論文爛在哪?總要有個具體論述吧 除了
我原文已經提到的人類樣本數只有一以外 我好像找不到其他任何具體的批判 是對實驗方法有具體的批判? 還是對一篇被被引用172次的論文的dataset有具體的批判? SWE-bench的題目數量有兩千多筆 lite版有300道 不拿full 你拿lite 你要找好幾個工程師去做300道題目 我只能講這如果有這樣的數據那還滿屌的 我也很想看 不要講300題 72道題目請板上各位年薪三百萬的工程師 大家要怎樣的條件才會用心寫完 抽150元點卡或兩百元711禮券好不好 就.... 腦袋能不能實際一點?
※ 編輯: SkankHunt42 (146.70.205.140 日本), 10/16/2025 14:03:51就研究沒啥問題 只是沒辦法應用而已
DrTech什麼時候會給你具體的批評了
我其實比較納悶 DrTech好歹是有博士學位的人 怎麼可能對這樣的測驗數據到底成本有多高一點概念都沒有 我原本就只是針對到底有沒有這樣的benchmark方法存在 提出存在的事實 結果好像被他誤解成我要參與他們無聊的筆戰說服另一方 奇怪 我原文到底是哪裡有選邊站@@ 我是期望本板少數的博士能夠PO出更優質的論文啦 這對DrTech應該不難 對吧 博士
推,我的論點也是差不多這樣,人類方提不出分數,目前唯
一的論文看起來又是AI勝,然後人類方一直糾結你分數只有
82沒到99不能用笑死
就跟圍棋一樣吧,搞不好Kaggle leetcode周賽已經偷偷有A
I在打了,之後再學圍棋辦一個大獎賽,公開挑戰leetcode
排名前十的人類,獎金一高自然有人參賽
那三百題給本科新人寫一天搞不好都沒辦法完成一題
以前沒AI時,難一點的功能或蟲我都要好幾天了,現在變成
五到十分鐘
而且我後來看那個bench,看起來沒有人類介入,我的經驗
是,一邊看他改扣一邊跟他對話,有問題指出來他幾乎可以
馬上改好,甚至有時候只要跟他講遇到的問題,他自己會找
到原因
那個82分要是有人類介入對話,說不定可以更高
「我的論點也是差不多這樣」XDD
樓上你也可以提出你關於使用AI的感想或論點
推抽禮券都沒人要寫了+1 XD
不要激動,在這版po文沒被酸過的都不算老
原PO好愛ㄉ一ㄤ人喔。果然手裡拿著錘子的人,就是愛捶人。
內文與推文,,只看到原PO一堆人身攻擊,不讓別人發表不同
看法。沒看到AI到底能不能贏人類。
所以我真的懷疑你有閱...唉 算了算了 繼續ㄉㄧㄤ下去沒完沒了 整串下來我強調:人類與LLM各有優缺點 不管是我節錄的論文內容 還是我做的總結 都是我原文就有的內容 就事實跟目前的數據 我看到的事實是"有些地方AI贏人類 有些地方人類贏AI" 這個事實有很難接受嗎 你也不是不可能不知道吧 就"AI贏人類"這個問題的 怎樣算贏?是要全盤輾壓算贏嗎? 還是你們單就通過率討論?那時間要不算進去評分的項目裡? 就.... 你不覺得這個你這個題目很抽象嗎?
就事論事,我欣賞原PO有自己獨立想法,為自己論點持續討論
的態度,但一直人身攻擊可以省下來。原來賣顯卡公司收了這
種,到處人身攻擊的員工喔,笑死。
我可以幫你整理一下時間順序: 你批評我搞笑反串→我說你有閱讀障礙→你說我外行→我說你巨嬰 我覺得好像是你開第一槍的耶XD 我最開始的原文可是半個字都沒提到你 在你們吵架的推文串我也只有發表一句無關緊要的幹話 還是你在公司開會的時候 下屬發表意見不合你意你也馬上ㄉㄧㄤ: 你是在反串搞笑嗎 不過這很正常啦 你在公司不可能這樣酸下屬 我在公司也不會這樣嗆同事 我欣賞你業界十幾二十年的堅實經驗、外加學歷漂亮還是上市公司的主管,在本板也樂 於分享跟發表有價值的看法。但我覺得先開嗆的人好像要有接受被嗆的心理準備吧XD 我相信你應該不是那種自己動手還要求別人不能還手的流氓吧?
※ 編輯: SkankHunt42 (155.2.216.14 日本), 10/17/2025 11:52:20原來買顯卡公司的員工那麼愛嗆人喔,你是不是流氓啊?
不專業的論文,本來就不用參考。參考就是外行人。外行人也
不是攻擊啊,是事實描述而已。巨嬰,流氓,這種非事實描述
的人身攻擊真的省省。
所以DrTech你可以回答一下,在你於本文中第一則推文
前,我有任何攻擊你的地方嗎?
贏一個大四生=有些地方贏人類?全人類都算大四生喔。那麼
不專業的邏輯,真的是賣顯卡公司該有的水準嗎。
所以我一直問你輸贏到底怎麼算阿XD
那這樣講,生成一個leetcode medium題目程式碼的速度
人類可以贏LLM嗎?
你如果需要,我很樂意找數據給你
那我找到了你會承認LLM有些地方贏人類嗎?還是你要繼
續找其他漏洞?
還有澄清一下,我可沒說你是流氓,我寫的是我相信你
該不是。還是你覺得自己是那種只准自己動手不准別人
還手的人?
只會索求跟無理取鬧的人就是巨嬰,我好像也只是在做
事實陳述而已
幫推 軟工板就得貢貢人互錘才精彩
推最後一句
26
首Po如題 軟體失業是遲早的事吧 ㄧ堆都在流行vibe coding 最近都在玩這個 原本的技能樹不是前後端 有點概念而已 要弄個sample真的很快![[請益] 軟體失業是遲早的事吧 [請益] 軟體失業是遲早的事吧](https://i.imgur.com/wVeBdCKb.jpeg)
40
先來定義什麼是vibe coding Karpathy described it as "fully giving in to the vibes, embracing exponentials, and forgetting that the code even exists". "完全沉浸在氛圍中,擁抱指數級成長,甚至忘記程式碼的存在" Wiki中的描述為:![Re: [請益] 軟體失業是遲早的事吧 Re: [請益] 軟體失業是遲早的事吧](https://img.youtube.com/vi/sOvi9Iu1Dq8/mqdefault.jpg)
15
Vibe Coding可以讓不懂Coding的人 就可以做一個prototype 這在過往就是你要找軟體工程師來實現的需求 現在這個需求就沒了 直白點軟體工程師的崗位又少了7
這個問題已經有很多先賢回答過了 我就不做重複功 截取一篇正經 一篇不正經的分享一下![Re: [請益] 軟體失業是遲早的事吧 Re: [請益] 軟體失業是遲早的事吧](https://i.imgur.com/Q6SgMdpb.jpeg)
X
專業的來嘴砲一下 剛剛和一個學弟聊 別說工程師了 經理人商業策略都有可能被取代了 只能說當初說工程師經理人不會被取代的26
昨天看到的 大概是,非本職的人,用了AI之後出包 下面的留言討論,滿精彩的 --![Re: [請益] 軟體失業是遲早的事吧 Re: [請益] 軟體失業是遲早的事吧](https://i.imgur.com/j95HHWib.jpeg)
6
保哥三個月就神準預言了 他說半桶水的就會搞出這種 可以直接看YT 從46:10開始 只能說Will保哥才是真正的講師 業界良心![Re: [請益] 軟體失業是遲早的事吧 Re: [請益] 軟體失業是遲早的事吧](https://img.youtube.com/vi/Ji3mg3HwiE4/mqdefault.jpg)
28
我有一個同事就是在弄演算法的 他就曾經有一次經驗,就是叫AI去產生一個常見的演算法 結果他直接拿來用之後,發覺結果非常的發散。 正常來說,應該是要收斂才對,他後來跳進去仔細檢查之後,才發現 是其中一個負號變成了正號。9
抱歉,但你這做法有改進空間 如果是做演算法,優先用python 寫 現在主流AI寫python幾乎不可能錯 寫完後叫AI自己生一些測資再畫圖給你看 圖看完沒問題後再叫他改寫成C++7
一個AI有這麼多不同的體悟 我覺得問題是出在於,很多人在下Prompt的時候說得太籠統了 AI很容易掰出一個錯的東西給你 幻覺議題可以參考OpenAI自己寫的這篇文章
48
[爆卦] AI開始發表學術論文Sakana AI公司開發了第一個用於自動化科學研究和開放式發現的綜合AI The AI Scientist 該AI提出想法、檢查創新性、設計實驗、編寫程式碼,到在GPU上執行實驗並收集結果![[爆卦] AI開始發表學術論文 [爆卦] AI開始發表學術論文](https://sakana.ai/assets/home/sakana_rect.png)
35
Re: [請益] AI到底是遇到什麼問題?技術跟應用場景的問題我不談,之前的人已經談過了,大致上沒有問題。 不同領域的人可能體驗不太一樣,但LLM普及的程度並沒有這麼低,具體而言,主要是 ChatGPT ,在部分領域已經是不可或缺的必要工具,到了掛掉會影響到正常工作或不能工作的程度。 首先是 coding,就我而言,至少有50%的程式碼已經是由 ChatGPT 完成的,遇到 bug 我幾乎沒有再用 Google 或是 stackoverflow ,log 直接丟進 ChatGPT , 大部分情況下它都能大幅減少我的工作時間。 除了遇到有關於 pydantic 的問題,因為這個 module 最近出了V2,模型的回答經常會混合V1的答案,而且傻傻分不清楚,在之前舊的沒有納入 pydantic 的版本時,這問題更為嚴重,必須要自己先提供文件用RAG 讓它知道。 但是就我實際的觀察周邊的人,發現LLM 對於低階的工程師,高階的工程師的幫助個別顯著,但是對於中階工程師而且有使用上的困難。![Re: [請益] AI到底是遇到什麼問題? Re: [請益] AI到底是遇到什麼問題?](https://i.imgur.com/hkos4GYb.jpeg)
20
[問卦] chatgpt會產生不安全的程式碼 你還敢用小弟發現一篇論文探討chatgpt3.5會產生不安全的程式碼,我想說大家都在喊gpt可以打敗 初階程式員,結果產出來程式碼沒法通過checkmarks的法眼,不安全的chatgpt程式碼你敢 用? ----以下由gpt生成--- 這篇研究論文「ChatGPT 生成的代碼有多安全?」探討了OpenAI開發的AI聊天機器人ChatGP20
Re: [討論] ChatGPT的思維是甚麼?阿肥外商碼農阿肥啦! 剛好看到這篇文章就回覆一下,這次大型語言模型(LLM)表現出來的是語言模型的湧現能 力,我其實不贊同LeCun說的LLM是歪路,畢竟雖然我們可以直覺知道加大網路連接數可能 是實踐人類大腦的一個重要步驟(畢竟人腦的連結數量跟複雜性在生物醫學上都有驗證), 但科學上不去驗證你沒辦法證明某些事情的。17
[討論] 微軟用Copilot Workspace重新定義程式開發微軟旗下的AI程式設計幫手 GitHub Copilot WorkSpace上架了 這款程式開發環境能讓外行人也可以用自然語言將想像轉化成實際程式 微軟老闆Satya Nadella:"我們正在使用 GitHub Copilot Workspace 重新定義開發人員環 境(IDE),任何開發人員都可以使用自然語言從想法、程式碼到軟體。"![[討論] 微軟用Copilot Workspace重新定義程式開發 [討論] 微軟用Copilot Workspace重新定義程式開發](https://githubnext.com/assets/images/og/project/copilot-workspace.png)
12
Re: [討論] 軟體工程師這條路,是不是走到盡頭了?最後再來破除一個盲點 信徒也很愛講 80% 的工程是單純的 CRUD, 然後因為 AI 在這方面又可以生成夠好用的程式碼,所以就推論人要被取代。 姑且假設這是真的,但是早在很多年前, 那些領人規格的純碼農就有不少時間不是在寫程式,我的體感是至少 50%。10
Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不解決幻覺,不一定要從LLM解, 而是靠系統架構解。 例如,做一個問答系統,很多人減少幻覺是這樣做的: 0. 預先整理好QA問答資料集 (人工整理,或機器輔助整理)8
Re: [問卦] Deepseek是不是真的不行了?阿肥外商碼農阿肥啦! 這邊說一下目前產學界一些比較新的研究,可以從一些方向捕捉DeepSeek研究團隊想從事的 研究方面。 1. Self-Evolution: 當前包含Google Deepmind很多研究都逐漸走向當我們有一個能力不錯 的大模型要怎麼去讓LLM自我進化。過往訓練Reasoning或是RLFH哪怕是說真的無標其實都還![Re: [問卦] Deepseek是不是真的不行了? Re: [問卦] Deepseek是不是真的不行了?](https://i.imgur.com/R0CW0Asb.png)
5
Re: [問卦] AI發展到什麼程度你才會開始感到害怕?阿肥外商碼農阿肥啦!在下鍵盤研究員,基本上現在所有的模型本質上都還是弱人工智慧 的,只是這兩三年研究累積的體現。 當前還有很多問題是需要解決的,像是雖然有偏好模型,但LLM還是對於學習並非是有偏 的 ,這邊的偏好依舊需要人工大量去微調,這就跟我們人類差異很大。4
Re: [新聞] 無人機工程師3萬5起薪引爆論戰!對岸搶這倒是真的捏,台灣的軟體工程師最會的就是開源程式碼改一改就說自己會寫程式了,說自己會LLM模型的也就是把開源模型抓下來改幾個參數,或是直接部署Ollama 就說是自己的AI模型惹。 真的是很厲害捏。 -- Sent from nPTT on my iPhone 15 Pro Max --