開云世界杯官網 “納秒級”極速,給“萬物訂價”——華爾街最頂尖量化機構Jane Street的“算力戰局”

當通盤硅谷都在為通用東說念主工智能(AGI)和萬億參數的通用大模子放蕩時,華爾街最精巧、最成績的量化巨頭 Jane Street(簡街本錢)卻在暗暗開辟另一條極其蹧跶的算力陣線。
近日,盛名科技播客支配東說念主 Dwarkesh Patel 凄涼獲準實地探訪了 Jane Street 位于德克薩斯州的中樞數據中心。在這場與 Jane Street 手藝團隊共同負責東說念主 Yaron Minsky 以及物理工程團隊負責東說念主 Dan Pavatova 的深度對話中,這家剛剛砸下60億好意思元算力多量訂單的華爾街"造王商",初次解密了他們如安在高頻往復的"納秒天下"與大模子的"重算力時間"之間構筑起無法復制的全都壁壘。
中樞不雅點:
突破延長迷想: 量化往復并非全盤追求納秒。最優計策是"集成設施"——100納秒內靠 FPGA 進行極簡決策;而更大、更靈巧的 AI 模子則運行在微秒、毫秒致使小時級別的時限上。
60億好意思元的算力貪心: 金融數據的"字節與浮點運算比率(Bytes to Flop Ratio)"極高,且噪聲極大。Jane Street 不追求硅谷那種"一個模子作念通盤事"的通用 Scaling Law,而是通過海量定制化架構和極速迭代來榨取逾額收益。
基礎門徑成新圣杯: 算力的真實瓶頸早已不是芯片自己,而是發電機、變壓器和液冷開導。為了讓 GPU 提前 6 個月上線,公司致使不錯作念出"燒毀全面發電機備份"的激進買賣決策。
往復是"AGI完全"問題: 往復的骨子是預測疇昔。在商場發生"相變(頂點特地)"時,東說念主類的元判斷遠比模子可靠。AI 時間,頂尖工程師和往復員的身價不降反升。
納秒極速與大模子的"時辰譜系"
外界對高頻量化往復一直存在一種刻板印象:機器必須緊挨著往復所(干事器托管 Colo),每一筆往復都必須在納秒級內完成,而動輒需要龐大籌備延長的 AI 大模子似乎與之消極遜色。
對此,Yaron Minsky 明確指出:"量化往復不存在單一的時辰跨度,而是存在一個完整的譜系。"
100納秒內的"極限硬件生涯"
在百納秒級別的極限速率下,決定輸贏的致使不是編程談話(無論是 OCaml、Rust 照舊 C++),而是地說念的硬件邏輯:
中樞開導: 順利掛載在相聚導線上的 FPGA(現場可編程門陣列)。
極限速率: "如若你在輸入和輸出的導線上蟻合一個示波器,你會看到數據包在被完全接管完之前,就也曾啟動從輸出端發出去了。"
代價: 這種極致速率擄掠了復雜的籌備空間,此時的決策邏輯極其淺顯。
微秒到小時級的"AI主戰場"
跟著決策時辰窗口放寬到幾微秒、幾百微秒、毫秒致使數小時,更大、更靈巧的 AI 模子便有了用武之地。
預測中樞: 預測金錢的"公允價值(Fair Value)",并將其當作模塊高度可組合地鑲嵌到種種往復經由中。
空間活潑性: 模子越大、越慢,物理擯棄的位置就不錯離往復所越遠。這使得巨型 GPU 集群不必擁堵在高尚且受限的往復所托管機房中,開釋了算力規模。
砸下60億好意思元算力:為何不走硅谷的 Scaling Law?
不久前,Jane Street 與算力云巨頭 CoreWeave 簽署了一項高達 60億好意思元 的籌備條約。針對這筆驚東說念主的進入,Yaron 進展了華爾街與硅谷 AI 實驗室(如 OpenAI 等)在 Scaling Law(規模定律)上的骨子永訣。
拒卻"大一統",擁抱"定制化"
銀河游戲在線娛樂中國官網傳統 AI 實驗室追求稽查一個完全通用的、能作念通盤事情的單一模子。而 Jane Street 的價值則來自于模子架構的極大種種性與放蕩的實驗數目。研究東說念主員需要極快的迭代時辰,去針對千奇百怪的數據源嘗試天淵之別的全新模子假想。
稀奇的"字節與浮點運算比率(Bytes to Flop Ratio)"
金融邊界的 AI 稽查有著稀奇的底層能源學:
高數據量,低信息密度: 金融數據包含海量的噪聲,單字節的信息量遠低于天然談話。
模子特征: 比擬大談話模子(LLM),Jane Street 的模子通常更小,但渾沌的數據量卻大得多,對數據加載和存儲性能的要求達到了變態的級別。為此,他們正在大舉構建我方里面的大規模對象存儲系統。
算力戰局的隱形瓶頸:從芯片到發電機與變壓器
當硅谷還在為英偉達最新的 GPU 芯片大打起首時,負責物理工程的 Dan Pavatova 清醒,真實的戰場也曾升沉到了物理基礎門徑上。
買賣決策打敗純工程無缺目標
"發電機是咫尺你能買到的交貨周期(Lead Time)最長的開導之一," Dan 默示。為了突破這個瓶頸,Jane Street 展現出了極其狼性的華爾街想維:
"咱們不錯挑戰以前的不雅念。通盤數據中心真實都需要發電機備份嗎?如若咱們拿掉部分備份,只留給最中樞的系統,就能讓咱們的 GPU 提前 6 個月上線。從工程上看這好像不是最無缺的,但這全都是最好的買賣決定。"
物理極限的靠近:1兆瓦機架與800V直流電
跟著算力密度的放蕩飆升,疇昔的手藝有操辦正在發生巨變:
開導瓶頸: 咫尺變壓器、發電機以及用于液冷的冷卻開導處于相稱枯竭狀況。
手藝演進: 數據中心正在向單機架 1兆瓦(MW) 的恐怖密度邁進,冷卻管說念越來越粗。供電架構也正在從傳統的交流電向 800伏直流電(DC) 演進。
兩階段鎖定計策: 鑒于芯片迭代太快而基礎門徑成立太慢,Jane Street 傾向于"作念多(Long)"電力和數據中心容量,先鎖定能源,再推遲對高尚芯片的采購決策,致使在必要時將電力容量分流給他東說念主。
被動燒毀的"x86捷徑"
多年來,Jane Street 運營手藝組織的一個決竅是"走捷徑":假裝天下上只須 x86_64 一種 CPU 架構,況兼只愛戴一個大型研究數據中心和一個存儲集群。但當今,跟著算力需求全球化散布(無法在單一地點引入足夠恐怖的電力),以及英偉達全新 ARM 架構居品的推出,這一捷徑已被透澈突破。籌備和存儲調遣的交匯、以及對 ARM 架構的維持,讓系統復雜度變高了幾個數目級。
四、 AGI時間,東說念主類分解為何依然是"終極護城河"?
當被問及"一朝 AGI(通用東說念主工智能)兌現,是否會坐窩讓 Jane Street 自在"這一激進問題時,Yaron 給出了一個盡頭清醒且長遠的修起。
往復是"AGI完全(AGI-complete)"問題
Yaron 認為,往復骨子上和"NP完全"問題一樣,是一個"AGI完全"問題。這意味著天下上發生的任何風吹草動(政事、天災、科技變革)最終都會匯入并影響往復布景。
"在淺顯的部分被自動化后,那些模子無法自動化的硬核部分,反而成為了競爭上風的終極所在。我從來莫得像今天這樣熱切地想要招聘更多的工程師和往復員。"
無法被電子化取代的"東說念主際修辭"與相變
非電子化往復依然遒勁: 即使在今天,巨額大額往復(如債券業務)依然依賴于東說念主與東說念主之間通過聊天器具的順利疏導。往復員需要肉眼和直觀去評估電話那頭的東說念主代表了多猛進度的"逆向選拔(Adverse Selection)"(即對方是否掌捏了你不知說念的內幕)。
相變中的"元判斷(Meta Judgment)":"簡街最成績的日子,通常是天下墮入放蕩、沒東說念主知說念發生了什么、商場發生‘相變’的時刻。咱們但愿模子能證據好,但咱們深知,東說念主類在應付相變時比模子靠譜得多。此時需要一種東說念主類獨到的‘元判斷’來決定系統該作念什么。"
全面擴招:簡街正在尋找哪些東說念主?
跟著 GPU 規模在短期內辯論從幾萬張放蕩飆升至幾十萬張,Jane Street 正在全球范圍內伸開前所未有的東說念主才搜獵,機器學習和往復如今是一項"全場地的團隊分解":
物理工程類: 機械工程師、電氣工程師、結構工程師、表情司理、建筑師(負責數據中心全生命周期的尋找、假想、建造與運營)。
通用/專科軟件工程: 除了高表率籌備機科學布景的通用工程師,簡街當今放蕩渴慕"全艦隊/全集群范圍優化(Fleet-wide Optimization)"的東說念主才(肖似于超大規模云干事商的架構師),因為當算力投資達到數十億好意思元時,通用的微弱優化將產生多量的財務報恩。
前沿硬件與數理研究: 假想定制芯片(ASIC)的硬件工程師;專攬數學講明注解讓軟件更高效的"時勢化設施(Formal Methods)"團隊(AI 鼎新讓這一冷門邊界整宿回春);以及領少見學、物理、籌備機布景的往復員。
高階前端工程師: 以前簡街相稱顧惜敕令行結尾,假裝 Web 網頁手藝從未發生過。但當今為了給研究東說念主員提供更直不雅的 AI 器具、畫出精確的直線和器具教導,他們正在大舉投資成立頂尖的前端開發團隊。
以下為對談全文,由AI緩助翻譯:
Dwarkesh:
Jane Street 是我播客的合營伙伴,咱們意想的一個道理點子是:為什么我不外來躬行參不雅一下你們運行的用于稽查(AI模子)的數據中心呢?是以我剛剛在手藝團隊共同負責東說念主 Yaron Minsky(譯注:視頻中口誤及速記為 Ron Minsky)和物理工程團隊負責東說念主 Dan Pavatova(譯注:速記為 Dan Ponttovo)的指揮下,參不雅了這個位于德克薩斯州的數據中心。盡頭感謝兩位帶我參不雅。值得一提的是,我以前從未去過這種地方,是以我亦然第一次參不雅,這太棒了。
以前我一直很困惑:既然你們需要在納秒(nanosecond)級別進行往復,那你們如何能作念 GPU 關系的事情呢?也許你們不錯注視講講,你們往復的踐諾時辰跨度(時限)是如何的?在作念出往復決策的過程中,你們能職守得起運行大型模子的成本(或時辰延長)嗎?
Yaron:
我認為這里需要領路的中樞少許是,并莫得單一的時辰跨度,而是存在著許多不同的時辰跨度。咱們構建的一些往復系統和進行的某些往復,為了保持競爭力,你踐諾上必須在 100 納秒以內處理并復返一個數據包。這是一個完全不同的手藝范圍,對吧?
東說念主們或然會磋議,比如:"哦,你們能用 OCaml 編寫高性能的東西嗎?"咱們的修起是:"咱們不錯。但對于這種級別的速率,不管你是用 OCaml、Rust 照舊 C++ 編寫都不重要,因為你根蒂無法使用 CPU。你必須使用 FPGA,它順利通過導線蟻合到相聚上。你復返數據包的速率盡頭快,如若你在輸入和輸出的導線上蟻合一個示波器,你會看到數據包在被完全接管完之前,就也曾啟動從輸出端發出去了。"
是以這是一個盡頭不同、盡頭特殊的邊界。但是,當你處于這個時辰邊界時,你踐諾上無法進行太多的籌備,你所作念的決策將會盡頭淺顯。事實上,在決策的"靈巧進度"(無論是模子照舊其他某種致使是手寫的決策過程)與"復返速率"之間,存在著一條完整的量度弧線。
而構建最好往復計策的正確設施,踐諾上是接納一種集成(ensemble)設施。對于某些類型的決策,你會盡頭趕緊地作念出盡頭淺顯的決策;對于某些類型的決策,你的運作規模可能是——不再是辯論 100 納秒,也許是幾微秒、幾十微秒、幾百微秒或毫秒;而在某些情況下,有些經由如若能在半小時或本日內完成決策復返,那也完全沒問題,在這些時辰跨度上,你在時辰基礎上不異具有競爭力。但在通盤這些不同的時辰跨度上,你所作念的決策類型是完全不同的。
也許你未便清醒,但這些模子究竟在預測什么?詳情不單是訂單簿(order book)中的下一個變動吧,或者也許即是?
咱們當今顯明是在觸及一些很難公開批駁的話題。但我認為最淺顯也最重要的一個,亦然咱們一直在想考的——不僅是當今在想,25 年前我剛加入 Jane Street、用線性記憶等器具構建模子時就在想——一個盡頭有用、盡頭經典的事情即是預測某樣東西的公允價值(fair value)。比如,咱們認為這個東西真實巧若干錢?這能夠以一種盡頭可組合的方式融入到許多不同的往復經由中。這并不是咱們當作預測磋商的唯獨一類事物,但它是一個很重要的磋商。
有一陣子,我嗅覺有一種對于往復公司在作念什么的梗(meme),那即是:你必須管理干事器托管(colo),搬到納斯達克往復所所在的地方,你的機器必須緊挨著那兒,這盡頭重要。
在不深入磋議咱們把什么東西放在何處的具體細節的前提下,你的推理(inference)過程可能在 CPU 上,可能在 FPGA 上,也可能在 GPU 上,這取決于你需要若干籌備量、模子有多大、需要如何的延長復返等斂跡條目。
是的,更大、更慢的東西,你不錯把它放得更遠一些。把通盤的籌備開導都緊挨著往復所擯棄是很令東說念主頭疼的。而對于那些真實極其快速的事物,只是待在托管機房里是不夠的,你致使會感情通往那里的線纜線圈有多長——在那種極低的納秒級別下,你真實需要去測量光纖布線的長度。但總的來說,更大的模子在它們物理擯棄的位置上給你帶來了大得多的活潑性。
Dan:
如若咱們把 GPU 放在往復所傍邊的這些托管門徑中,當今你必須遵照他們的法例,你懂吧,是誰當作干事商為你提供阿誰空間。此外,你的電力、冷卻,通盤這些斂跡條目當今可能都比你我方假想和運營的門徑要略微更緊俏一些。是以,你當今必須想出一些辦法,比如:"嘿,可能一個機架里我只可放一個 GPU,因為它破費太多電了,是以我必須把它分散開來,而不是能夠在一個機架里兌現高效的液冷。"是以跟著咱們的籌備需求不休增長,這些都是咱們需要辯論的事情。
你們最近與 CoreWeave(譯注:速記錯錄為 core reef)簽署了一項價值 60 億好意思元的籌備條約。嗯,你們預備用它來作念什么?
AI 天下的其他邊界有規模定律(scaling laws),咱們也有咱們的規模定律,有許多模子咱們都想稽查。我認為咱們與那些更傳統的 AI 實驗室之間道理且可能不同的少許在于,咱們模子架構的種種性以及咱們正在進行的實驗數目。因此,你從中獲取的大部分價值就在于,全球在模子假想中嘗試了巨額盡頭不同的新事物,給研究東說念主員提供了更快的迭代時辰,讓他們能夠發現更多的想法并鞭策更多的創新,這被講明注解是極其重要的。
在那些基礎模子實驗室的情況下,稽查一個能夠作念通盤事情的、完全通用的單一模子是有平正的,而不是構建一堆定制的不同模子。你能讓我了解一下,為什么在 Jane Street 會有不同的量度采選嗎?
對咱們來說,某些專門化是為了能夠適合和破費正確的數據類型,對吧?咱們不錯喂進去的潛在數據源絕裁奪。比如咱們在需要達到的數據速率上存在許多互異。
另一個讓咱們需要對所作念的職責進行某些專門化的成分是,舉座的推理和往復動態都因"字節與浮點運算比率"(bytes to flop ratio)的不同而變得天淵之別。咱們用來稽查模子的數據量要大得多,但就單字節而言,這些信息量卻比較少,因為金融數據噪聲(noise)盡頭大。是的。因此,模子通常更小,而數據通常噪聲更大、噪聲更多,且數據量要大得多。
另外,咱們針對不同應用構建的不同模子之間亦然不一樣的,對吧?當咱們試圖找出"咱們該如何專攬咱們獲取的更多信息"時,就會波及到種種決策,從"咱們如何高效地存儲和加載數據",到"咱們如何塑造模子",再到"咱們如何讓推理過程具備它所需的渾沌量和延長"。這其中會有一整套天淵之別的量度。因此,去理清這些并為不同的應用挑選出最好有操辦,曲直常有價值的。
那你們的推理(inference)職責負載踐諾上是如何的,或者說,K8凱發中國官方網站它與傳統的那些作念大談話模子聊天機器東說念主的大公司比擬如何?
大體上說,正如你所意料的,延長更為關鍵。批處理(batching)仍然是一個問題,取決于你所作念的模子,你可能會有針對你所不雅察的不同往復代碼(symbols)進行解耦/分散(disaggregated)的模子或模子的一部分。因此,從多個數據源拉取數據并將其打包批處理在一王人不異會產生影響。
我認為另一個道理的點是,數據速率真實盡頭高。在大型大談話模子實驗室里,你從通盤不同用戶那里獲取的總體(團聚)數據速率也很高,但你從任何單一用戶那里獲取的序列數據量(sequential data)并不大;而當你拉取的數據是來自納斯達克行情送禮(NASDAQ feed)的字節時,天哪,在單一邊界內需要以因果前后接踵的方式進行序列化破費的數據速率極高。是以再次強調,這里的動態發生了改革。不外我認為,許多肖似的基礎工程問題其實大同小異,只是通盤的常量都被微調到了不同的位置,因此你最終作念出了不同的選拔。
這意味著在你們必須如何假想這些系統方面,無論是從存儲照舊其他方面來看,有什么具體體現?
是的,我認為與你凡俗看到的比擬,咱們對數據加載性能的關注度更高。我想咱們正在作念巨額職責來構建咱們我方的大規模數據存儲系統,咱們我方的里面對象存儲(object store)。咱們之前使用過種種供應商的居品,但跟著時辰的推移,我認為對于其中一些以研究為導向的用例,咱們需要在更大的規模下運行,還需要應付數據中心的種種性。
對吧?這不太是一個推理時的問題,而更多是一個稽查時的問題——也即是說,咱們即是無法在歸并個地方獲取咱們想要的通盤籌備資源。我不知說念,我認為總的來說,靈驗運營一個手藝組織的一個重要決竅即是去弄清醒你不錯走哪些捷徑。
咱們多年來很行運能夠走的一個捷徑是,咱們不錯假裝這個星球上只須一種 CPU 架構,比如通盤東西都是針對 x86_64 的,咱們假裝其他任何東西都不存在,這簡化了許多事情。咱們還曾領有一個大型的研究數據中心和一個大型的存儲集群,這也極地面簡化了許多事情。
而踐諾上,這兩點當今都已被突破了。比如,你即是無法獲取那么大的電力,你無法在歸并個數據中心里接入足夠多的電力引入(譯注:此處 Yaron 幽默地用了"thunderbolts/雷電"一詞指代極高電力)來為你所需的通盤事物供電,你需要把數據中心建辭天下各地。是以這里存在一個龐大的去中心化/分散(disaggregation)問題,這也給你帶來了一個難題,比如:哦,當今你必須辯論讓你的籌備調遣和存儲調遣精致交匯在一王人。而且有海量的數據,因此在它們之間轉移這些數據絕非易事。
另外,咱們也不得不燒毀"僅限 x86"的作念法,因為英偉達推出了一系列酷炫的新址品,這意味著你當今必須維持 ARM 架構了。
放大視角,我想問一個盡頭天真實問題。可能會有一種天真實看法,認為如若你領有了通用東說念主工智能(AGI),它就能坐窩作念 Jane Street 所作念的事情。請讓我了解一下,為什么這種天真實看法是天真實?
是的,我不想完全辯說它。確乎有這樣一種天下怡然是咱們需要負責對待的:也即是咱們將構建出大談話模子或其他東說念主工智能系統,它們在嚴格意旨上比地球上的通盤東說念主類都更靈巧,在通盤分解任務上都更有智力。是的,那將會很不可想議,那將是一種完全不同的狀況。在那種情況下,確乎,Jane Street 所作念的很大一部分事情可能會被自動化取代,也許咱們全球都會坐享其功,多喝點瑪格麗特雞尾酒之類的,我不知說念阿誰天下會是什么式樣。但嗅覺咱們當今距離阿誰階段還不是特別近。
我認為總的來說,東說念主們很容易低估這項職責的豐富性和復雜性,不僅是像 Jane Street 這樣的公司所作念的職責,踐諾上在職何真實有貪心、高難度的公司級任務中都是如斯。我尤其認為,往復對我來說有點像"AGI 完全"(AGI-complete)問題,肖似于"NP 完全"(NP-complete)問題。
這意味著天下上通盤不同的問題最終都會在往復布景下影響你正在作念的事情,因為歸根結底,往復波及弄清醒事物的價值,這意味著對疇昔作念出預測,而許多不同的事情都會匯入其中。跟著其中的各個部分被悠閑自動化,你就會遭受常見的情況:那些咱們還不知說念如何很好地自動化的其他用功部分,最終成為了競爭上風之所在。
我認為東說念主類和東說念主類的分解比以往任何時候都更有價值。我從來莫得像今天這樣熱切地想要招聘更多的工程師和往復員,因為東說念主們所作念的每一件事都比以前更有價值。我的道理是,這在一定進度上是因為我持有一些懷疑作風,不認為咱們距離在通盤事情上都比東說念主類靈巧的模子像某些東說念主想象的那么近。
也許這波及到物理基礎門徑,比如踐諾管理托管機房;也許踐諾上是你們構建的軟件基礎門徑。能讓我了解一下到底是什么東西會……
是的,咱們構建了種種各樣極其復雜的軟件,讓東說念主們去想考許多不同的往復問題,其中一些問題根蒂不如何電子化。這個業務的種種性遠比東說念主們以為的要豐富得多。有一種想法是:"哦,對,那詳情是一件很淺顯的事,你只須有一群靈巧的東說念主,他們作念出靈巧的決策,寫出優質的軟件就行了。如若咱們能把靈巧這部分自動化,那就萬事大吉了。"但我認為事情要比這復雜得多。
你所說的往復中"非電子化"的部分是指什么?
我的道理是,當今仍然有通過聊天器具在東說念主與東說念主之間進行疏導、共同決策并完成的往復。比如有東說念主會去評估電話那頭的東說念主代表了多猛進度的逆向選拔(adverse selection),這依然是業務中盡頭真實的一部分。
你知說念,開云世界杯官網即是有不同種類的證券需要更長的時辰才能兌現更高進度的自動化。舉例,債券業務的自動化進度就遠不足你在股票業務中看到的水平。踐諾上,咱們對此也有點困惑。我認為咱們這些在行業里待了一段時辰的東說念主,天然我啟動得有點晚,沒能真實見證股票走向電子化的轉型過程,但那些比我關注得早少許的東說念主會認為:"行吧,我猜其他通盤邊界接下來也會這樣。"
關聯詞,你懂的,也曾以前了 25 到 30 年,并不是通盤事情都走向了阿誰標的。天然咱們當今也曾不如何看到有許多東說念主站在往復所大廳里了,但依然有巨額的往復深度依賴于東說念主類以及東說念主類的判斷當作中介。
說到這個,在模子和往復決策之間,東說念主類參與(humans-in-the-loop)的進度有多高?
你們許多最成績的日子通常發生在一些奇怪的事情發生、出現緊要事件、天下變得放蕩、沒東說念主知說念發生了什么的時候。在那些情況下提供流動性通常極其用功,是以你為此獲取的酬謝也更高,而且在那些日子里凡俗會有龐大的往復量。要把這些作念好,通常需要東說念主類的判斷力,去想考"今天與以往通盤日子有什么不同?"
天然在可能的范圍內,咱們但愿構建能夠很好應付相變(phase transitions)的模子,但咱們也認為,東說念主類在應付相變時比模子證據得更好,或然你需要這種元判斷(meta judgment)來決定該如何作念。因此,即使對于高度自動化的系統,也需要負責監控的東說念主員作念出決策,而咱們歷久都有東說念主在進行監控,對吧?我認為往復中一個重要的部分是在往復日內去關注和想考正在發生的事情,即使個別往復的發生速率遠遠快到東說念主類無法在單筆往復的基礎上進行紛擾。
Dan,在你從事這類建筑(數據中心)職責的以前 20 年里,最顯耀的變化是什么?
是啊,東說念主們當今竟然真實啟動感情數據中心了,況兼想要聊聊它。你知說念,我作念冷卻系統也曾有一段時辰了,當今倏得之間全球都啟動磋議它,認為它很道理。是以這挺好玩的,很讓東說念主振作,我想我團隊里的東說念主也有同感。
有些在數據中心行業干了 20 年的東說念主,仍然想用以前的方式去作念事,但我認為這種老設施當今正在被淘汰。你會發現全球正在挑戰以前的不雅念,比如:"嘿,我的通盤數據中心都有發電機當作后備電源,但發電機是你能買到的交貨周期(lead time)最長的開導之一。是以也許咱們把它們拿掉,只把發電機用于需要這種彈性的系統中樞部分。這能讓咱們的 GPU 提早六個月上線,那就干吧!"是以,你知說念,有些事情也許從純工程角度看不是最好的決定,但它全都是最好的業務決定。我認為肖似這樣的事情正在越來越多地出現。
嗅覺每年東說念主們在擴大 AI 籌備規模時遭受的瓶頸都在發生變化。在你們進行更多談判并試圖獲取更多籌備資源的過程中,拋開籌備、內存和通盤那些好玩的東西不談,咫尺的瓶頸是什么?你瞻望疇昔的瓶頸會是什么?
發電機、變壓器,還有一些咫尺用于液冷的冷卻開導,需求量都盡頭大。而且它變化得很快,我今天告訴你的情況,兩周后詳情就不一樣了。
咱們作念的一件事是,與里面的采購團隊盡頭精致地合營,去囤積其中的一些物質。對于那些咱們知說念在所少見據中心之間都不錯通用的物質,咱們會進行倉儲并隨時準備使用。但像發電機這樣的部件,你不可能把一個龐大的發電機放進泛泛的倉庫里;或者,舉例如若你在作念像渦輪機(turbine)這樣"表后"(behind-the-meter)的表情,你就必須對這些商場多作念一些想考——你從何處獲取它們,在何處進行安置,你不成隨粗率便把它們擱在一邊。
是以,我認為緊缺的部件詳情是會變化的,剛才提到的即是其中一些大件。而且,跟著咱們的密度越來越高,一個但愿是建筑不錯變得略微弱少許,也許咱們能夠更快地把建筑蓋好,把通盤的籌備資源緊湊地緊縛在一王人,然后周圍的通盤基礎門徑可能都是預制好并運載到現場的。沒錯,模塊化數據中心或模塊化基礎門徑正在變得越來越寬綽,這些組件(尤其是那些長交貨周期的組件)在場外進行假想和建造,然后運到現場,盡可能地接近"即插即用"(plug-and-play)。
你之前提到的一個不雅點是,跟著機架自己的密度越來越高,數據中心里越來越多的部分其實是圍繞踐諾機架周圍的基礎門徑。這踐諾上有點肖似于芯片上的封裝(package),對吧?或者說封裝上的芯片。籌備中樞只占通盤封裝總面積的極小一部分。
是的,這很故道理。我的道理是,這自己并不成解決任何問題,反而可能會帶來其他問題,天然。比如,當你達到單機架 1 兆瓦(megawatt)的水平時,全球會問:"單機架 1 兆瓦到底是什么主張?"你接入那里的冷卻管說念只會變得越來越粗。而且,無論咱們當今使用的是交流電(AC),照舊疇昔的趨勢——800 伏直流電(DC),你仍然必須把通盤這些組件帶到歸并個地方。
從咱們的角度來看,道理的少許是,天然咱們不錯假想這些工程上的東西,但歸根結底,無論是英偉達、定制芯片(ASIC)公司照舊其他任何東說念主,他們都必須銷售能夠在數據中心運行的組件,而且他們也在盡頭負責地想考他們要賣什么,因為你需要東說念主們能夠用得上它,對吧?如若你建造了一個 1 兆瓦的數據中心或 1 兆瓦的機架,但卻莫得辦法為其供電和冷卻,那就毫無謂處。是以咱們正在與該邊界的險些通盤東說念主開展盡頭精致的合營,去想考你需要哪些組件才能維持這些下一代居品。因為你所說的交貨周期或然會進取一年,而你通常是在為芯片下訂單之前就得對基礎門徑作念出決定。
是以,比如你得嘗試……你知說念谷歌的 TPU,它們使用溫度更低的水,而且它們的密度只須英偉達 NVL72(譯注:此處速記錯錄為 NBL72 GP300,踐諾團結高下文應為英偉達的 NVL72 架構配 GB200 芯片)的一半。對吧?是以這需要不同的計策,而你必須確保疇昔能夠兼容處理這些開導。
超大規模云干事商(hyperscalers)之是以能夠開心進入海量的籌備資源,原因之一是他們對閑置籌備資源有一些"備用用途"(reserve use),不錯在特定時辰不消于大談話模子稽查或推理時派上用場。舉例,像 Meta 這樣的公司,如若他們買的某些 GPU 沒在用,他們不錯順利說:"咱們今天就把 Instagram 的告白投放模子作念得略微好少許。"那么對于 Jane Street 來說,有什么平等的籌備資源備用用途嗎?這不錯說是這些籌備資源對你們價值的底線。
部分原因在于,咱們在許多方面其實瀕臨著盡頭嚴重的籌備資源受限。東說念主們領有的巨額創新、實驗和新想法都受限于咱們所領有的籌備量。是以從某種意旨上說,如若咱們略微嚴格地去評估一下咱們能夠運行的那些不同新任務的價值,會發現那些咱們不得不拒卻的任務的價值踐諾上曲直常高的。對吧?是以咱們正在作念咱們認為最有價值的事情,但如若事實講明注解咱們領有的籌備資源超出了這些任務所需,那么在阿誰邊界還有海量的其他研究和實驗不錯作念。是以咱們還遠遠莫得到說"噢,籌備資源太多了"的地步,咱們反而是遭受了相悖的問題。
我認為在這個方朝上也有許多"低落的果實"(low-hanging fruit,容易兌現的落幕),比如更常常地再行稽查模子即是很有價值的。跟著時辰的推移,模子的質料會有所闌珊,而能夠再行運行它們——這對公司具有順利且明確的價值。此外,咱們還不錯履行一定數目的巨額(bulk)推理任務,當系統中莫得其他可調遣的任務時,不錯用它們來填補空缺。因此,咱們并莫得完全肖似于 Instagram 告白投放那樣的應用,但確乎存在一大片"盲區/未知空間(dark space)",即那些咱們沒在作念、但如若有了更多籌備資源就會去作念的事情。是以咱們盡頭不惦記無法從這些開導中榨取價值。
這里面確乎有一系列的隱性下注(embedded bets),比如咱們正在這些東西上進入巨資,你不錯想象,有些事情的發展速率可能不會像咱們預期的那么快,比如咱們正在運行的各個模子和往復所產生的價值;而且這是一個競爭強烈的環境,也許其他東說念主會打敗咱們。我認為保持優秀的要素之一,即是歷久對競爭敵手可能摸索出與你肖似的作念法并縮短你的業務價值而感到彌留。是以,確乎有可能出現一些并不告成的情況。但顯明,以咱們咫尺現存的籌備任務組合來看,咱們距離遭受"算力彌散"這個問題還盡頭遠處。
這很故道理,天然這莫得完全修起問題,但你不錯把"為數據中心供電"與"購買芯片"剝離開來,然后說:"好吧,我以后可能會需要使用這些籌備資源,讓我當今先鎖定數據中心和電力資源,但推遲對盡頭高尚的芯片作念出采購決策。"對吧?在阿誰你可能需要籌備資源的時辰節點上,先讓我方處于電力和數據中心容量略微"作念多"(long,充裕)的狀況。然后咱們不錯假想一些機制,比如:嘿,也許咱們不錯把其中一部分容量分流(offload)給其他東說念主。出于無庸贅述的原因,對咱們來說,分流電力和數據中心容量要比分流芯片自己容易得多,但你確乎不錯將這兩者清醒地一分為二。
這也改革了對于招聘的考量。我是說,你們招聘的門檻也曾高到極致了,但這會讓它進一步擢升。如若你多招一個東說念主,那這個東說念主就需要籌備資源來作念實驗,而這部分籌備資源將不得不與你團隊中其他不異優秀、本不錯我方作念實驗的東說念主進行量度和采選。
我明白你的道理,但咱們不會去想:"噢,再招更多研究東說念主員會很奇怪,因為那樣咱們就必須給他們更多的籌備資源。"相悖,咱們的邏輯是:研究自己極其有價值,研究東說念主員也極其有價值,這反而是購買更多籌備資源的一個絕佳根由。
因此,咱們盡頭有能源去擴大籌備規模。比如咫尺,咱們的 GPU 數目大致在幾萬張的范圍內,而在不久的將來,咱們將達到幾十萬張 GPU 的規模。咱們認為這完全不錯由業務效益來講明注解其合感性。你知說念,這并不是說咱們會在那里惦記:"哦,咱們能不成憑據往復計策的損益(P&L)來講明注解它的合感性呢?"不,不,不,這顯明是很好的投資。是以在招聘方面,這并不會讓咱們減速腳步。
在某些方面,增長的最大侵略在于需要時辰去真實培訓新東說念主、讓他們融入咱們的文化、陪伴他們成長并共同成立這個地方。咱們但愿 Jane Street 絡續成為一個偉大的職責陣勢。我完全不認為硬件問題是侵略咱們發展的成分,我認為真實的適度成分是尋找優秀的東說念主才,以及咱們對他們的導師迷惑智力(mentorship capacity)。
我猜這可能是一個很好的契機,讓你們提一下你們咫尺正在招聘哪些類型的職位?
天哪,那 Dan,你要不要先從工程邊界啟動聊聊?
好的,我先來。我的道理是,總的來說,咱們即是在尋找盡頭靈巧、對作念這些事情誼興味的東說念主。這包括機械工程師、電氣工程師、表情司理、建筑師——也即是匡助假想和建造其中一些空間的東說念主。你知說念,我團隊的職責踐諾上是尋找這些空間、進行假想、建造,然后去運營它們,這是一個全生命周期(full life cycle)。是以在每個階段你都需要東說念主才。你需要許多工程師,許多咱們稱之為"物理工程"(physical engineering)邊界的東說念主,這是咱們我方發明的一個詞。但具體來說即是機械工程師、結構工程師,可能還有電氣工程師這類東說念主才。
而且機器學習和通盤往復行業其實盡頭像一項團隊分解,是以咱們但愿招聘來自許多不同布景、領有許多不同智力的東說念主才。咱們天然盡頭振作能招到一些領有特定機器學習布景的東說念主,比如從事架構假想和在種種情況下構建模子的東說念主。就像我提到的,咱們針對我方特有的、商場特征所需的數據,領有一大堆定制的架構等。此外,咱們也構建大談話模子(LLM),咱們對在 LLM 稽查生命周期的各個階段有告誡的東說念主都盡頭感興味,況兼一直在擴大這個邊界的規模。
你知說念,咱們招募了巨額領有邃密科學和手藝布景的東說念主——比如數學、籌備機科學(CS)、物理、工程等專科——來作念往復員。這需要一種詳盡性的手段。但這是咱們不絕盡頭振作去招東說念主的一個邊界。
在軟件工程方面,有一個通用的軟件工程師職位,咱們老是渴慕招到優秀的東說念主才。我認為這能帶來很好的報恩。天然提及來有點傻,但正如 Dan 所說,靈巧、充滿贊佩心且領有極佳籌備機科學布景的東說念主,盡頭符合這個通用職位的變裝,他們最終不錯作念許多不同類型的事情。
還有許多道理的專科邊界也讓咱們盡頭振作,舉例有件相稱新的事情:跟著如今算力規模的發展,咱們對全集群/全艦隊范圍的優化(fleet-wide optimization)比以前感興味得多。咱們以前對性能優化的看法是,它更多是對于讓那些對速率最關鍵(speed-critical)的部分盡可能地快,而更寬綽的情況是,算力挺低廉的,而東說念主力很貴,是以咱們并不會花太多時辰去優化咱們的通用籌備。但是,天哪,咱們當今正在進行海量的通用籌備,當你啟動在這個邊界投資數十億好意思元時,優化就變得更有價值了。有些東說念主曾在某些超大規模云干事商(hyperscalers)那里有過這方面的告誡,咱們盡頭但愿招到更多具有這種布景的東說念主,來想考咱們正在遭受的優化問題。這些問題有重疊之處,但在重要方面又有所不同,是以這既是一個關系的挑戰,亦然一個新的挑戰。
另外,咱們還作念許多道理的硬件工程職責,比如假想咱們我方的定制芯片(ASICs),領有這種告誡的東說念主不異讓咱們感到超等振作。
還有一件事,咱們剛才吃午飯時提到過,咱們啟動辯論設立一個時勢化設施(formal methods)團隊,基本上是專攬數學講明注解來讓軟件工程變得更靈驗率。這是一個盡頭新、極具探索性(speculative)的邊界,咱們盡頭振作能在那里找到東說念主才。我認為這是一通盤群體的東說念主,在以前我總不得不讓他們失望,對他們說:"是的,咱們對時勢化設施不感興味。"但由于通盤東說念主工智能鼎新,時勢化設施倏得造成了一個道理得多的邊界,是以這是咱們很振作去投資的地方。
另外,我也不知說念,比如表情司理、作念前端開發(front-end dev)的東說念主。事實上,在 Jane Street 的大部分發展歷程中,咱們都假裝這整套 Web 網頁手藝從未發生過,咱們險些通盤的器具都只是在結尾(terminal)里運行。但事實講明注解,如若能畫一條直線,或者有一個器具教導(tool tip)之類的內容,曲直常有用的。是以咱們踐諾上進入了巨額資源來構建盡頭出色的前端開發器具,并為東說念主們打造器具。領有了得的前端工程師——他們既是優秀的軟件工程師,又對"如何制作一款對用戶友好的應用"有很好的領路——這曲直常重要的。
對于通盤這些,我想說一個總體的、更高維度的不雅點(meta point):我認為,在現時圍繞 AI 器具的通盤合理且真實的振作中,東說念主們或然會冷漠這一切當中"東說念主的成分"(human element)的重要性。咱們真實盡頭敬重構建對東說念主類有意的器具,這也包括 AI 器具自己,對吧?我認為,以一種能夠提妙手類領路力、能動性(agency)和效力的方式去鞭策器具的發展,才是最中樞的事情。適度咱們發展的最主要成分,莫過于在這里職責的了得東說念主才,以及能否找到更多合適的東說念主并擴大組織規模,從而讓咱們能作念更多的事情。因此,在想考咱們所構建的系統時,咱們接納了一種盡頭以東說念主為本(human-oriented)的方式。
看你們制作這些道理的謎題和挑戰真實很酷。我認為你們平時就在這樣作念,而且你們還專門為咱們播客的聽眾制作了幾個。我認為在聽這期內容的聽眾可能會對去望望這些謎題很感興味。趁機說一句,其中有一個謎題,不僅提交參加競賽的東說念主里莫得一個能解出來,連 Jane Street 我方也解不出來。阿誰謎題波及尋找種種內置了觸發詞(trigger phrase)的大談話模子的后門。不管如何說,我提到這少許是因為,如若全球有興味深入了解,我認為這些道理的謎題可能會在一定進度上展現出在這里職責是什么式樣的,以及為什么這里是一個道理的地方。
是的,謎題是咱們文化中樹大根深的一部分,是以用它們當作一種與全球設立計劃的方式真實很棒。
太好了,感謝兩位參與此次對話。
Yaron & Dan: 盡頭感謝開云世界杯官網,咱們的幸運。