環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶-重新發(fā)現(xiàn)生活

您當(dāng)前的位置：環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶>關(guān)注 > 正文

OpenAI總裁透露GPT-5改了推理范式，AGI實(shí)現(xiàn)要靠現(xiàn)實(shí)反饋|看熱訊

2025-08-18 17:00:49 來(lái)源：投資界編輯：

OpenAI的AGI之路，總裁Greg Brockman在最新的訪談中說清楚了——

【資料圖】

技術(shù)層面，從文本生成轉(zhuǎn)向強(qiáng)化學(xué)習(xí)的推理范式，在現(xiàn)實(shí)世界中試錯(cuò)并獲取反饋；

資源策略上，持續(xù)投入大規(guī)模計(jì)算資源；

落地環(huán)節(jié)，把模型封裝成Agent，將模型能力打包成為可審計(jì)的服務(wù)進(jìn)程。

這場(chǎng)訪談?dòng)葾I播客Latent Space主持，與Brockman探討了OpenAI的AGI的整體技術(shù)路線與資源策略。

與此同時(shí)，OpenAI的落地布局，以及Brockman對(duì)未來(lái)的思考，也都隨著訪談的進(jìn)行浮出水面。

總結(jié)下來(lái)，Brockman表達(dá)了這些核心觀點(diǎn)：

模型正在不斷增強(qiáng)現(xiàn)實(shí)交互能力，這也是下一代AGI的關(guān)鍵組成部分；

AGI的主要瓶頸在于計(jì)算，計(jì)算量的多少直接決定了AI研究和發(fā)展的速度與深度；

AGI真正的目標(biāo)是讓大模型在企業(yè)和個(gè)人的工作流里長(zhǎng)駐，手段就是Agent；

把模型接進(jìn)現(xiàn)實(shí)世界的應(yīng)用領(lǐng)域極具價(jià)值，各個(gè)領(lǐng)域還有大量尚未采摘的果實(shí)。

模型推理范式的轉(zhuǎn)變

談及OpenAI剛剛發(fā)布的GPT-5，Brockman認(rèn)為這是AI領(lǐng)域的一場(chǎng)重大范式轉(zhuǎn)變，作為OpenAI第一個(gè)混合模型，旨在彌補(bǔ)GPT系列與AGI的距離。

在訓(xùn)練GPT-4之后，OpenAI給自己提出了一個(gè)問題：

為什么它不是AGI？

GPT-4雖然可以進(jìn)行連貫的上下文對(duì)話，但可靠性欠佳，會(huì)犯錯(cuò)甚至脫離軌道。

因此他們意識(shí)到需要在現(xiàn)實(shí)世界中測(cè)試想法，并通過強(qiáng)化學(xué)習(xí)獲取反饋，從而提高可靠性。

這一點(diǎn)在OpenAI早期的Dota項(xiàng)目中就有所實(shí)現(xiàn)，當(dāng)時(shí)使用了純強(qiáng)化學(xué)習(xí)，可以從隨機(jī)初始化狀態(tài)中學(xué)習(xí)復(fù)雜行為。

△OpenAI的Dota訓(xùn)練架構(gòu)

所以從GPT-4完成的那一刻起，OpenAI開始嘗試轉(zhuǎn)向新的推理范式，即先讓模型通過監(jiān)督數(shù)據(jù)學(xué)會(huì)對(duì)話，再借助強(qiáng)化學(xué)習(xí)反復(fù)在環(huán)境中試錯(cuò)。

傳統(tǒng)的模型訓(xùn)練是一次性訓(xùn)練，然后進(jìn)行大量推理，而GPT-5則借助強(qiáng)化學(xué)習(xí)，讓模型在推理過程不斷生成數(shù)據(jù)，然后基于這些數(shù)據(jù)重復(fù)訓(xùn)練，將模型與現(xiàn)實(shí)世界的觀測(cè)結(jié)果反饋到模型中。

這種新范式改變了所需數(shù)據(jù)的規(guī)模，原先預(yù)訓(xùn)練可能需要數(shù)十萬(wàn)個(gè)示例，但強(qiáng)化學(xué)習(xí)只需要從10到100個(gè)任務(wù)中學(xué)習(xí)復(fù)雜行為。

同時(shí)也說明模型正在不斷增強(qiáng)現(xiàn)實(shí)交互能力，這也是下一代AGI的關(guān)鍵組成部分。

計(jì)算能力決定AGI開發(fā)上限

當(dāng)被問及當(dāng)前AGI開發(fā)中的主要瓶頸時(shí)，Brockman明確表示：計(jì)算。

他認(rèn)為，只要擁有更多的計(jì)算能力，OpenAI就總能找到迭代和提高模型性能的方法，計(jì)算量的多少直接決定了AI研究和發(fā)展的速度與深度。

例如同樣是在Dota項(xiàng)目中，當(dāng)時(shí)普遍認(rèn)為PPO （近端策略優(yōu)化）算法無(wú)法實(shí)現(xiàn)擴(kuò)展，但他們通過將內(nèi)核數(shù)量翻倍，實(shí)現(xiàn)了性能的持續(xù)提升，所以其實(shí)所謂的算法壁壘在擴(kuò)大計(jì)算資源后就能得以解決。

而當(dāng)前GPT-5的強(qiáng)化學(xué)習(xí)范式雖然帶來(lái)了更高的樣本效率，但仍然需要模型進(jìn)行數(shù)萬(wàn)次嘗試才能重復(fù)學(xué)會(huì)一項(xiàng)任務(wù)，這需要巨大的計(jì)算量支撐。

更進(jìn)一步，圖靈曾為AGI提出的“超臨界學(xué)習(xí)”概念，認(rèn)為機(jī)器不僅要學(xué)習(xí)被即時(shí)教授的內(nèi)容，還要深入思考其二階、三階甚至四階效應(yīng)，并更新整個(gè)知識(shí)體系。

這種更深層次學(xué)習(xí)過程則同樣需要投入更多的計(jì)算資源，OpenAI當(dāng)前的目標(biāo)就是探索如何以更具創(chuàng)造性的方式消耗計(jì)算，以實(shí)現(xiàn)這種高級(jí)學(xué)習(xí)能力。

Brockman將計(jì)算描述為一種基本燃料，可以將能量轉(zhuǎn)化為存儲(chǔ)在模型權(quán)重中的勢(shì)能，推動(dòng)模型執(zhí)行有效操作。

一旦模型通過大量計(jì)算訓(xùn)練完成，就可以被反復(fù)利用，在多任務(wù)中分?jǐn)偩薮蟮挠?jì)算成本。

另外，他也預(yù)測(cè)最終的AGI將會(huì)是一個(gè)模型管理器，將小型的本地模型與大型云推理器結(jié)合，以實(shí)現(xiàn)自適應(yīng)計(jì)算。

GPT-5的多模型混合和路由機(jī)制就是這種方式的一個(gè)初步嘗試，將推理模型和非推理模型結(jié)合，并通過條件語(yǔ)句選擇合適的模型。

推理模型更適用于深度智能但有充足思考時(shí)間的場(chǎng)景，非推理模型則用于快速輸出回合。

這種復(fù)合式的模型充分利用了計(jì)算的靈活性，能夠根據(jù)任務(wù)需求組合不同能力和成本的模型，也是AGI最可能呈現(xiàn)的面貌。

因此在AI驅(qū)動(dòng)的未來(lái)經(jīng)濟(jì)中，計(jì)算將成為需求極高的資源，擁有更多計(jì)算資源的研究人員可以產(chǎn)出更優(yōu)質(zhì)的成果，如何獲取計(jì)算資源及計(jì)算的分配方式將成為一個(gè)非常重要的問題。

讓大模型進(jìn)入生產(chǎn)

Brockman反復(fù)強(qiáng)調(diào)，模型不再是科研樣品，而是要成為現(xiàn)實(shí)生產(chǎn)線的一環(huán)。

他指出，AGI真正的目標(biāo)是讓大模型在企業(yè)和個(gè)人的工作流里長(zhǎng)駐，而不是停留在論文與演示當(dāng)中。

具體的落地路徑就是把模型封裝成Agent，將模型能力打包成為可審計(jì)的服務(wù)進(jìn)程。

Brockman認(rèn)為，這種交互像與資深同事協(xié)作，一個(gè)關(guān)鍵要素在于可控性——可以“隨時(shí)停下讓你檢查”，而且任何一步都能回滾。

為了保證高權(quán)限Agent可控，OpenAI設(shè)計(jì)了雙層結(jié)構(gòu)的“縱深防御”：

模型內(nèi)部，把system、developer、user三種指令排出可信度順序，使“忽略此前所有指令”這類注入在第一關(guān)就被丟棄；

模型外部，把每個(gè)潛在高危操作拆成最小粒度，通過多級(jí)沙箱逐一確認(rèn)。

對(duì)于這種模式，Brockman用數(shù)據(jù)庫(kù)安全進(jìn)行了類比：

就像防SQL注入，必須先在最低層把洞堵死，再往上疊加護(hù)欄，系統(tǒng)自然穩(wěn)固。

安全護(hù)欄之外，與人類之間的價(jià)值對(duì)齊也是一項(xiàng)重要工程。

工程團(tuán)隊(duì)先通過后訓(xùn)練從海量潛在“人格”中去除普遍不受歡迎的類型。

隨后，剩余的“人格”被放入公開競(jìng)技場(chǎng)接受實(shí)時(shí)評(píng)分，評(píng)價(jià)高的策略在下一輪被放大，評(píng)價(jià)低的被削弱，從而形成模型與社會(huì)偏好的協(xié)同進(jìn)化。

這一流程將保證模型能力升級(jí)時(shí)不脫離人類共識(shí)，也為未來(lái)引入在線學(xué)習(xí)打下數(shù)據(jù)基礎(chǔ)。

另外，為了增強(qiáng)生態(tài)黏性，OpenAI還把輕量級(jí)開源列為第二驅(qū)動(dòng)力。

Brockman的判斷是，當(dāng)開發(fā)者在這些模型上沉淀工具鏈，實(shí)際上就默認(rèn)采納了OpenAI的技術(shù)棧。

“各個(gè)領(lǐng)域還有大量尚未采摘的果實(shí)”

放眼未來(lái)，Brockman認(rèn)為真正值得投入的機(jī)會(huì)不在于再造一個(gè)更炫的“模型包裝器”，而是把現(xiàn)有智能深植于具體行業(yè)的真實(shí)流程之中。

對(duì)很多人來(lái)說，似乎好點(diǎn)子都被做完了，但他提醒，每一條行業(yè)鏈都大得驚人。

把模型接進(jìn)現(xiàn)實(shí)世界的應(yīng)用領(lǐng)域極具價(jià)值，各個(gè)領(lǐng)域還有大量尚未采摘的果實(shí)。

因此，他建議那些“覺得起步太晚”的開發(fā)者與創(chuàng)業(yè)者，先沉到行業(yè)一線，理解利益相關(guān)者、法規(guī)和現(xiàn)有系統(tǒng)的細(xì)節(jié)，再用AI去填補(bǔ)真正的缺口，而不是只做一次性的接口封裝。

當(dāng)被問到如果要給2045年的自己留一張便簽會(huì)寫什么時(shí)，他的愿景是“多星際生活”與“真正的豐裕社會(huì)”。

在他看來(lái)，以當(dāng)前技術(shù)加速度推演，二十年后幾乎所有科幻情節(jié)都難以否定其可行性，唯一的硬約束只剩下物質(zhì)搬運(yùn)本身的物理極限。

與此同時(shí)，他也提醒，計(jì)算資源會(huì)成為稀缺資產(chǎn)；即便物質(zhì)需求被自動(dòng)化滿足，人們?nèi)詴?huì)為了更高分辨率、更長(zhǎng)思考時(shí)間或更復(fù)雜的個(gè)性化體驗(yàn)而渴求更多算力。

如果能穿越回18歲，他想告訴年輕的自己，值得攻克的問題只會(huì)越來(lái)越多，而不會(huì)減少。

我曾以為自己錯(cuò)過了硅谷的黃金年代，但事實(shí)完全相反——現(xiàn)在正是技術(shù)發(fā)展的最好時(shí)機(jī)。

在AI將滲透一切行業(yè)的背景下，機(jī)遇不僅未被耗盡，反而隨技術(shù)曲線的陡升而倍增.

真正的挑戰(zhàn)是保持好奇心，敢于投入新的領(lǐng)域。

關(guān)鍵詞： AGI 模型 AI

相關(guān)閱讀

分享到：

版權(quán)和免責(zé)申明

凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的稿件，均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶獨(dú)家版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載或鏡像；授權(quán)轉(zhuǎn)載必須注明來(lái)源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"，并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的電頭。

freesexvideos性少妇欧美,httpwww色午夜com日本,久久精品成人免费国产,欧美贵妇videos办公室,国产成人精品一区二区三区免费

△OpenAI的Dota訓(xùn)練架構(gòu)

新視野

資訊

焦點(diǎn)