當(dāng)前位置：首頁 > > 大模型機器人 > 大模型機器人的語音模型：RT-1，PaLM-E，RT2，π系列

大模型機器人的語音模型：RT-1，PaLM-E，RT2，π系列

來源：東吳證券編輯：創(chuàng)澤時間：2026/3/12 主題：其他 [加盟]

多模態(tài)、動作頻率和泛化能力三條主線驅(qū)動技術(shù)衍變。

1)多模態(tài)： 22年4月Saycan發(fā)布，能夠根據(jù)任務(wù)指令在動作庫中輸出Z優(yōu)動作。22年12月RT1 發(fā)布，動作輸出升J為由Transformer生成的動作Token 。23年3月PaLM-E 發(fā)布，較Saycan 在任務(wù)理解能力上顯著升J。23年7月RT2發(fā)布，結(jié)合RT1和PaLM-E兩者優(yōu)勢，將動作信息納入模型輸出空間。

2)動作頻率： RT2 只能輸出1-5Hz 的動作序列，為克服這一問題。24年10月π0發(fā)布，引入采用 FlowMatch 模型的動作專家，動作輸出升J為50Hz 的動作軌跡。25年2月Helix發(fā)布，采用快慢腦結(jié)構(gòu)，操縱頻率進一步提高，輸出200Hz動作序列。

3)泛化能力：由于現(xiàn)實世界極其復(fù)雜，不可能通過枚舉窮盡所有場景，因此機器人需要具備“零樣本泛化”能力�？v觀模型發(fā)展史，各模型均強調(diào)多任務(wù)聯(lián)合訓(xùn)練、預(yù)訓(xùn)練遷移能力以及跨平臺遷移能力，核心目的就是提升零樣本泛化表現(xiàn)。

RT-1: 端到端Transformer控制模型

RT-1實現(xiàn)了端到端的高效控制流程，在真實環(huán)境中的多任務(wù)執(zhí)行中展現(xiàn)出極高的穩(wěn)定性、泛化能力與工程適應(yīng)性。實驗表明：1)RT-1可在家庭廚房場景中執(zhí)行超過700項具體任務(wù)，在3000多次真實測試中平均成功率達97%,典型操作如“移動物品” “打開抽屜”等成功率超過90%;2)模型具備較強的語義泛化能力，能夠理解并正確響應(yīng)指令的多種表達方式，例如“請遞杯子”與“幫我拿那個水杯”均能正確執(zhí)行；3)具備良好的任務(wù)擴展能力，新任務(wù)可通過行為克隆(Behavior Cloning) 快速適配，無需重訓(xùn) 練整個模型，顯著提升數(shù)據(jù)利用效率與部署靈活性。

RT-1仍受限于任務(wù)平臺耦合、語義理解能力弱等問題，在通用性與認知層智能上尚未突破。1)模型在特定機器人平臺和場景(如廚房)上訓(xùn)練，遷移到其他平臺需重新收集大量數(shù)據(jù)，缺乏跨平臺泛化能力； 2)僅使用圖像和指令做輸入，缺乏觸覺、語音等其他模態(tài)的感知，對復(fù)雜任務(wù)(如操作失敗后的反饋修正)處理力有限；3)缺乏高階規(guī)劃機制，執(zhí)行策略主要依賴短期視覺反饋，難以完成邏輯順序復(fù)雜的任務(wù)鏈；4)語言指令解析深度不夠，面對多條件或因果邏輯類表達(如“先清理再放杯子”)的執(zhí)行準(zhǔn)確率仍不理想。

PaLM-E: 多模態(tài)具身語言模型

PaLM-E 在多個具身任務(wù)和視覺語言任務(wù)中展現(xiàn)出優(yōu)秀的泛化能力和任務(wù)遷移性能。在桌面操作與移動操作環(huán)境中，PaLM-E 能生成多步語言計劃并驅(qū)動真實機器人完成如“分類推積木”“從抽屜中取物”等任務(wù)，實現(xiàn)one-shot 和 zero-shot 泛化。此外，PaLM-E-562B 在OK-VQA 等通用視覺語言任務(wù)中取得L先成績，并能進行多圖推理、數(shù)學(xué)運算與時序感知問答等復(fù)雜推理。聯(lián)合訓(xùn)練實驗表明，通過融合多源數(shù)據(jù)， PaLM-E 在僅用少量具身數(shù)據(jù)時依然能維持高性能表現(xiàn)。

PaLM-E 在實際部署中仍面臨一定挑戰(zhàn)，主要包括模型規(guī)模、推理效率與訓(xùn)練門檻問題。1)模型體量龐大：如 PaLM-E-562B 包含540B 的語言模型與22B 的視覺編碼器，推理速度與資源需求高，不適合部署在資源受限的機器人邊緣設(shè)備上；2)訓(xùn)練成本高：需要預(yù)訓(xùn)練的大模型、圖像編碼器與高質(zhì)量具身數(shù)據(jù)，訓(xùn)練門檻高，數(shù)據(jù)采集效率有限；3)低層控制依賴預(yù)設(shè)策略：高層生成的文本決策仍需靠RT-1等低層策略執(zhí)行，系統(tǒng)整體仍未完全閉環(huán)自動學(xué)習(xí)；4)對三維感知場景效果有限：雖然OSRT 引入了神經(jīng)三維結(jié)構(gòu)表示，但在高度復(fù)雜、動態(tài)交互場景中的空間理解仍有提升空間。

RT2

架構(gòu)&輸出：采用經(jīng)動作信息訓(xùn)練的VLA 模型，輸出1-5Hz 的動作序列。 VLM 模型以PaLM-X 或 PaLM-E 為骨干，經(jīng)過上述方法訓(xùn)練后成為端到端的VLA 模型。后者在應(yīng)用中可直接分析經(jīng)ViT處理的圖像信息和語言信息，Z后視模型大小輸出1-5Hz的動作序列。

具體流程：當(dāng)聽到“幫我從冰箱里拿一瓶水的指令時”,由VLM 模型分析圖像和語言信息，直接理解任務(wù)要求，并輸出如手臂旋轉(zhuǎn)幾度、電機如何運行的動作Token 序列。其相較于RT1, 主要結(jié)合了PaLM-E 推理和決策的優(yōu)勢，增強了對任務(wù)的理解能力。

π0/π0-Fast/π0.5: 引入動作專家，輸出50Hz 動作軌跡

π0: 采用VLM+ 動作專家，輸出50Hz動作軌跡。 π0由預(yù)訓(xùn)練的VLM (視覺模型SigLIP+LLM 模型 Gemma) 和使用Flowmatch 模型的動作專家組成。圖像信息經(jīng)ViT后和語言信息一同輸入給VLM, 經(jīng)其處理后輸入給動作專家，后者結(jié)合當(dāng)前狀態(tài)q, 輸出50Hz連續(xù)動作軌跡。

π0-Fast: 采用Fast算法+Transformer 動作專家，訓(xùn)練時間縮短5倍。 Fast算法先將動作軌跡用DCT (離散余弦變換)壓縮，再由BPE (字節(jié)對編碼)后生成離散動作Token, 進而可將運動數(shù)據(jù)放入動作專家模型中訓(xùn)練，實際應(yīng)用中Transformer輸出的動作Token 經(jīng)Fast解碼后轉(zhuǎn)為動作軌跡。

π0.5:采用內(nèi)置策略規(guī)劃器的VLA。類似π0-Fast,將VLM 訓(xùn)練為VLA, 同時內(nèi)嵌任務(wù)分J模塊。

Helix

●架構(gòu)&輸出：采用端到端的快慢腦架構(gòu)，輸出200Hz 動作序列。Helix采用一個7B 參數(shù)量的預(yù)訓(xùn)練 VLM 作為慢腦，以及一個80M 參數(shù)量的Transformer模型作為快腦。兩個模型解耦，在實際應(yīng)用中以不同頻率同時處理圖像及語言訊息，慢腦負責(zé)思考高層目標(biāo)，并以潛在向量指揮快腦，快腦負責(zé)實時執(zhí)行和調(diào)整動作，并輸出200Hz動作序列。同時由于潛在向量的存在，快慢腦可進行梯度回傳，從而兩者構(gòu)成一個整體的端到端模型。

● 創(chuàng)新點：實現(xiàn)零樣本多機器人協(xié)同以及拾取能力涌現(xiàn)。實驗中，兩臺Figure 02使用Helix次實現(xiàn) 了多機器人間的協(xié)作任務(wù)。同時， Figure發(fā)現(xiàn)，Helix涌現(xiàn)了拾取任意物品的能力。

● 優(yōu)勢：雙系統(tǒng)架構(gòu)符合人類思考方式，同時由于模型參數(shù)增多會拉慢推理速度，因此若想在兼具較強推理和運動輸出能力，思考執(zhí)行分層的快慢腦架構(gòu)必不可少。

● 改進方向1-優(yōu)化雙系統(tǒng)架構(gòu)的融合性：智平方的FiS-VLA 為雙系統(tǒng)架構(gòu)的融合性提出了創(chuàng)新。現(xiàn) 有的雙系統(tǒng)模型存在兩個系統(tǒng)相對d立，無法充分共享“慢思考”系統(tǒng)預(yù)訓(xùn)練知識的問題，協(xié)同效率低，“快執(zhí)行”系統(tǒng)缺乏對“慢思考”系統(tǒng)語義推理結(jié)果的充分利用。FiS-VLA 提出創(chuàng)新架構(gòu)，將VLM末端2層Transformer 模塊重構(gòu)為“快執(zhí)行”的執(zhí)行模塊，嵌入“慢思考”內(nèi)部，形成統(tǒng)一的高效推理與控制模型。這種思路既保留了雙系統(tǒng)架構(gòu)的動作輸出能力，又擁有融合型模型的貫通理解能力。

● 改進方向2-優(yōu)化動作輸出模塊能力：FiS-VLA 采用了雙系統(tǒng)感知協(xié)同訓(xùn)練策略，利用擴散建模增強了“快執(zhí)行”系統(tǒng)的動作生成能力，更好適配Action Chunking的優(yōu)勢，動作輸出穩(wěn)定性提升。

黑人巨大精品欧美在线观看,涩涩福利网址导航,欧美日韩xxx,日韩久久综合,久草中文视频,亚洲伊人久久网,狠狠色噜噜狠狠狠狠69

大模型機器人的語音模型：RT-1，PaLM-E，RT2，π系列

RT-1: 端到端Transformer控制模型

PaLM-E: 多模態(tài)具身語言模型

RT2

π0/π0-Fast/π0.5: 引入動作專家，輸出50Hz 動作軌跡

Helix

初級大模型機器人撬動人形機器人產(chǎn)業(yè)0-1落地，機器人模型的核心迭代方向是將動作模態(tài)融入

Sim+to+Real,具身大模型的問題、現(xiàn)狀與投資機會:本體廠,大廠和獨角獸公司的大模型技術(shù)路徑及進展

像人一樣家庭大模型機器人的關(guān)鍵模塊：異構(gòu)數(shù)據(jù)協(xié)同訓(xùn)練（數(shù)據(jù)策略）、兩階段訓(xùn)練管線（訓(xùn)練策略）、分層推理架構(gòu)（模型設(shè)計）

商超大模型機器人聚焦三個關(guān)鍵模塊：程序化商店與動態(tài)消耗模擬（環(huán)境構(gòu)建）、海量資產(chǎn)與幾何物理優(yōu)化（底層加速）、長程任務(wù)與基準(zhǔn)評測體系

將 VLA大模型部署于機器人：硬件適配與數(shù)據(jù)流,架構(gòu)的微調(diào)對比,人機交互與容錯驗證

大模型機器人在農(nóng)業(yè)場景中的應(yīng)用:精準(zhǔn)采摘,環(huán)境調(diào)控與水肥管理,病蟲害智能監(jiān)測與防控

大模型機器人的特點，以及優(yōu)缺點

服務(wù)機器人(迎賓、講解、導(dǎo)診...)

智能消毒機器人

機器人開發(fā)平臺

大模型機器人的語音模型：RT-1，PaLM-E，RT2，π系列

RT-1: 端到端Transformer控制模型

PaLM-E: 多模態(tài)具身語言模型

RT2

π0/π0-Fast/π0.5: 引入動作專家，輸出50Hz 動作軌跡

Helix

服務(wù)機器人(迎賓、講解、導(dǎo)診...)

智能消毒機器人

機器人開發(fā)平臺

大模型機器人的語音模型：RT-1，PaLM-E，RT2，π系列

π0/π0-Fast/π0.5: 引入動作專家，輸出50Hz 動作軌跡

服務(wù)機器人(迎賓、講解、導(dǎo)診...)