AI大戰(zhàn)進(jìn)入實(shí)體化階段谷歌剛發(fā)布的PaLM-E模型有哪些亮點(diǎn)？

來(lái)源：英為財(cái)情時(shí)間：2023-03-08 21:07:01

財(cái)聯(lián)社3月8日訊（編輯史正丞）過(guò)去幾個(gè)月里，由ChatGPT引發(fā)的AI熱潮向人類展現(xiàn)了通用語(yǔ)言模型的生產(chǎn)力前景。就在聊天機(jī)器人逐漸變成生產(chǎn)力工具之時(shí)，利用通用語(yǔ)言模型驅(qū)動(dòng)真正的機(jī)器人也已經(jīng)提上日程。

(相關(guān)資料圖)

本周老牌AI大廠谷歌與柏林工業(yè)大學(xué)的研究人員聯(lián)合發(fā)布PaLM-E視覺(jué)語(yǔ)言模型，通過(guò)同時(shí)處理圖像和語(yǔ)言文本，解鎖人類與機(jī)器人交互的新篇章。

（預(yù)印本論文，來(lái)源：谷歌、柏林工業(yè)大學(xué)）顧名思義，PaLM-E模型源自于谷歌的大型語(yǔ)言模型PaLM，E指的就是具象化（Embodied）。通過(guò)將通用語(yǔ)言模型與視覺(jué)轉(zhuǎn)換模型ViT相結(jié)合，PaLM-E成功實(shí)現(xiàn)讓AI同時(shí)具備“理解文字”和“讀懂圖片”的能力，不僅能夠輸出文字，還能輸出指令使得機(jī)器人的智能化躍上一個(gè)新的臺(tái)階。

研究人員介紹稱，PaLM和ViT的結(jié)合，使得PaLM-E的參數(shù)量最高可達(dá)5620億組，也是全球已知的最大視覺(jué)語(yǔ)言模型。

回歸到資本市場(chǎng)最關(guān)心的問(wèn)題，這個(gè)聽(tīng)上去很厲害的AI模型，到底能干什么事情呢？對(duì)此研究人員也給出一系列案例，幫助外界理解這個(gè)模型的妙處。

（PaLM-E模型的案例，來(lái)源：谷歌、柏林工業(yè)大學(xué)）首先，具備視覺(jué)屬性的AI模型將擁有解讀圖片并進(jìn)行思維推理的能力。例如可以通過(guò)一張禁行交通標(biāo)志（除自行車(chē)外）的圖片，來(lái)解答“我能否在這條馬路上騎自行車(chē)”；通過(guò)OCR識(shí)別餐館的手寫(xiě)菜單，能進(jìn)行賬單的計(jì)算；或是通過(guò)識(shí)別一系列烘焙材料的照片，向機(jī)器人傳達(dá)“制作蛋糕胚”的流程。

此外，在AI模型與機(jī)器人結(jié)合的實(shí)驗(yàn)演示中，機(jī)器人得到“從抽屜里拿出米餅”的指令后，能夠順利地從十多個(gè)開(kāi)放式抽屜中找到米餅，拿給研究人員。

（來(lái)源：谷歌、柏林工業(yè)大學(xué)）在后續(xù)的實(shí)驗(yàn)中，研究人員還要求機(jī)器人完成“將所有色塊按顏色堆放到不同角落”的指令，以及將“綠色色塊推到烏龜旁邊”的指令，即便機(jī)器人之前沒(méi)有見(jiàn)過(guò)這只烏龜擺件，也能順利地完成任務(wù)。

（來(lái)源：谷歌、柏林工業(yè)大學(xué)）雖然從演示視頻中來(lái)看，受限于演示機(jī)器人較為簡(jiǎn)單的設(shè)計(jì)，執(zhí)行指令的時(shí)候仍顯得“笨手笨腳”。但隨著PaLM-E模型賦予機(jī)器思考如何執(zhí)行人類指令的能力，工業(yè)應(yīng)用和工業(yè)設(shè)計(jì)上的突破也指日可待?；蛟S在不久的將來(lái)，就會(huì)出現(xiàn)一款風(fēng)靡全球的智能機(jī)器人硬件。

值得一提的是，作為AI大戰(zhàn)的老對(duì)手，微軟也已經(jīng)在“圖像+語(yǔ)言模型”的路數(shù)上有所布局。在今年2月底發(fā)表的研究中，微軟就展現(xiàn)了如何使用ChatGPT為大疆Tello無(wú)人機(jī)編寫(xiě)“找飲料”程序的案例。

（來(lái)源：微軟）

關(guān)鍵詞