畫
隨著越來越多的機器人進入各種復雜的環境,研究人員正在努力使它們與人類的交互盡可能流暢自然。訓練機器人對口頭指令立即做出反應,例如“拿起玻璃并向右移動”,在許多情況下都是理想的,因為這最終會使人類和機器人之間的交互更加直接和直觀。然而,這并不總是容易的,因為它需要機器人理解用戶的指令,還需要知道如何根據特定的空間關系移動對象。
德國弗賴堡大學的研究人員最近設計了一種新方法,通過對“幻覺”場景的表征進行分類,教會機器人根據人類用戶的指令移動物體。他們預先發表的關于arXiv的論文將于今年6月在IEEE機器人和自動化國際會議(ICRA)上發表。
“在我們的工作中,我們專注于相關對象的放置指令,如‘將杯子放在盒子的右側’或‘將黃色玩具放在盒子的頂部’。”參與這項研究的研究人員之一Oier Mees告訴TechXplore。“為了做到這一點,機器人需要考慮將杯子相對于盒子或任何其他參考對象放在哪里,以再現用戶描述的空間關系。”
訓練機器人理解空間關系并相應地移動物體是非常困難的,因為用戶的指令通常不會在機器人觀察的更大場景中描繪特定位置。換句話說,如果一個人類用戶說“把杯子放在手表左側”,機器人應該把杯子放在手表左側多遠,不同方向之間的確切界限在哪里(例如,右、左、前、后等。)?
“由于這種固有的模糊性,沒有可用于學習空間關系建模的基本事實或‘正確’數據。”Mees說,“我們從輔助學習的角度解決了空間關系的基于事實的像素標注不可用的問題。”
Mees和他的同事設計的方法背后的主要思想是,更容易確定兩個物體和代表它們被發現的環境的圖像之間的空間關系。這使得機器人能夠檢測一個物體是否在另一個物體的左側、上方、前方等等。
雖然識別兩個對象之間的空間關系并不能指定這些對象應該放在哪里來重現這種關系,但是在場景中插入其他對象可以讓機器人推斷出在多個空間關系中的分布。將這些不存在的(即虛幻的)物體添加到機器人所看到的東西中,將允許它在執行給定動作(即在桌面上的特定位置或其前方放置一個物體)時評估場景的外部環境。
“最常見的情況是,在圖像中實際‘粘貼’一個對象需要訪問3D模型和輪廓,或者仔細設計一個優化過程來生成對策網絡(GANs)。”米斯說,“此外,簡單地‘粘貼’圖像中的對象會產生微妙的像素偽像,導致明顯不同的特征,并使訓練錯誤地專注于這些差異。我們使用一種不同的方法,將物體的高級特征植入卷積神經網絡生成的場景特征圖中,從而對場景表征產生錯覺,并將其歸類為輔助任務,以獲得學習信號。”
在訓練卷積神經網絡(CNN)學習基于錯覺物體的空間關系之前,研究人員必須確保它能夠根據單個圖像對單個物體對之間的關系進行分類。隨后,他們“欺騙”了這個名為RelNet的網絡,通過在不同的空間位置植入高級別的物體特征,對“幻覺”場景進行分類。
“我們的方法允許機器人在最少的數據收集或靈感的情況下,遵循人類用戶給出的自然語言放置指令。”米斯說,“每個人都希望家里有一個服務機器人,它可以通過理解自然語言指令來執行任務。這是機器人更好地理解公共空間的意義的第一步。”
現有的訓練機器人移動物體的方法大多是利用與物體三維形狀相關的信息來模擬成對的空間關系。這些技術的一個關鍵限制是它們通常需要額外的技術組件,例如可以跟蹤不同物體運動的跟蹤系統。另一方面,Mees和他的同事提出的方法不需要任何額外的工具,因為它不是基于3D視覺技術。
研究人員在一系列涉及真實用戶和機器人的實驗中評估了他們的方法。這些測試的結果非常有希望,因為他們的方法可以使機器人根據人類用戶語音指令描述的空間關系,有效地識別出在桌子上放置物體的最佳策略。
“幻覺場景代表我們的新穎方法也可以應用于機器人和計算機視覺社區,因為機器人通常需要能夠估計未來狀態的良好程度,以便推斷它們需要采取的行動。”米斯說。“通過使用幻覺場景表示作為數據增強的一種形式,它還可以用于提高許多神經網絡的性能,如對象檢測網絡。”
Mees和他的同事可以可靠地建立一組自然語言空間單詞的模型(如右、左、上等。)而不使用3D可視化工具。未來,他們研究中提出的方法可以用來提高現有機器人的能力,使它們能夠更有效地完成簡單的物體移動任務,并遵循人類用戶的語音指令。
同時,他們的論文也可以為開發類似技術提供參考,以增強人類和機器人在其他物體操作任務中的交互。如果加入輔助學習方法,Mees和他的同事開發的方法也可以減少機器人研究數據集編譯相關的成本和工作,因為它可以在沒有大型標注數據集的情況下預測像素概率。
米斯總結道:“我們認為這是人類和機器人達成共識的充滿希望的第一步。”“未來,我們希望將我們的方法擴展到包括對參考表達式的理解,以便開發一個遵循自然語言指令的拾取和放置系統。”