ความยากของการสร้างหุ่นยนต์เพื่อช่วยงานทางกายภาพกับมนุษย์ (pHRI) คือการขาดแคลนข้อมูลการฝึกฝนขนาดใหญ่ งานวิจัยนี้จึงเปิดตัว "text2sim2real" ซึ่งเป็นเฟรมเวิร์กที่ใช้ LLMs และ VLMs ในการสร้างสถานการณ์จำลองขึ้นมาโดยอัตโนมัติจากคำสั่งสั้นๆ เช่น การจำลองโมเดลมนุษย์แบบ Soft-body เลย์เอาต์ของห้อง และวิถีการเคลื่อนที่ของหุ่นยนต์
เฟรมเวิร์กนี้ช่วยให้สามารถรวบรวมข้อมูลการสาธิต (Synthetic demonstration) จำนวนมหาศาลได้โดยไม่ต้องใช้คนจริงๆ ในขั้นตอนการฝึก จากนั้นจึงใช้เทคนิค Imitation Learning เพื่อสร้างนโยบายการควบคุม (Policy) ที่ทำงานได้จริงในโลกภายนอก ผลการทดสอบในงานช่วยเหลือ เช่น การช่วยเกาหรือการช่วยอาบน้ำ พบว่ามีอัตราความสำเร็จสูงกว่า 80% แม้ในสถานการณ์ที่มนุษย์มีการเคลื่อนที่ที่ไม่ได้ระบุไว้ในบท