การหยิบจับด้วยสองแขน (Bimanual manipulation) เป็นงานที่ซับซ้อนเพราะต้องตัดสินใจทั้งจุดที่จะสัมผัสวัตถุและการเลือกใช้แขนที่เหมาะสม งานวิจัยนี้เสนอเฟรมเวิร์กที่ใช้ Vision-Language Model (VLM) เข้ามาช่วยตีความความหมายของงานเพื่อนำทางระบบเรขาคณิต โดยหุ่นยนต์จะสร้างภาพตัวแทน 3 มิติจากกล้องหลายมุมมอง และสร้างจุดที่น่าจะจับได้ (Grasp candidates) จากนั้นจึงใช้ VLM ในการกรองจุดเหล่านั้นตามความเหมาะสมของงาน
ตัวอย่างเช่น หากคำสั่งคือการยื่นของให้มนุษย์ VLM จะระบุจุดที่เหมาะสมบนวัตถุและแขนที่สะดวกที่สุดในการส่งผลลัพธ์ ระบบนี้ทำงานได้ดีในสภาพแวดล้อมที่ไม่มีโครงสร้างชัดเจน และสามารถปรับใช้กับวัตถุประเภทใหม่ๆ ได้โดยไม่ต้องฝึกสอนล่วงหน้า (Generalization)