นักวิจัยนำเสนอ RAMP (Reinforcement learning, Action Model learning, and Planning) ซึ่งเป็นกลยุทธ์สำหรับการเรียนรู้โมเดลการทำงาน (Action Models) ในเชิงตัวเลขแบบออนไลน์ผ่านการโต้ตอบกับสภาพแวดล้อมโดยตรง โดยปกติแล้วการสร้างโมเดลเหล่านี้ทำได้ยากและมักต้องใช้ข้อมูลจากผู้เชี่ยวชาญ แต่ RAMP แก้ปัญหานี้ด้วยการสร้างวงจรป้อนกลับเชิงบวกระหว่างนโยบาย RL และตัววางแผน (Planner)
ระบบจะใช้ RL ในการเก็บข้อมูลเพื่อปรับปรุง Action Model ในขณะที่ตัววางแผนจะนำโมเดลที่เรียนรู้ได้มาสร้างแผนการทำงานเพื่อช่วยฝึกฝน RL ต่อไป นอกจากนี้ยังมีการเปิดตัว Numeric PDDLGym ซึ่งเป็นเฟรมเวิร์กสำหรับเปลี่ยนปัญหาการวางแผนเชิงตัวเลขให้เป็นสภาพแวดล้อม Gym ที่เข้ากันได้กับอัลกอริทึม AI มาตรฐาน ผลการทดสอบแสดงให้เห็นว่า RAMP มีประสิทธิภาพเหนือกว่าอัลกอริทึม PPO ทั้งในด้านการแก้ปัญหาและคุณภาพของแผน