Reinforcement Learning - Rigid Body Simulation 질문 해도 될까요?
2022.02.08
11
3019
제가 학부생인데 이분야에 관심이 많다보니 영어로 자료들을 열심히 찾아보고 또 여기저기 물어보면서
Isaac gym을 통해 Quadruped Robot을 PPO기반으로 강화학습 시켜보고 있습니다.
근데 모델이 힘도 제대로 못쓰면서 단순하게 서있는것도 힘들어 보이는데, 이부분이 해결이 안돼서
대한민국의 지식인들이 모인 김박사넷에 여쭤봅니다..
1. 모델도 넣고 지형도 설정하고 모델 개체수도 논문을 기반으로 설정했습니다. (https://openreview.net/pdf?id=wK2fDDJ5VcF)
2. 강화학습 목표는 joint의 angle position으로 설정했습니다. (stiffness : 1.0 [N*m/rad], damping : 0.1 [N*m*s/rad])
3. 재료는 모터들을 제외하고 대부분이 abs & PLA 3D프린터 재질이기 때문에, 질량값이 그램단위가 많았습니다.
4. 현재 보상에대한 설정은 model base의 높이에 중점을 맞췄습니다.
모델이 갓태어난 사슴처럼 휘청휘청 거리다가 힘도 못내고 쓰러지는 경향이 많은데,
이런 부분은 어디를 어떻게 수정해야 하는지 감이 안잡혀서 글을 올려봅니다..
카카오 계정과 연동하여 게시글에 달린 댓글 알람, 소식등을 빠르게 받아보세요
댓글 11개
2022.02.08
보니깐 환경 하나에서 하나의 정책을 여러개의 워커를 돌려서 업데이트 하는 것 같은데요.
지형을 설정했다고 말씀하셨는데, 지형이 오목하거나 볼록하거나 그러지는 않나요?
가령, 1번 에이전트는 평면 지형, 2번 에이전트는 왼쪽경사 비탈길, 3번에이전트는 오른쪽 경사 비탈길에 있다고 가정해볼게요.
각 에이전트가 학습됨에 따라서 1번 에이전트 학습될때, 2~3번 에이전트 학습에 안좋은 영향을 미치게 되거든요.
대안으로는, 이러한 점을 평면 공간을 인식할 수 있게끔 상태공간을 늘려서 해결하는 방법이 있겠구요.
이렇게 구현하기 어렵다면, 임시방편의 대안으로는 환경 자체를 왼쪽 경사 비탈길로 일관되게 만들어 학습하는 방법이 있겠네요.
강화학습이 control 변수가 정말 많아서 (learning rate까지도 영향) 많이 어려우실 텐데,
어떻게 해야 가장 간단한 문제를 간단하게 풀어낼 수 있을까 많이 고민해보면 좋을 것 같아요
2022.02.08
대댓글 2개
2022.02.08
대댓글 1개
2022.02.08
대댓글 1개