본문 바로가기
프로젝트 & 생활

[자동매매] 25-10-07 명확해진 목표, 구체적인 성과

by TaeGyeong Lee 2025. 10. 7.

현재 성과 

리워드를 지급하는 방식을 변경한 이후 학습 반복양 등을 조절하고 있습니다. 

실제손익 : 이득을 보는 사례 다수

어느 정도 학습이 진행되면 반복적으로 이득을 보는 사례가 발생하고 있습니다. 아래 빨간색 박스 내부에 있는 경우가 이득을 본 케이스입니다. 이득을 가장 많이 본 경우엔 4억 (4 * 10e7)의 이득을 보았습니다. 실제로 4억이 있으면 뭘 하면 좋을까요? 부모님 맛있는 거 사주고 싶습니다. (캬) 

리워드 : 지급 방식 개선 필요 

그럼에도, 학습을 계속 진행함에도 손해가 발생하는 사례를 꾸준히 나타나고 있습니다. 손실금액이 -1억 이하로 잘 내려가지 않아서 이 정도면 괜찮지 않냐 생각할 수 있는데, 그렇지 않습니다. 

손실금액이 -1억 이하로 내려가면 리워드를 뺏고 학습을 종료시키기 때문에 그렇게 나타나는 겁니다. 

리워드가 각 에피소드마다 얼마나 지급되어 있는 지 확인해 보면, 특정 구간 부터는 스펙트럼이 매우 넓어 지는 것을 알 수 있습니다. 컴퓨터가 해메고 있다는 뜻입니다. 리워드 지급 방식 개선이 필요합니다. 

 

진행 상황 

특정 금액 이하로 손실을 본 경우에만 리워드를 뺏었습니다. 특정 금액 이상으로 이득을 보고 있을 때, 리워드를 추가 지급하기로 하였습니다. 이전에 해본 지급 방식 아니냐고 하실 수 있습니다. 조금 다르게 지급하도록 했습니다. 

컴퓨터는 똑똑하지 않습니다. 리워드 지급 양을 매우 세심하게 설게해야 합니다. 포경수술한 아들한테 돈까스 정도의 리워드면 충분하지 람보르기니 정도의 리워드는 안되는 것처럼요, 

전 그때 돈까스도 못 얻어먹었습니다. 

리워드

하방이 약간 비었습니다. 컴퓨터가 리워드를 어떻게 더 잘 받을 지 잘 학습하고 있다는 말입니다. 긍정적인 포인트 입니다. 여기서 리워드를 1000 부근에서 계속 받을 지, 아니면 더 받을 수 있을 지 지켜봐야 합니다. (설계 상 더 많이 받을 수 있습니다.) 

실제 손익

이득을 보기 시작했지만, 하방이 아직 탄탄합니다. 저 하방을 없애야 합니다. 

 

목표 

리워드 그래프에서 스펙트럼이 넓어지는 구간을 최대한 제거, 우상향 그래프를 만드는 것이 목표입니다.