
현재 성과
리워드를 지급하는 방식을 변경한 이후 학습 반복양 등을 조절하고 있습니다.
실제손익 : 이득을 보는 사례 다수
어느 정도 학습이 진행되면 반복적으로 이득을 보는 사례가 발생하고 있습니다. 아래 빨간색 박스 내부에 있는 경우가 이득을 본 케이스입니다. 이득을 가장 많이 본 경우엔 4억 (4 * 10e7)의 이득을 보았습니다. 실제로 4억이 있으면 뭘 하면 좋을까요? 부모님 맛있는 거 사주고 싶습니다. (캬)

리워드 : 지급 방식 개선 필요
그럼에도, 학습을 계속 진행함에도 손해가 발생하는 사례를 꾸준히 나타나고 있습니다. 손실금액이 -1억 이하로 잘 내려가지 않아서 이 정도면 괜찮지 않냐 생각할 수 있는데, 그렇지 않습니다.
손실금액이 -1억 이하로 내려가면 리워드를 뺏고 학습을 종료시키기 때문에 그렇게 나타나는 겁니다.
리워드가 각 에피소드마다 얼마나 지급되어 있는 지 확인해 보면, 특정 구간 부터는 스펙트럼이 매우 넓어 지는 것을 알 수 있습니다. 컴퓨터가 해메고 있다는 뜻입니다. 리워드 지급 방식 개선이 필요합니다.

진행 상황
특정 금액 이하로 손실을 본 경우에만 리워드를 뺏었습니다. 특정 금액 이상으로 이득을 보고 있을 때, 리워드를 추가 지급하기로 하였습니다. 이전에 해본 지급 방식 아니냐고 하실 수 있습니다. 조금 다르게 지급하도록 했습니다.
컴퓨터는 똑똑하지 않습니다. 리워드 지급 양을 매우 세심하게 설게해야 합니다. 포경수술한 아들한테 돈까스 정도의 리워드면 충분하지 람보르기니 정도의 리워드는 안되는 것처럼요,
전 그때 돈까스도 못 얻어먹었습니다.
리워드
하방이 약간 비었습니다. 컴퓨터가 리워드를 어떻게 더 잘 받을 지 잘 학습하고 있다는 말입니다. 긍정적인 포인트 입니다. 여기서 리워드를 1000 부근에서 계속 받을 지, 아니면 더 받을 수 있을 지 지켜봐야 합니다. (설계 상 더 많이 받을 수 있습니다.)

실제 손익
이득을 보기 시작했지만, 하방이 아직 탄탄합니다. 저 하방을 없애야 합니다.

목표
리워드 그래프에서 스펙트럼이 넓어지는 구간을 최대한 제거, 우상향 그래프를 만드는 것이 목표입니다.

'프로젝트 & 생활' 카테고리의 다른 글
| [자동매매] 25-10-26 에이전트 문제인가, 리워드 지급 방식 문제인가 (0) | 2025.10.26 |
|---|---|
| Chuwi Minibook x n150 세팅하기 (0) | 2025.10.14 |
| [회고] 25년 Q3 회고 (0) | 2025.09.30 |
| [자동매매] 25-09-15 리워드 지급 방식 변경 (1) | 2025.09.15 |
| [MacOS] 자주 사용하는 새 맥북 세팅 명령어 모음 (2) | 2025.07.02 |