
리워드 지급 방식을 개선했습니다. 학습이 더 이상 필요없다고 판단되는 실제 손해 기준을 -1천만원 에서 -5백만원으로 변경했습니다. (손해에 대한 학습 종료 시기가 더 빨라짐) 또, 거래로 인해 얻는 수익이 0원 이상일 경우 리워드를 추가 지급했습니다.
개선 이후 많이 좋아졌습니다. 리워드를 얼마나 많이 받았는 지 알려주는 그래프는 하방이 뚫린 채로 우상항하고 있습니다. 학습을 잘 하고 있네요.


학습만 잘하면 안됩니다. 실제 순익도 올라가야 하죠. 실제 손익 그래프를 보면 꾸준히 올라가긴 하지만 아직까지 손해를 보는 경우가 있습니다. 1) 꾸준한 학습 이후에도 2) 꾸준한 손해를 본다면 3) 리워드 지급 체계를 다시 뜯어 고쳐야 합니다.
웬만하면 리워드 지급 체계를 변경하고 싶지는 않네요, 잘 학습하는 리워드 지급 체계를 찾는데 4~5개월이 걸렸습니다. 에이전트가 새로운 리워드 지급 체계를 잘 학습할 지는 별개입니다.

다음 목표
리워드 1000점 이상
지금까지 에이전트는 리워드 1000점을 초과하여 리워드를 받은 적이 없습니다. 이론 상 에이전트는 리워드를 2000점까지 받을 수 있는데요, 왜 1000점까지만 받는 지 아직까지 잘 모르겠습니다. 아무리 봐도 코드는 문제 없는데..
가능성 있는 원인들
- 코드 문제 (리워드 지급 체계 문제)
- 에이전트가 멍청해서 (리워드 지급 체계 문제)
- 학습이 충분하지 않아서 (가장 가능성 높다고 생각합니다.)
실제 손익에서 0 이상으로 나오도록
리워드 지급 체계와 실제 손익은 별개로 작동합니다. 실제 손익이 0 이상으로 나올 지는 학습을 좀 더 많이 지켜봐야 합니다.
벌써 달리네..
10배로 학습 횟수를 올렸기에, 학습 시간도 많이 듭니다. 이전에 3-4일이면 학습이 종료되는데, 요즘은 학습 종료를 본 적이 없습니다. 아마 15일 정도 걸릴 것 같은데요, 더 좋은 장비를 사야하나 고민입니다.
엔비디아에서 이번에 개인용 슈퍼컴퓨터 dgx spark를 단돈 5백만원 대에 출시한다고 하는데, 솔깃합니다. 솔깃하면 뭐하니 돈이 없는데 하
'프로젝트 & 생활' 카테고리의 다른 글
| [회고] 2025년 회고 (0) | 2026.02.08 |
|---|---|
| [회고] 25년 Q4 회고 (0) | 2025.12.13 |
| Chuwi Minibook x n150 세팅하기 (0) | 2025.10.14 |
| [자동매매] 25-10-07 명확해진 목표, 구체적인 성과 (0) | 2025.10.07 |
| [회고] 25년 Q3 회고 (0) | 2025.09.30 |