머신러닝과 기술적 분석

<퀀트 투자의 허와 실> 리뷰 본문

투자

<퀀트 투자의 허와 실> 리뷰

BetterToday 2023. 3. 24. 19:24
728x90

약 1년 반전에 올라온 월가아재님의 유튜브 동영상이다. 처음 동영상을 봤을 때는 퀀트를 막 시작하는 시점이라서 공부할 만한 내용이 많았고, 지금은 실전에서 퀀트투자를 하고 있어서 공감하는 내용도 동의하지 않는 내용도 있다. 

 

https://www.youtube.com/watch?v=BFkPzl1uziE 

 

어쨌거나 지금봐도 배울 점이 많은 영상이다. 

1. 퀀트 소프트웨어에 대한 비판

여기에는 전적으로 동의한다. 나도 퀀트 소프트웨어(퀀트킹, 젠포트, 퀀터스)로 지속적으로 돈을 벌긴 어렵다고 생각한다. 그 이유는 월가아재님 의건대로 백테스트 결과가 통계적으로 유의미하지 않기 때문이다.

통계적으로 의미가 있으려면 어떻게 해야하는가?

동영상에는 이 부분에 대한 설명이 약간 부족한데, 한마디로 샘플이 많고 표준편차가 작으면 통계적으로 의미가 있다. 

(샘플이 얼마나 많아야하고 표준편차가 얼마나 작아야하는지는.. 설명이 너무 빡세지니까 생략)

 

재무제표 데이터를 기반으로 하는 퀀트 소프트웨어의 경우, 백테스트의 년도별 성과가 너무 들쭉날쭉하다. 게다가 제무제표 데이터는 1년에 겨우 4번 업데이트되므로 샘플숫자가 적다. 

과최적화 리스크

그리고 또 하나의 문제가 있는데 시중의 소프트웨어는 규칙을 만드는 데이터(학습데이터, train sample)와 규칙을 검증하는 데이터(test sample)을 구분하지 않는다. 이건 퀀트 소프트웨어 개발자들이 train/validation/test의 개념을 몰라서 안한다기 보단 그냥 샘플숫자가 적어서 못나누는 측면이 많다고 생각한다.

 

제일 쉽게 test sample을 빼놓는 방법은 최근 1년치 정도를 test sample로 사용하는 것인데, 안 그래도 적은 데이터에서 1년치가 빼기가 쉽지 않았을 것이다. 또한, 년도별 성과의 차이가 크므로 train data에서 만든 규칙이 test data에서도 working할 가능성이 낮다.

 

2. 클린한 데이더의 중요성

여기도 매우 동의한다. 나도 처음 모델을 만들 때 고생했던 부분인데 그래도 한국의 IT 선진국(?) 답게 데이터가 비교적 잘 정리되어있다. 

미국의 경우엔 단순한 가격 데이터도 노이즈가 너무 많아 모델링이 쉽지가 않다. (무료 api가 있어서 키는 받아놨는데 못해보고있음)

 

아무튼 가비지 인 가비지 아웃이라고, 이상한 데이터가 들어가면 성과가 안나온다

 

3.  데이터가 많다고 좋은게 아니다. 동일한 확률분포여야 한다.

이것도 처음 모델링할 때 매우 고생했던 부분이다. 금융데이터는 과최적화문제를 풀기가 정말 어려운데, 전략을 만드는 데이터가 동일한 확률 분포에서 실현된 데이터여야 한다.

 

그냥 대충 샘플만 많이 사용하면 무조건 과최적화된다. 이렇게 학습데이터의 확률분포를 맞춰주는 작업이 퀀트 모델링의 키라고 생각한다

 

4. 동의하지 않는 내용 : 퀀트전략을 말로 풀어서 설명해야 한다.

어떤 취지의 설명인지는 알겠지만 동의하지 않는다. 말로 풀어서 설명할 수 있는 모델은 그만큼 과최적화의 리스크가 적다. 그런데 핵심은 과최적화를 줄이는 것이지, 말로 풀어서 설명할 수 있는 간단한 모델을 만드는 것이 아니다.

 

정리

처음 퀀트 모델링을 하려고 할 때 본 동영상을 최근에 다시 보고 리뷰해봤다. 다시 봐도 배울점이 많은 영상이고, 특히 기존 퀀트 소프트웨어에 대한 비판과 과최적화에 대한 내용을 정말 공감이 된 부분이다.

 

728x90
반응형
Comments