인간은 일상에서 다양한 의사결정을 내린다. 단순한 소비 선택부터 주식 투자, 직업 결정에 이르기까지 수많은 선택이 필요하다. 전통적인 경제학에서는 사람들이 합리적으로 결정을 내린다고 가정하지만, 실제로는 감정, 편향, 학습 등이 복합적으로 작용하여 의사결정이 이루어진다.
행동 경제학에서는 이러한 비합리적인 의사결정을 설명하기 위해 전망 이론(Prospect Theory) 을 제안했다. 이 이론은 사람들이 동일한 금액의 손실과 이득을 다르게 평가하며, 손실을 더 크게 인식하는 경향이 있음을 보여준다. 한편, 심리학과 인공지능 연구에서는 반복적인 경험을 통해 최적의 행동을 학습하는 강화 학습(Reinforcement Learning) 이 인간의 선택 과정과 유사한 방식을 보인다고 설명한다.
본 글에서는 전망 이론과 강화 학습의 개념을 설명하고, 두 이론이 인간의 의사결정 과정에서 어떻게 연결되는지 살펴보고자 한다. 이를 통해 인간이 어떻게 의사결정을 학습하고 변화하는지를 이해하는 데 도움을 주고자 한다.
전망 이론(Prospect Theory)
전망 이론은 다니엘 카너먼(Daniel Kahneman)과 아모스 트버스키(Amos Tversky)가 1979년 제안한 이론으로, 기존의 기대효용이론(Expected Utility Theory)이 설명하지 못하는 인간의 의사결정 패턴을 설명한다.
1. 손실 회피(Loss Aversion)
전망 이론의 핵심 개념 중 하나는 손실 회피 이다. 사람들은 동일한 크기의 이득보다 손실을 더 강하게 인식하는 경향이 있다. 예를 들어, 10만 원을 얻었을 때의 기쁨보다 10만 원을 잃었을 때의 고통이 더 크게 느껴진다. 이로 인해 사람들은 위험을 회피하려는 성향을 보이며, 이는 보험 가입, 투자 결정, 소비 패턴 등 다양한 경제적 행동에서 나타난다.
2. 준거점 효과(Reference Point Effect)
전망 이론에서는 사람들이 절대적인 수치가 아니라 현재 상태(준거점)와 비교하여 의사결정을 내린다고 설명한다. 예를 들어, 정가 50만 원짜리 TV를 40만 원에 할인받으면 소비자는 10만 원을 절약했다고 느낀다. 그러나 원래 가격이 45만 원이었던 TV를 40만 원에 사면 동일한 절약이지만 심리적으로 덜 만족감을 느낄 수 있다.
3. 확률 가중(Probability Weighting)
사람들은 낮은 확률을 과대평가하고, 높은 확률을 과소평가하는 경향이 있다. 예를 들어, 로또 당첨 확률이 매우 낮음에도 불구하고 많은 사람들이 로또를 구매하는 것은 낮은 확률을 실제보다 높게 평가하기 때문이다. 반면, 비행기 사고 확률이 극히 낮음에도 불구하고 비행기를 두려워하는 경향이 있다.
강화 학습(Reinforcement Learning)
강화 학습은 심리학과 인공지능 연구에서 사용되는 학습 이론으로, 보상과 벌칙을 기반으로 최적의 행동을 학습하는 방법을 의미한다. 강화 학습은 인간뿐만 아니라 동물의 학습 과정에서도 중요한 역할을 한다.
1. 보상 기반 학습(Reward-Based Learning)
강화 학습에서는 행동을 한 후 보상을 받으면 해당 행동을 반복할 확률이 높아지고, 벌칙을 받으면 행동을 피하려는 경향이 증가한다. 예를 들어, 학생이 시험에서 높은 점수를 받으면 공부를 계속하는 동기가 생기고, 낮은 점수를 받으면 공부 방법을 바꾸거나 더 열심히 하려는 동기가 생긴다.
2. 탐색과 활용(Exploration vs. Exploitation)
강화 학습의 또 다른 중요한 개념은 탐색(Exploration)과 활용(Exploitation) 의 균형이다.
- 탐색(Exploration): 새로운 방법을 시도하면서 더 나은 결과를 찾으려는 과정이다. 예를 들어, 새로운 식당에서 음식을 주문해보는 것은 탐색에 해당한다.
- 활용(Exploitation): 기존에 효과적이었던 방법을 반복하는 과정이다. 예를 들어, 맛있었던 식당을 다시 방문하는 것은 활용에 해당한다.
효율적인 의사결정을 위해서는 탐색과 활용의 균형이 필요하며, 인간은 경험을 바탕으로 이 균형을 조절한다.
3. 가치 함수(Value Function)와 할인율(Discount Rate)
강화 학습에서는 보상을 기대하는 가치를 가치 함수(Value Function) 라고 하며, 시간이 지남에 따라 보상의 가치를 감소시키는 정도를 할인율(Discount Rate) 이라고 한다. 예를 들어, 사람들은 당장 받을 수 있는 1만 원을 미래에 받을 1만 원보다 더 가치 있게 평가하는 경향이 있다.
전망 이론과 강화 학습의 연결
전망 이론과 강화 학습은 모두 인간이 의사결정을 내리는 방식에 대한 설명을 제공한다. 하지만 두 이론이 강조하는 부분이 다르다.
- 전망 이론은 단기적인 의사결정 과정 을 설명하는 데 초점을 맞추며, 사람들이 손실을 회피하고 확률을 왜곡하는 방식으로 선택을 내리는 이유를 설명한다.
- 강화 학습은 장기적인 학습 과정 을 설명하는 데 초점을 맞추며, 보상을 기반으로 최적의 행동을 학습하는 방식을 설명한다.
1. 손실 회피와 보상 학습
손실 회피 개념은 강화 학습에서도 중요한 역할을 한다. 예를 들어, 동물 실험에서 쥐가 특정 버튼을 눌렀을 때 전기 충격을 받으면, 쥐는 해당 버튼을 피하려는 학습을 한다. 이는 보상을 통해 행동을 강화하는 과정과 동일하다.
2. 확률 가중과 학습 전략
전망 이론의 확률 가중 개념은 강화 학습에서 행동 선택의 편향으로 나타날 수 있다. 예를 들어, 강화 학습을 하는 인공지능이 낮은 확률의 보상을 지속적으로 선택한다면, 이는 전망 이론에서 설명하는 인간의 로또 구매와 유사한 행동 패턴을 보이는 것이다.
3. 준거점 효과와 상태 가치(State Value)
강화 학습에서 특정 상태(State)에 대한 가치는 전망 이론에서의 준거점과 유사하게 작용할 수 있다. 예를 들어, 투자자가 주식을 매수한 가격을 준거점으로 설정하고, 현재 가격이 그보다 낮으면 손실로 인식하여 매도를 망설이는 것은 전망 이론과 강화 학습의 결합된 결과로 볼 수 있다.
결론
전망 이론과 강화 학습은 서로 다른 접근 방식을 가지고 있지만, 인간의 의사결정을 설명하는 데 상호 보완적인 역할을 한다. 전망 이론은 사람들이 손실을 더 크게 인식하고 확률을 왜곡하는 방식으로 선택을 내리는 이유를 설명하며, 강화 학습은 보상을 기반으로 최적의 행동을 학습하는 방식을 설명한다.
두 이론을 결합하면 인간의 의사결정이 어떻게 형성되고 변화하는지를 보다 깊이 이해할 수 있으며, 이는 마케팅, 금융, 인공지능 개발 등 다양한 분야에서 활용될 수 있다. 앞으로 이러한 연구가 더욱 발전하면, 인간의 선택을 보다 정확히 예측하고 개선하는 데 기여할 수 있을 것으로 기대된다.