CH 45Phase 6 · Advanced AI Mathematics

Reinforcement Learning Mathematics

১৫–২৫ মিনিট বাংলা · Math · Python
📖 একটি ছোট গল্প

AlphaGo যখন বিশ্বচ্যাম্পিয়ন Lee Sedol-কে হারাল, তার পেছনে ছিল Reinforcement Learning। ChatGPT-এর "helpful" আচরণও এসেছে RLHF থেকে। RL-এর হৃদয় হলো একটি সমীকরণ — Bellman Equation।

Markov Decision Process (MDP)

একটি MDP-তে থাকে: States (S), Actions (A), Transition P(s'|s,a), Reward R(s,a), Discount γ।

Agent একটি policy π(a|s) শেখে যা cumulative reward সর্বাধিক করে।

G_t = R_{t+1} + γR_{t+2} + γ²R_{t+3} + …

Bellman Equation

V^π(s) = E[ R(s,a) + γ V^π(s') ]
Q^π(s,a) = E[ R(s,a) + γ Σ_{a'} π(a'|s') Q^π(s',a') ]

Optimal policy থেকে আসে Bellman Optimality:

Q*(s,a) = E[ R + γ max_{a'} Q*(s', a') ]

মূল Algorithm-গুলো

  • Q-Learning: Q-table iteratively update — DQN-এর ভিত্তি।
  • Policy Gradient (REINFORCE): ∇θ J = E[∇θ log π(a|s) · G_t]
  • Actor-Critic: policy (actor) + value (critic) একসাথে শেখে।
  • PPO: RLHF-এ ব্যবহৃত — KL penalty সহ clipped policy update।

Python: Q-Learning Snippet

pythonPython · NumPy
import numpy as np

Q = np.zeros((n_states, n_actions))
alpha, gamma, eps = 0.1, 0.95, 0.1

for ep in range(1000):
    s = env.reset()
    done = False
    while not done:
        a = np.random.randint(n_actions) if np.random.rand() < eps else np.argmax(Q[s])
        s2, r, done, _ = env.step(a)
        # Bellman update
        Q[s, a] += alpha * (r + gamma * np.max(Q[s2]) - Q[s, a])
        s = s2

Summary · সারসংক্ষেপ

  • RL = MDP-তে cumulative reward maximize করা।
  • Bellman equation = value function-এর recursive সংজ্ঞা।
  • AlphaGo, ChatGPT (RLHF), robotics — সবই এই গণিতের উপর দাঁড়ানো।