অধ্যায় 45 — Reinforcement Learning Mathematics

📖 একটি ছোট গল্প

AlphaGo যখন বিশ্বচ্যাম্পিয়ন Lee Sedol-কে হারাল, তার পেছনে ছিল Reinforcement Learning। ChatGPT-এর "helpful" আচরণও এসেছে RLHF থেকে। RL-এর হৃদয় হলো একটি সমীকরণ — Bellman Equation।

Markov Decision Process (MDP)

একটি MDP-তে থাকে: States (S), Actions (A), Transition P(s'|s,a), Reward R(s,a), Discount γ।

Agent একটি policy π(a|s) শেখে যা cumulative reward সর্বাধিক করে।

G_t = R_{t+1} + γR_{t+2} + γ²R_{t+3} + …

Bellman Equation

V^π(s) = E[ R(s,a) + γ V^π(s') ]

Q^π(s,a) = E[ R(s,a) + γ Σ_{a'} π(a'|s') Q^π(s',a') ]

Optimal policy থেকে আসে Bellman Optimality:

Q*(s,a) = E[ R + γ max_{a'} Q*(s', a') ]

মূল Algorithm-গুলো

Q-Learning: Q-table iteratively update — DQN-এর ভিত্তি।
Policy Gradient (REINFORCE): ∇θ J = E[∇θ log π(a|s) · G_t]
Actor-Critic: policy (actor) + value (critic) একসাথে শেখে।
PPO: RLHF-এ ব্যবহৃত — KL penalty সহ clipped policy update।

Python: Q-Learning Snippet

pythonPython · NumPy

import numpy as np

Q = np.zeros((n_states, n_actions))
alpha, gamma, eps = 0.1, 0.95, 0.1

for ep in range(1000):
    s = env.reset()
    done = False
    while not done:
        a = np.random.randint(n_actions) if np.random.rand() < eps else np.argmax(Q[s])
        s2, r, done, _ = env.step(a)
        # Bellman update
        Q[s, a] += alpha * (r + gamma * np.max(Q[s2]) - Q[s, a])
        s = s2

Summary · সারসংক্ষেপ

RL = MDP-তে cumulative reward maximize করা।
Bellman equation = value function-এর recursive সংজ্ঞা।
AlphaGo, ChatGPT (RLHF), robotics — সবই এই গণিতের উপর দাঁড়ানো।

পূর্ববর্তী · CH 44

Markov Chains

পরবর্তী · CH 46

Probabilistic Graphical Models