📖 একটি ছোট গল্প
AlphaGo যখন বিশ্বচ্যাম্পিয়ন Lee Sedol-কে হারাল, তার পেছনে ছিল Reinforcement Learning। ChatGPT-এর "helpful" আচরণও এসেছে RLHF থেকে। RL-এর হৃদয় হলো একটি সমীকরণ — Bellman Equation।
Markov Decision Process (MDP)
একটি MDP-তে থাকে: States (S), Actions (A), Transition P(s'|s,a), Reward R(s,a), Discount γ।
Agent একটি policy π(a|s) শেখে যা cumulative reward সর্বাধিক করে।
G_t = R_{t+1} + γR_{t+2} + γ²R_{t+3} + …
Bellman Equation
V^π(s) = E[ R(s,a) + γ V^π(s') ]
Q^π(s,a) = E[ R(s,a) + γ Σ_{a'} π(a'|s') Q^π(s',a') ]
Optimal policy থেকে আসে Bellman Optimality:
Q*(s,a) = E[ R + γ max_{a'} Q*(s', a') ]
মূল Algorithm-গুলো
- Q-Learning: Q-table iteratively update — DQN-এর ভিত্তি।
- Policy Gradient (REINFORCE): ∇θ J = E[∇θ log π(a|s) · G_t]
- Actor-Critic: policy (actor) + value (critic) একসাথে শেখে।
- PPO: RLHF-এ ব্যবহৃত — KL penalty সহ clipped policy update।
Python: Q-Learning Snippet
pythonPython · NumPy
import numpy as np
Q = np.zeros((n_states, n_actions))
alpha, gamma, eps = 0.1, 0.95, 0.1
for ep in range(1000):
s = env.reset()
done = False
while not done:
a = np.random.randint(n_actions) if np.random.rand() < eps else np.argmax(Q[s])
s2, r, done, _ = env.step(a)
# Bellman update
Q[s, a] += alpha * (r + gamma * np.max(Q[s2]) - Q[s, a])
s = s2Summary · সারসংক্ষেপ
- RL = MDP-তে cumulative reward maximize করা।
- Bellman equation = value function-এর recursive সংজ্ঞা।
- AlphaGo, ChatGPT (RLHF), robotics — সবই এই গণিতের উপর দাঁড়ানো।