অধ্যায় 40 — Information Theory

📖 একটি ছোট গল্প

১৯৪৮ — Bell Labs-এর Claude Shannon একটি প্রশ্ন করলেন: "একটি message-এ আসলে কতটুকু 'তথ্য' আছে?" সেই উত্তর থেকেই জন্ম নিল Information Theory — যা আজকের সব compression, communication, এবং deep learning loss function-এর ভিত্তি।

Information কী?

Shannon-এর ধারণা: একটি ঘটনা যত অপ্রত্যাশিত, তথ্য তত বেশি। "সূর্য পূর্বে উঠেছে" — ০ তথ্য। "আজ ঢাকায় তুষারপাত হয়েছে" — বিশাল তথ্য।

I(x) = -log₂ P(x) bits

P(x) = 1 হলে I = 0 (নিশ্চিত ঘটনা = কোনো তথ্য নেই)
P(x) ছোট হলে I বড় (rare event = বেশি information)
log₂ → একক bit; ln → nats

AI-তে কোথায় কাজে লাগে?

Cross-Entropy Loss — classification-এ মডেল কতটুকু "অবাক" তা মাপে।
KL Divergence — VAE, RLHF, Diffusion-এ distribution mismatch।
Mutual Information — feature selection, representation learning (InfoNCE)।
Compression — JPEG, MP3, এবং LLM tokenizer (BPE) সবই entropy-based।

Python Implementation

pythonPython · NumPy

import numpy as np

def self_information(p, base=2):
    return -np.log(p) / np.log(base)

print(self_information(0.5))   # 1 bit (coin flip)
print(self_information(1/6))   # ~2.58 bits (die roll)
print(self_information(0.001)) # ~9.97 bits (rare event)

Summary · সারসংক্ষেপ

Information = বিস্ময়ের পরিমাপ: I(x) = -log P(x)
Shannon-এর তত্ত্ব আধুনিক AI-এর loss function ও compression-এর ভিত্তি।
পরের অধ্যায়ে: একটি পুরো distribution-এর গড় information = Entropy।

পূর্ববর্তী · CH 39

Embedding Space Intuition

পরবর্তী · CH 41

Entropy & Cross Entropy