📖 একটি ছোট গল্প
১৯৪৮ — Bell Labs-এর Claude Shannon একটি প্রশ্ন করলেন: "একটি message-এ আসলে কতটুকু 'তথ্য' আছে?" সেই উত্তর থেকেই জন্ম নিল Information Theory — যা আজকের সব compression, communication, এবং deep learning loss function-এর ভিত্তি।
Information কী?
Shannon-এর ধারণা: একটি ঘটনা যত অপ্রত্যাশিত, তথ্য তত বেশি। "সূর্য পূর্বে উঠেছে" — ০ তথ্য। "আজ ঢাকায় তুষারপাত হয়েছে" — বিশাল তথ্য।
I(x) = -log₂ P(x) bits
- P(x) = 1 হলে I = 0 (নিশ্চিত ঘটনা = কোনো তথ্য নেই)
- P(x) ছোট হলে I বড় (rare event = বেশি information)
- log₂ → একক bit; ln → nats
AI-তে কোথায় কাজে লাগে?
- Cross-Entropy Loss — classification-এ মডেল কতটুকু "অবাক" তা মাপে।
- KL Divergence — VAE, RLHF, Diffusion-এ distribution mismatch।
- Mutual Information — feature selection, representation learning (InfoNCE)।
- Compression — JPEG, MP3, এবং LLM tokenizer (BPE) সবই entropy-based।
Python Implementation
pythonPython · NumPy
import numpy as np
def self_information(p, base=2):
return -np.log(p) / np.log(base)
print(self_information(0.5)) # 1 bit (coin flip)
print(self_information(1/6)) # ~2.58 bits (die roll)
print(self_information(0.001)) # ~9.97 bits (rare event)Summary · সারসংক্ষেপ
- Information = বিস্ময়ের পরিমাপ: I(x) = -log P(x)
- Shannon-এর তত্ত্ব আধুনিক AI-এর loss function ও compression-এর ভিত্তি।
- পরের অধ্যায়ে: একটি পুরো distribution-এর গড় information = Entropy।