CH 40Phase 6 · Advanced AI Mathematics

Information Theory

১৫–২৫ মিনিট বাংলা · Math · Python
📖 একটি ছোট গল্প

১৯৪৮ — Bell Labs-এর Claude Shannon একটি প্রশ্ন করলেন: "একটি message-এ আসলে কতটুকু 'তথ্য' আছে?" সেই উত্তর থেকেই জন্ম নিল Information Theory — যা আজকের সব compression, communication, এবং deep learning loss function-এর ভিত্তি।

Information কী?

Shannon-এর ধারণা: একটি ঘটনা যত অপ্রত্যাশিত, তথ্য তত বেশি। "সূর্য পূর্বে উঠেছে" — ০ তথ্য। "আজ ঢাকায় তুষারপাত হয়েছে" — বিশাল তথ্য।

I(x) = -log₂ P(x) bits
  • P(x) = 1 হলে I = 0 (নিশ্চিত ঘটনা = কোনো তথ্য নেই)
  • P(x) ছোট হলে I বড় (rare event = বেশি information)
  • log₂ → একক bit; ln → nats

AI-তে কোথায় কাজে লাগে?

  • Cross-Entropy Loss — classification-এ মডেল কতটুকু "অবাক" তা মাপে।
  • KL Divergence — VAE, RLHF, Diffusion-এ distribution mismatch।
  • Mutual Information — feature selection, representation learning (InfoNCE)।
  • Compression — JPEG, MP3, এবং LLM tokenizer (BPE) সবই entropy-based।

Python Implementation

pythonPython · NumPy
import numpy as np

def self_information(p, base=2):
    return -np.log(p) / np.log(base)

print(self_information(0.5))   # 1 bit (coin flip)
print(self_information(1/6))   # ~2.58 bits (die roll)
print(self_information(0.001)) # ~9.97 bits (rare event)

Summary · সারসংক্ষেপ

  • Information = বিস্ময়ের পরিমাপ: I(x) = -log P(x)
  • Shannon-এর তত্ত্ব আধুনিক AI-এর loss function ও compression-এর ভিত্তি।
  • পরের অধ্যায়ে: একটি পুরো distribution-এর গড় information = Entropy।