· Hakan Çelik · Yapay Zeka · 4 dk okuma
Token Nedir? AI Modelleri Metni Nasıl Okur ve Nasıl Ücretlendirilir?

- 1. Bir AI Modeli İndirdiğinizde Aslında Ne İndiriyorsunuz?
- 2. Token Nedir? AI Modelleri Metni Nasıl Okur ve Nasıl Ücretlendirilir?
- 3. Prompt Engineering: AI ile Doğru Konuşmanın Yolu
- 4. RAG Nedir? Yapay Zekaya Hafıza Kazandırmanın Yolu
- 5. Fine-Tuning: Bir AI Modelini Ne Zaman ve Nasıl Özelleştirirsiniz?
- 6. MCP Nedir? AI Araçları için REST API
- 7. AI Agents: Araç Kullanan ve Kendi Kararlarını Veren Yapay Zeka
- 8. Multi-Agent Sistemler: Orkestrasyon ve Paralel AI
AI Modelleri Metni Nasıl Görür?
Bir AI modeline mesaj gönderdiğinizde, model o metni ne karakter karakter ne de kelime kelime okur. Bunun yerine token adı verilen parçalara böler.
Token; bir kelime, bir kelime parçası ya da bir noktalama işareti olabilir. Bunu anlamanın en hızlı yolu somut örneklere bakmak:
"Merhaba" → ["Mer", "hab", "a"] → 3 token
"Hello" → ["Hello"] → 1 token
"ChatGPT" → ["Chat", "G", "PT"] → 3 token
"tokenization" → ["token", "ization"] → 2 tokenHemen dikkat çeken bir şey var: Türkçe, İngilizce’ye göre çok daha fazla token tüketir. Bunun nedeni, büyük dil modellerinin büyük çoğunluğunun İngilizce ağırlıklı verilerle eğitilmiş olması. Model, İngilizce kelimeleri bütün olarak tanırken Türkçe kelimeleri daha küçük parçalara böler.
Bu sadece teknik bir detay değil — doğrudan cebinize yansıyan bir farktır.
Tokenization: Metnin Parçalara Bölünmesi
Bu sürece tokenization denir. Her model kendi tokenizer’ını kullanır. OpenAI’nin GPT modelleri tiktoken kütüphanesini, Meta’nın LLaMA modelleri kendi BPE (Byte Pair Encoding) tokenizer’ını kullanır.
BPE’nin çalışma mantığı şu: eğitim verilerinde sık birlikte görünen karakter dizileri zamanla tek bir token haline gelir. “ing”, “tion”, “er” gibi İngilizce son ekler tek tokendır. Türkçe’deki “-mek”, “-yor”, “-lar” gibi son ekler ise genellikle ayrı tokenize edilir.
Bunu kendiniz test edebilirsiniz:
import tiktoken
enc = tiktoken.encoding_for_model("gpt-4")
metinler = [
"Hello, how are you?",
"Merhaba, nasılsın?",
"Tokenization is important",
"Tokenizasyon önemlidir",
]
for metin in metinler:
tokens = enc.encode(metin)
print(f"{len(tokens):2d} token | {metin}")Çıktı yaklaşık şöyle olacak:
5 token | Hello, how are you?
7 token | Merhaba, nasılsın?
4 token | Tokenization is important
6 token | Tokenizasyon önemlidirAynı anlama gelen Türkçe cümle, İngilizce’ye göre %30-50 daha fazla token tüketiyor. Bu hem maliyet hem de context window açısından önemli.
Context Window: Token Tankı
Her modelin bir context window sınırı vardır — modelin aynı anda görebileceği maksimum token sayısı.
| Model | Context Window |
|---|---|
| GPT-3.5 Turbo | 16.000 token |
| GPT-4o | 128.000 token |
| Claude Sonnet 4.5 | 200.000 token |
| Llama 3.1 70B | 128.000 token |
Bu sınır, sadece senin mesajın için değil. Konuşmanın tamamı bu havuzdan beslenir:
Context Window = sistem promptu
+ önceki tüm mesajlar (siz + model)
+ şu anki mesajınız
+ modelin vereceği cevapUzun bir sohbet yaptığınızda ya da büyük bir dosya yapıştırdığınızda context window dolmaya başlar. Limit aşıldığında model en eski mesajları “unutur” — aslında o token’lar artık context’inde değildir, göremez.
Modelin “hafıza kaybı” denen şey budur. Teknik bir kısıtlama, karakterin değil.
RAG nedir? yazısında anlattığım neden tam da bu: tüm dokümanı context’e doldurmak yerine, soruyla ilgili parçaları seçip göndermek — token bütçesini akıllıca kullanmak.
Fiyatlandırma: Her Token’ın Bir Bedeli Var
AI API’leri token başına ücretlendirilir. İki ayrı fiyat vardır:
- Input token: modele gönderdiğin metin (prompt + context)
- Output token: modelin ürettiği cevap
Output token neden daha pahalı? Çünkü her output token üretmek için model hesaplama yapar — input’u okumak pasif, output üretmek aktif bir işlem.
Nisan 2026 itibarıyla örnek fiyatlar (1 milyon token başına USD):
| Model | Input | Output |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| Claude Sonnet 4.5 | $3.00 | $15.00 |
| GPT-4o mini | $0.15 | $0.60 |
| Claude Haiku 4.5 | $0.80 | $4.00 |
1 milyon token yaklaşık 750.000 kelime — yani birkaç roman. Tek bir API çağrısı için bu miktara ulaşmak zor, ama binlerce kullanıcısı olan bir uygulama için bu rakamlar çok hızlı birikir.
Prompt Caching
Anthropic ve OpenAI, sık tekrarlanan uzun promptlar için prompt caching sunuyor. Sistem promptunuz her istekte aynıysa (ki genellikle öyledir), cache’lenmiş versiyonu çok daha düşük fiyata kullanabilirsiniz:
- Anthropic: cache’lenmiş input token’lar standart fiyatın %10’u
- Bu, uzun sistem promptu kullanan uygulamalarda maliyeti dramatik biçimde düşürür
Embedding Modelleri Çok Daha Ucuz
RAG kurulumunda embedding modeli kullandım — metin vektöre dönüştüren model. Bunlar da token bazlı fiyatlandırılır ama büyük dil modellerine kıyasla çok daha ucuzdur:
| Model | Fiyat (1M token) |
|---|---|
| text-embedding-3-small | $0.02 |
| text-embedding-3-large | $0.13 |
| Claude Sonnet 4.5 (input) | $3.00 |
Binlerce dokümanı indexlemek, tek bir GPT-4 konuşmasından bile ucuz olabilir.
Token’ı Anlamak Neyi Değiştiriyor?
Token kavramını öğrenmeden önce AI davranışlarının pek çoğu gizemli görünüyordu:
- Neden model uzun sohbette önceki şeyleri unutuyor? → Context window doldu
- Neden Türkçe kullanmak daha pahalı? → Daha fazla token tüketiyor
- Neden kısa cevap istemek maliyet düşürüyor? → Output token azalıyor
- RAG neden işe yarıyor? → Token bütçesini boşa harcamadan doğru bilgiyi sağlıyor
- Neden sistem promptunu kısa tutmalısın? → Her istekte input token olarak sayılıyor
Token, AI ekosisteminin temel para birimidir. Bunu anladıktan sonra hem daha iyi uygulama yazarsınız hem de faturanızı kontrol altında tutarsınız.
Hakan Çelik


