Şirket Verilerinizle Konuşun: RAG Mimarisi Nedir ve Neden İhtiyacınız Var?

Şirket Verilerinizle Konuşun: RAG Mimarisi Nedir ve Neden İhtiyacınız Var?

Blog serimizde daha önce “Prompt Mühendisliği” ile yapay zekâya nasıl soru sorulacağını, “Custom GPT”ler ile de basit özelleştirmeleri konuşmuştuk.

Ancak bugün çok daha ciddi, profesyonel ve kurumsal bir çözüm hakkında konuşacağız.

ChatGPT, Claude, Gemini veya Llama gibi Büyük Dil Modelleri (LLM) ile etkileşime geçtiğinizde, aslında inanılmaz derecede zeki ancak “zamanda donmuş” bir profesörle konuşuyorsunuz demektir. Bu modellerin eğitimi aylar sürer ve eğitim tamamlandığı saniye, dünyayla olan bilgi akışları kesilir.

LLM’ler Fransız Devrimi’ni anlatabilir, Python kodu yazabilir veya size harika bir pazarlama maili taslağı çıkarabilirler. Zamanda donmuş olmalarının yanında çok daha kritik bir kusurları var: Şirketinizin hiçbir verisini bilmiyorlar. Depo stoklarınız, satış raporlarınız, insan kaynakları politikalarınız, teknik kılavuzlarınız, müşteri sözleşmeleriniz veya ERP/CRM kayıtlarınız… Bunların hiçbiri modelin bilgi havuzunun içinde yer almıyor.

Onlara “Geçen ayki satış toplantısında X müşterisi hakkında ne karar aldık?” veya “Stoktaki 34-B kodlu ürünün güncel iade prosedürü nedir?” diye sorarsanız, alacağınız cevap bellidir: Sessizlik veya daha kötüsü; uydurma bir cevap.

Bu durum bizi iki temel kavrama getiriyor: Genel Zekâ ve Kurumsal Hafıza.

  • Genel Zekâ modelin internetteki genel bilgilerle eğitim almış olmasıdır.
  • Kurumsal Hafıza ise şirketinizin yıllardır oluşturduğu stratejik bilgi birikimidir.

RAG Nedir? (Kavramsal Derinlik)

RAG (Retrieval-Augmented Generation), iki farklı gücü birleştirir: Retrieval: Soruya uygun şirket verisini bulur. -> Generation: LLM, bu veriye dayanarak yanıt üretir. Bu yaklaşım yapay zekâya şu alışkanlığı kazandırır: “Önce kaynağı bul, sonra konuş.” RAG mimarisi yapay zekânın cevabı “tahmin etmek” yerine doğru kaynaktan alarak üretmesini sağlar.

Tabii ki “Açık Kitap Sınavı” Örneği

Klasik LLM: Sınava giren ve tüm tıp kitaplarını yıllar önce okuyup ezberlemiş bir doktordur. Genel teşhis koyabilir ama geçen ay yayınlanan yeni bir tedavi protokolünü bilemez. Bilmediği yerde hafızasını zorlayıp tahminde bulunabilir (Halüsinasyon).

RAG Mimarisi: Aynı doktorun hasta karşısına elinde tabletle çıkmasıdır. Hastanın semptomlarını dinler, anında global tıp veritabanından en güncel makaleleri tarar, ilgili tedavi yöntemini bulur ve kendi tıbbi bilgisiyle sentezleyerek hastaya sunar.

Basitçe formül şudur: RAG = Arama Motoru Keskinliği + LLM’in Muhakeme/Sentez Yeteneği.

RAG Mimarisi Nasıl Çalışır? (Teknik Bakış)

RAG’ın kalbinde insan dilini (kelimeleri) bilgisayarın üzerinde matematiksel işlem yapabileceği sayısal koordinatlara dönüştürme işlemi yani Embedding (Gömme) teknolojisi yatar.

1. Ingestion (Veri Hazırlığı, Chunking ve Vektörleştirme)

Ham veriler (PDF, Word, HTML, Notion sayfaları, SQL veritabanı kayıtları) sisteme oldukları gibi yüklenemez. LLM’lerin bir “Context Window” (Kelime hafıza limiti) vardır. Bu yüzden öncelikle veriyi optimize etmeliyiz.

  • Chunking (Parçalama) Stratejisi: 100 sayfalık bir raporu tek seferde vektörleştirmek verimsizdir. Veri, anlam bütünlüğünü koruyacak şekilde küçük parçalara (Chunks) ayrılır.
    • Sliding Window: Parçalar birbirinin üzerine bindirilerek bölünür (Örn: 1-100. kelimeler, 80-180. kelimeler). Böylece bir cümlenin yarısı bir parçada diğer yarısı öbür parçada kalıp anlam kaybı yaşanmaz.
  • Vektörleştirme (Embedding): Her bir metin parçası OpenAI text-embedding-3 veya açık kaynaklı HuggingFace modelleri kullanılarak çok boyutlu (örneğin 1536 boyutlu) sayı dizilerine dönüştürür.
    • Bu vektörler metnin kelime yapısını değil anlamını kodlar. Bu vektörler Pinecone, Milvus, Qdrant, Weaviate veya pgvector gibi Vektör Veritabanlarında saklanır.

2. Retrieval (Erişim, Anlamsal Arama ve Re-ranking)

Kullanıcı bir soru sorduğunda bu soru da milisaniyeler içinde bir vektöre dönüştürülür. Sistem, klasik anahtar kelime eşleşmesi (Ctrl+F mantığı) yerine Cosine Similarity adı verilen bir matematiksel işlem yapar.

Anlamsal Yakınlık: Vektör uzayında birbirine açısı en dar olan (en yakın) veriler bulunur.

  • Örneğin kullanıcı “Cihaz neden çalışmıyor?” diye sorduğunda, dökümanda “cihaz” veya “çalışmıyor” kelimesi hiç geçmese bile, sistem “Güç kaynağı arızası makineyi durdurabilir” cümlesini bulur. Çünkü vektör uzayında “çalışmamak”, “durmak” ve “arıza” kavramları matematiksel olarak yan yanadır.

Hibrit Arama: Sadece vektör araması “ürün kodları” veya “özel isimler” gibi tam eşleşme gereken yerlerde zayıf kalabilir. İleri seviye RAG sistemleri hem Vektör Aramasını hem de Klasik Anahtar Kelime (BM25) aramasını birleştirerek en doğru sonucu verir.

3. Generation (Üretim, Sentez ve Halüsinasyon Kontrolü)

En kritik aşamadır. Sistem, veritabanından bulduğu en alakalı (örneğin en yüksek skora sahip 5 parça) metni alır ve bunları birleştirerek LLM’e “System Prompt” ile gönderir:

“Sana bir uzman asistan rolü veriyorum. Aşağıda sana /// ile ayrılmış bağlam verilerini (Context) sunuyorum. Kullanıcının sorusunu SADECE ve YALNIZCA bu bilgilere dayanarak cevapla. Eğer bilgi bu metinlerde yoksa, asla uydurma ve ‘Verilen dökümanlarda bu bilgi yer almıyor’ de.”

Bu prompt modelin dış dünyadan edindiği genel bilgileri değil sadece sizin şirket verinizi kullanmasını garanti altına alır.

Neden Fine-Tuning Yerine RAG?

Yöneticilerin en sık düştüğü yanılgı modele yeni bilgi öğretmek için onu eğitmek (Fine-tuning) gerektiğidir.

Fine-tuning bilgi için değil davranış için yapılır.

Neden Fine-Tuning Yerine RAG?

Halüsinasyon, Veri Sınırları ve Limitler

Bir yapay zekâ modeline, eğitim verisinde olmayan (yani internette halka açık olmayan veya çok yeni) bir şirket verisi sorulduğunda iki şey olabilir:

  1. “Bilmiyorum” der: Bu güvenlidir ama işe yaramaz.
  2. Halüsinasyon görür (Uydurur): Bu çok tehlikelidir. Model, şirketinizin aslında var olmayan bir politikasını varmış gibi anlatabilir.

Daha da tehlikeli olan LLM’ler bir soru aldığında, eğer bu soruya ilişkin gerçek bir bilgi yoksa genellikle uydurma eğilimindedir. Kurumsal ortamlarda bu eğilim hatalı iç politika yanıtları, yanlış teknik öneriler veya hatalı finansal yorumlar gibi ciddi riskler doğurabilir.

Custom GPT’ler bu sorunu çözmek için iyi bir başlangıç gibi görünse de kurumsal ölçekte yetersiz kalır:

  • Dosya yükleme limitleri nedeniyle binlerce doküman veya yüz binlerce satır veri yükleyemezsiniz.
  • Veriler güncel kalmaz. Sisteme yüklediğiniz PDF bir hafta sonra eskir, yeni politikalar modele yansımaz.
  • Güvenlik riski ortaya çıkar. Şirket içi dokümanların harici bir sisteme yüklenmesi birçok kurum tarafından kabul edilmez/edilemez.
  • Ölçeklenebilirlik sorunludur. Custom GPT’ler canlı SQL veritabanlarını, SharePoint’i veya API kaynaklarını okuyamaz.

Kısaca Custom GPT’ler bireysel kullanım için mükemmel, kurumsal kullanım için sınırlıdır.

Neden Custom GPT Yerine RAG?

Küçük ve orta ölçekli bir şirket için Custom GPT yeterli olabilir (belki) ancak büyük ölçekli operasyonlarda, IT yöneticileri ve CTO’lar neden RAG tercih etmeli?

Veri Gizliliği ve Güvenlik

Custom GPT’lere yüklediğiniz veriler, platformun genel sunucularına gider. RAG mimarisinde ise verileriniz sizin kontrolünüzdeki sunucularda (Private Cloud veya On-Premise) veya güvenli Vektör Veritabanlarında tutulur. Yapay zekâ modeline (API) sadece o an sorulan soruyla ilgili küçük bir metin parçası gönderilir.

Ölçeklenebilirlik

RAG ile milyonlarca sayfalık dokümanı veya canlı veritabanlarını sisteme bağlayabilirsiniz.

Sınır bir dosya yükleme kotası değil sizin veri havuzunuzdur.

Güncellik

Custom GPT’yi güncellemek için yeni dosyayı elle yüklemeniz gerekir. RAG mimarisi canlı veritabanına bağlıdır. Veritabanına bir veri girdiği anda yapay zekâ onu “bilir”. Modeli yeniden eğitmeye gerek yoktur.

Kaynak Gösterme

RAG sistemleri verdiği cevabın dokümanın hangi sayfasından veya hangi veritabanı satırından geldiğini size referans olarak gösterebilir.

Kurumsal denetlenebilirlik için şarttır.

Sonuç olarak kendi sisteminizi kurmak için LangChain veya LlamaIndex orkestrasyon araçlarını ve Pinecone gibi bir vektör veritabanını kullanarak denemelere bugün başlayabilirsiniz.

RAG mimarisinde verilerinizin tamamı değil sadece sorulan soruyla alakalı olan küçük metin parçaları modelin API’sine gönderilir. Eğer veri gizliliği en üst düzeydeyse, kendi sunucunuzda çalışan (On-Premise) açık kaynaklı modelleri (Llama 3, Mistral vb.) kullanarak verinin dışarı çıkmasını tamamen engelleyebilirsiniz.

Standart RAG sistemleri metin odaklıdır. Ancak PDF içindeki tabloları veya görselleri işlemek için “Multimodal RAG” teknikleri kullanılır.

aşlangıç için yönetilen (cloud) servisler olan Pinecone veya Weaviate kurulum gerektirmediği için idealdir. Eğer halihazırda PostgreSQL kullanıyorsanız, pgvector eklentisi ile mevcut veritabanınızı vektör veritabanına dönüştürmek en maliyet etkin çözümdür.

Doğrudan ChatGPT’ye sormaktan biraz daha yavaştır çünkü arada “Arama” ve “Veri Çekme” adımları vardır. Ancak iyi optimize edilmiş bir sistemde bu gecikme (latency) 1-2 saniye civarındadır ve kullanıcı deneyimini etkilemez.

İlgili Diğer İçerikler
Yazıyı Beğendiniz mi? Yorum Yapın

E-posta adresiniz yayınlanmayacaktır.Zorunlu alanlar * ile işaretlenmiştir.