28 Aralık 2024 04:26

Geniş dil modellerinde yeni rakip: DeepSeek V3

DeepSeek logosu

DeepSeek logosu

Paylaş

Yılın son ayında birçok yeni geniş dil modeli (LLM) tanıtıldı. Aralığın başında Amazon’un Nova’sı ve Meta’nın Lama 3.3 70B’si, Google’ın Gemini 2.0’ı ve OpenAI’ın o3’ü… Ancak yılın son günlerinde Çin kökenli bir yapay zekâ şirketinin tanıttığı DeepSeek V3 bu ayın sürprizi oldu. Eğer DeepSeek V3’e dair yayımlanan test sonuçları ve bilgiler doğru ise DeepSeek, Llama 3.1 ve GPT-4’te dahil olmak üzere pek çok rakibinin üzerinde performans verebilen açık kaynaklı bir modeli rakiplerinin “küsurat” olarak göreceği 5.5 milyon dolarlık bir maliyetle eğitmeyi başarmış. Dahası söz konusu modelin eğitimi ABD’nin Çin’e ithalata getirdiği sınırlamalar nedeni ile veri transfer hızları muadili Nvida H100’e kıyasla neredeyse yarı yarıya yavaşlatılmış olan H800 grafik işlemcileri ile yapılmış.

Potansiyel hataları, halüsinasyonları ve ikna edici yalan söyleme alışkanlıkları ile LLM’lerin nerelerde kullanılabileceği uzunca bir tartışmanın konusu. Ancak bir yerlerde kullanılabilecekse bunun belirleyici parametrelerinden biri modellerin eğitim maliyeti. Maliyet eğitimler için on binlerce özel tasarlanmış grafik işlemcinin aylarca çalışmasından kaynaklanıyor. Örneğin Meta’nın Llama 3 405B modelinin eğitimi için yaklaşık olarak 30.8 milyon grafik işlemci saati harcanmış. DeepSeek V3 için harcanan grafik işlemci saati ise 2.8 milyon civarında.

2020’de yayımlanan ChatGPT’ün maliyeti 2-4 milyon dolar civarındaydı. 2022’de yayımlanan Gemini’ın önceli PaLM’ın maliyeti 3 ile 12 milyon dolar bandında tahmin ediliyordu. 2023 mayısında yayımlanan Gemini 1’in personel ücretleri hariç 30 ila 190 milyon dolar arası bir eğitim maliyeti olduğu tahmin ediliyor. ChatGPT 4’ün eğitim maliyetine dair tahminler ise 40-80 milyon dolar bandında. OpenAI’ın patronu Sam Altman’ın açıklamalarına göre ise modelin maliyeti 100 milyon doların üstünde. OpenAI’ın hâlâ üzerinde çalıştığı ChatGPT 5’in maliyetinin ise yarım milyar doları aşabileceği tahmin ediliyor.

Böyle bir tablo içinde DeepSeek’in esas başarısı güncel modellerle aşık atabilecek bir model üretmek değil. Astronomik miktarlarda para, zaman ve personel ayırabilen şirketler zaten birbirleri ile yarışabilen modeller üretebiliyor. Güncel modeller zaman zaman 1000 kişiyi aşabilen kadrolarla, on binlerce grafik işlemci ile ve milyarlarca dolar dökerek üretiliyor. Örneğin Elon Musk’ın xAI’ı için 100 bin adet Nvidia H100 grafik işlemcisi kullanılıyor. Esas mesele böyle külfetli sistemlere rakip olabilecek bir sistemi 150 kişiyi bulmayan bir kadro ile 2 bin civarında yavaşlatılmış grafik işlemci ve 2 ay model eğitim süresi ile geliştirmiş olmaları. Üstüne de eğitim metodunu ve kullanılan kodları açık kaynaklı olarak yayımlamaları cabası.

Eğer DeepSeek V3’ün gerçek kullanımdaki pratiği yayımlanan test sonuçları ile uyumlu olursa LLM ekosistemini kökten değişikliğe uğratabilecek bir gelişme bu. Modelin açık kaynaklı olması ve görece düşük maliyeti gerek akademi gerekse de daha küçük şirketler açısından ciddi olanaklar sunuyor. Bu modeli baz alıp daha da ileri taşıyabilecek olası yeni yöntemler zaten meselenin bir ayağı. Diğer ayakta ise alanı halihazırda domine eden bir avuç teknoloji devinin konumlarının ciddi şekilde sarsılması duruyor.

YAZARIN DİĞER YAZILARI
Sefer Selvi Karikatürleri
Evrensel Gazetesi Birinci Sayfa