Veri yağmacıları
WSJ'nin röportajında Sora'nın eğitiminde kullanılan verilerin kaynakları sorulduğunda OpenAI baş teknoloji sorumlusu Mira Murati'nin bocaladığı anlar böyle yansıdı.
OpenAI’ın şubat ayının sonlarında tanıttığı yeni metinden video üretimi modeli Sora tanıtım videoları ile epey merak konusu olmuştu. Sora’nın tanıtım videoları yakından bakıldığında dikkatsiz bir gözden kolayca kaçabilecek çeşitli hatalar içerse de metinden video üretimi modelleri açısından dikkate değer bir ilerlemeydi. OpenAI’ın Baş Teknoloji Sorumlusu (CTO) Mira Murati, Wall Street Journal’dan (WSJ) Joanna Stern’e verdiği röportajda Sora’nın “bu yıl, belki de birkaç ay içinde” genel kullanıma açılacağını duyurdu. Röportajda Sora’ya dair “ses üretimi eklemeyi planladıkları” gibi epeyce yeni bilgi var. Ancak tüm görüşmenin en can alıcı kısmı Stern’in Sora’yı eğitmek için kullanılan veri kümesini sorduğu kısımdı:
Stern: Sora’yı eğitmek için hangi verileri kullandınız?
Murati: Kamuya açık verileri ve lisanslı verileri kullandık.
S: Yani, YouTube videoları mı?
M: Emin değilim.
S: Instagram’dan, Facebook’tan videolar mı?
M: Bilirsiniz, eğer kamuya açıklarsa, evet kamunun kullanımına açıklarsa, veri olabilirler, emin değilim. Bu konuda emin değilim.
S: Peki ya Shutterstock? Onlarla bir anlaşmanız olduğunu biliyorum.
M: Kullanılan verilerin ayrıntılarına girmeyeceğim ama kamuya açık ya da lisanslı verilerdi.
Eğitim verilerinin kaynağı, geniş dil modellerinin (LLM) geleceğini belirleyecek kritik tartışmalardan biri. OpenAI başta olmak üzere çeşitli LLM geliştiricilere verilerin ticari amaçlarla, izinsiz ve kendileri ile rekabet edecek şekilde kullandıkları gerekçesi ile veri sahipleri tarafından açılmış epeyce dava var. Basın yayın alanından, daha büyük yayınlardan Newyork Times, The Intercept ve Raw Story OpenAI’ı dava eden kuruluşlar arasında. Hal böyle iken OpenAI’ın baş teknoloji sorumlusunun veri kaynaklarını bilmemesi pek mümkün değil. Ancak gerek bocalayan kaçamak yanıtları gerekse de yanıtlarken mimikleri ve yüz ifadeleri böyle bir soruya hazırlanmadığına da işaret eder nitelikte.Murati’nin ağzından kaçırdığı kısım OpenAI’ın veri kaynaklarına yaklaşımına dair ciddi bir fikir veriyor. Murati’nin eveleyip gevelediklerini “Kamuya açıksa ticari olarak kullanabiliriz” şeklinde özetlenebilir. Telif hakları ve fikri mülkiyet konularına az çok aşina olan herhangi biri bu cümlenin ne kadar yanlış olduğunu söyleyebilir. Zaten tahmin edilen ancak Murati’nin ifadeleri ile bu kez itiraf edilmiş olan OpenAI’ın olası sonuçlarına katlanmayı göze alarak dört bir koladan yağmaladığı veriyi kullandığı gerçeğidir.
OpenAI’ın bu kadar pervasızca davranabilmesinin sebeplerinden biri telif hukukunun ta kendisi. Mevcut telif hukuku büyük telif sahiplerini korumak üzere kurulu. Tam da bu yüzden OpenAI ve diğer LLM’lere telif veya fikri mülkiyet davası açanlara baktığınızda karşınıza büyük şirketlerden oluşan bir tablo çıkıyor. “Küçük” içerik üreticisinin, “küçük” sanatçının vs. OpenAI gibi bir şirkete dava açmasının olanağı pek yok. Böyle bir davayı açanın da harcayacak milyonları yoksa OpenAI’ın avukat ordusu ile başa çıkıp davayı sonuca ulaştırma olanağı zayıf. Bütün bu sürecin sonunda OpenAI ile davacı büyük şirketlerin al takke ver külah anlaştığı; bir davayı sürdürecek kadar olanağı olmayanların ürettikleri içeriklerin ise OpenAI ve LLM geliştiren şirketler tarafından tepe tepe kullanıldığı bir tabloyla karşılaşabiliriz. LLM’lerin eğitimi için kullanılan veri kümelerinin açıklanmasının zorunlu tutulması böyle bir tabloyu engellemenin ilk adımı olabilir.
- Yapay Zekanın arkasındaki görünmez maliyet 04 Ocak 2025 04:26
- Geniş dil modellerinde yeni rakip: DeepSeek V3 28 Aralık 2024 04:26
- Çocukları çevrimiçi tehlikelerden kim koruyacak? 14 Aralık 2024 04:24
- Sosyal medyaya yaş sınırlaması çocukları koruyabilir mi? 30 Kasım 2024 04:50
- Medyanın arama tekeli ile imtihanı 23 Kasım 2024 05:01
- Teknoloji patronları ABD seçiminin galiplerinden 09 Kasım 2024 04:32
- Platformlar ve yayıncılar çevrim içi radikalleşmenin neresinde? 19 Ekim 2024 06:56
- Hamam böceği yuvası mutfakta değil 10 Ekim 2024 04:55
- ‘Yerli ve milli’lik siber güvenliğin neresinde? 21 Eylül 2024 06:01
- Sızan/sızmayan veri ve sonrası 14 Eylül 2024 04:54
- Modern İskenderiye Kütüphanesi yanarken 07 Eylül 2024 04:43
- Genç oyun geliştiricilere vadedilen kabus 24 Ağustos 2024 05:58