Yapay zeka uzmanı Giray Hakan: DeepSeek, düşük maliyetin yanı sıra açık kaynaklı bir yapay zeka modeli olması nedeniyle hızla yükseldi

Yapay zeka uzmanı Giray Hakan: DeepSeek, düşük maliyetin yanı sıra açık kaynaklı bir yapay zeka modeli olması nedeniyle hızla yükseldi

Haber: Narin Diri

(ANKARA) - Çinli şirket DeepSeek tarafından geliştirilen yapay zeka destekli chatbotun aniden kazandığı popülerlik gündemdeki yerini koruyor. Yapay zeka uzmanı Giray Hakan, teknoloji dünyasında bir dönüm noktası olarak görülen DeepSeek’i teknoloji dünyasında oyun değiştirici bir konuma yükselten faktörleri Anka Haber Ajansı’na anlattı. Hakan, DeepSeek’in düşük maliyetinin yanı sıra açık kaynaklı bir yapay zeka modeli olmasının da yükselişinde önemli bir rol oynadığını belirtti.

Çin menşeli yapay zeka destekli chatbot DeepSeek, ABD’de piyasaya sürülmesinin ardından Apple'ın uygulama mağazasında en çok indirilen ücretsiz uygulama haline gelirken; ABD’de teknoloji sektöründeki büyük oyuncuların hisselerinde önemli düşüşlere neden oldu. DeepSeek’in yükselişinin altındaki dinamikleri ANKA Haber Ajansı’na anlatan yapay zeka uzmanı Giray Hakan, son zamanlara kadar piyasada en çok kullanılan büyük dil modellerinin (LLM) büyük şirketlerden çıkma modeller olduğuna dikkat çekti.

OpenAI’ın GPT-4, GPT-4o modelleri, Google’ın Gemini modeli, Meta’nın Llama 3 modeli, Anthropic’in Claude modelleri bu büyük şirketlerin modelleri arasında yer alıyor. Hakan’a göre, Çin’den gelen yapay zeka atılımının hızlı yükselişi teknoloji dünyasını şaşırttı.

’’DeepSeek düşük maliyeti ile açık kaynaklı bir yapay zeka modeli olması nedeni ile oyun değiştirici bir pozisyona hızla yükseldi’’

DeepSeek’in hızlı yükselişinin asıl nedenin düşük maliyetinin yanı sıra açık kaynaklı bir yapay zeka modeli olmasına bağlayan Hakan, şunları söyledi:

“DeepSeek ekibi kapalı kapılar ardında geliştirilen ve tüm dünyada kullanım tekelini elinde bulunduran Claude, Gemini ve GPT-4o gibi modeller kadar başarılı, hatta çoğu testlerde daha iyi sonuçlar alan modelleri yaklaşık 15-20 kat daha ucuza eğitip üstelik bunları da tamamen açık kaynak olarak piyasaya sundu. Örneğin DeepSeek V3 modelinin eğitimi yaklaşık 5.28 milyon dolar. Bu, diğer büyük şirketlerin 100 milyonlarca dolarlık maliyetlerine kıyasla çok iyi optimizasyonlar yaptıkları anlamına geliyor.

Biz ise bugüne kadar tam olarak nasıl eğitildiklerini, hangi veri setlerini kullandıklarını bilmediğimiz OpenAI’ın yapay zeka modellerinin çok pahalıya mal olduklarını bildiğimizden bu tekelin uzun bir süre daha özel şirketlerde kalacağını düşünüyorduk. Çünkü Anthropic şirketinin kurucusu birkaç ay önce katıldığı bir programda, büyük bir dil modelinin 100 milyon ile 1 milyar dolar arasında bir maliyetle üretildiğini söyledi. Örneğin OpenAI’ın kurucusu Sam Altman da daha önce GPT-4 modelinin aylar süren eğitiminin yaklaşık 100 milyon dolar tuttuğunu açıkladı. Bu ücret çalışanlarının maaşları, aldıkları GPU’ların ücretlerini içermiyor bile. Benzer bir ücret Meta’nın yarı-açık kaynak olarak paylaştığı Llama 3.1 modeli için de geçerli. Yaklaşık 3 ay boyunca 16 binden fazla Nvidia H100’ü üzerinden eğitilen modelin maliyeti 100 milyon dolardan fazla.

DeepSeek maliyeti bu kadar düşürmeyi nasıl başardı?

Öncelikle DeepSeek ekibi matematik ve optimizasyon konusunda çok iyi, uzun zamandır ‘quant trading’ çalışıyorlar. Yani matematiksel modeller ve algoritmalar kullanarak otomatik hisse senedi/döviz alım-satım işlemleri yapan sistemler geliştiriyorlar. Dolayısıyla bu geçmiş bilgi birikimlerini birkaç yenilikçi yaklaşım (Sparse Mixture-of-Experts (MoE) mimarisi, Quantization, Chain-of-Thought (CoT) vb) ile birleştirip dil modellerinin çok daha verimli ve başarılı şekilde eğitilebileceklerini gösterdiler.’’

’’DeepSeek’in bilgi işlerken tükettiği enerji diğer modellere göre daha az’’

Hakan, DeepSeek’in bilgi işlerken tükettiği enerjinin diğer modellere göre daha az olduğuna dikkat çekerek şöyle devam etti:

“DeepSeek ekibi sadece modelin eğitilmesi sürecini çok iyi optimize etmedi, aynı zamanda ‘inference’ dediğimiz yani modelin çalışırken tükettiği enerjiyi de azalttı. Örneğin şu an aynı miktarda bilgi işleme işini OpenAI’ın GPT-4o’suna göre yaklaşık 30 kat daha ucuza yapıyor.

Yani şu an halihazırda OpenAI veya diğer modelleri kullanan bir yapay zeka sisteminiz varsa, maliyetlerini yaklaşık 20-30 kata kadar azaltabilirsiniz demektir. İşte tüm bunlar ortaya çıkınca insanların tüm dikkati bu modele, ekibe ve yenilikçi yaklaşımlarına yöneldi. ’’

6 milyon dolar, yalnızca yapay zeka modelinin iki aylık eğitiminin maliyeti’’

Hakan, “Üretken yapay zeka modeli geliştirmenin maliyeti DeepSeek için telaffuz edilen 6 milyon dolar civarında ise ABD’deki teknoloji devi şirketlerin neden yapay zeka altyapısı kurmak için yüz milyarlarca dolar bütçe ayırma planları açıkladı” sorusuna şu yanıtı verdi:

“Aslında DeepSeek’in açıkladığı yaklaşık 6 milyon dolarlık rakam, tüm yapay zeka altyapısının maliyeti değil. Sadece bu modelin yaklaşık 2 ay süren eğitimi için harcanan gider. Yani bu 6 milyon doların içinde teknoloji altyapılarını güçlendirme, enerji altyapısı, veri merkezlerinin kurulum maliyetleri, modellerin eğitildikleri Nvidia çiplerinin ücretleri, muhasebe ve benzeri kalemler yok.

O yüzden Meta, OpenAI ve Google gibi Amerikan şirketleri çok daha kapsamlı yatırımlar yapıyor. Bu şirketler DeepSeek'in kısıtlı H800 çiplerinin aksine Nvidia’nın gelişmiş H100 çiplerini kullanıyor. Küresel kullanıcı talebini karşılayacak veri merkezleri inşa ediyor ve ChatGPT gibi enerji tüketimi yüksek modelleri destekleyecek enerji altyapısı kuruyor.

DeepSeek teknolojik açıdan daha verimli bir strateji izliyor

DeepSeek ekibi ayrıca, teknolojik açıdan daha verimli bir strateji izliyor. ‘Mixture-of-expert’ (MoE) mimarisi sayesinde her görev için sadece ilgili alt modelleri çalıştırarak hesaplama yükünü azaltıyor. Ayrıca, görevin karmaşıklığına göre kaynak kullanımını ayarlayabiliyor ve büyük modellerden küçük modellere bilgi aktarımı yaparak eğitim maliyetlerini düşürüyor. Amerikan şirketleri ise GPT-4o gibi daha geniş kapasiteli modeller geliştirmeye odaklanıyor ve bunu yaparken de daha fazla kaynak kullanıyor.’’

‘’DeepSeek’in ‘akıl yürütme odaklı yapay zeka’ modeli, geleneksel ‘büyük olan daha iyidir’ paradigmasını sarsıyor’’

Hakan ayrıca DeepSeek’in çalışma modelinin diğer chatbotlardan farklı olduğunu da şu sözlerle anlattı:

“DeepSeek'in yükselişi, insan mantığına benzer şekilde görevleri adımlara bölen, daha az hesaplama gücü gerektiren ama daha fazla algoritmik inovasyon isteyen ‘akıl yürütme odaklı yapay zeka’ dönemine denk geliyor. Bu, geleneksel ‘büyük olan daha iyidir’ paradigmasını sarsıyor.’’

Veri gizliliği konusunda ChatGPT ne kadar güvenliyse DeepSeek de o kadar güvenli, ama verileriniz sizde kalmadığı sürece güvenliklerinden emin olmak çok zor

DeepSeek’in ver güvenliği ve siber saldırıları karşı önlemleri konusunda Hakan, “ChatGPT ne kadar güvenli ise DeekSeek de o kadar güvenli’’ olduğunu belirterek şunları söyledi:

“ChatGPT’yi kullanırken verileriniz ABD’deki sunuculara giderken, DeepSeek kullandığınızda verileriniz Çin’e gidiyor. Dolayısıyla veri güvenliği konusunda şüpheleriniz bu şirketlerin verilerinizle ne yaptıkları veya yapabilecekleri ile doğrudan ilgili.

Buna ek olarak DeepSeek, Çin'deki sunucularında saklanan kullanıcı verilerini korumak için çeşitli yöntemler kullandığını açıkladı. Bu önlemler arasında şifreleme ve erişim kontrolleri öne çıkıyor. Platform, gerçek zamanlı olarak güvenlik açıklarını izlemek için yine yapay zeka tabanlı sistemler kullanıyor. Modelleri, milyonlarca uç noktayı tarayarak istismar edilebilir zayıflıkları tespit edebiliyor ve bu da tehditleri tespit etme ve yanıt verme süresini önemli ölçüde azaltıyor.

Yakın zamanda yaşanan bir siber saldırın ardından DeepSeek, kullanıcılarına oltalama girişimleri ve kimlik avı dolandırıcılıklarına karşı dikkatli olmaları konusunda uyarıda bulundu mesela. Ama verileriniz sizde kalmadığı sürece güvenliklerinden emin olmak çok zor.’’

DeepSeek, modellerini açık kaynak olarak topluluğa sunmasıyla yapay zeka topluluklarıyla iş birliği yapmaya büyük bir önem verdiğini gösteriyor’’

DeepSeek’in diğer yapay zeka toplulukları ile etkileşimi ve açık kaynak kullanmasının neden önemli olduğu sorusu üzerine Hakan, şöyle konuştu:

“DeepSeek, modellerini açık kaynak olarak topluluğa sunmasıyla yapay zeka topluluklarıyla iş birliği yapmaya büyük bir önem verdiğini gösteriyor. DeepSeek-V3 ve DeepSeek-R1 gibi tüm modellerini MIT Lisansı altında açık kaynak olarak yayınlaması, dünya çapındaki araştırmacıların ve geliştiricilerin bu modellere erişmesine, değiştirmesine ve üzerine inşa etmesine olanak tanıyor, böylece şeffaflık ve yenilikçilik kültürünü destekliyorlar. Modellerini açık kaynak yaparak DeepSeek, topluluk odaklı geliştirmeyi ve incelemeyi teşvik ediyor.”

Üretken yapay zekanın bir sonraki aşaması, mantık yürütme yetenekleri bilimsel araştırma, tıbbi teşhis ve karmaşık mühendislik problemlerinin çözümünde devrim yaratabilir’’

Yapay zekanın geleceğine ilişkin öngörülerde bulunmanın zor olduğunu söyleyen Hakan, şunları kaydetti:

“Üretken yapay zekanın bir sonraki aşaması sohbet robotlarının basit metin üretiminin çok ötesine geçecek gibi görünüyor. En önemli gelişme alanlarından biri, sistemlerin doğal dil anlama ve bağlamsal kavrama yeteneklerinde beklenen ilerlemeler olacak. Bu sistemler, insan dilinin sadece kelimelerini değil, tonlamasını, ima edilen anlamlarını ve kültürel bağlamını da daha iyi anlayabilecek seviyeye gelecek.

Mantık yürütme yetenekleri de önemli bir sıçrama noktası olarak karşımıza çıkıyor. Gelecek nesil yapay zeka sistemleri, karmaşık problemleri parçalara ayırıp analiz edebilecek, farklı kaynaklardan gelen bilgileri sentezleyebilecek ve tutarlı, mantıklı sonuçlar üretebilecek. Bu özellikle bilimsel araştırma, tıbbi teşhis ve karmaşık mühendislik problemlerinin çözümünde devrim yaratabilir.

Bu gelişmelerin günlük hayatımıza etkileri muhtemelen çok derin olacak. İş dünyasında, rutin görevlerin otomasyonu hızlanacak. Örneğin, sağlık sektöründe, hastalıkların erken teşhisi ve tedavi planlaması çok daha isabetli hale gelecek. Yapay zeka sistemleri, büyük miktarda tıbbi veriyi analiz ederek, doktorlara daha doğru teşhis ve tedavi önerileri sunabilecek.’’