Bu Ultra Hafif Yapay Zeka Modeli Telefonunuza Uyuyor ve ChatGPT'yi Yenebilir

Microsoft bugün, Phi Küçük Dil Modelleri (SLM'ler) ailesinin üçüncü yinelemesi olan Phi-3'ün, karşılaştırılabilir boyutlu modellerden daha iyi performans gösterdiğini belirterek, "mevcut olan en yetenekli ve uygun maliyetli küçük dil modellerini (SLM'ler)" piyasaya sürdüğünü iddia etti. birkaç tane daha büyük.

Küçük Dil Modeli (SLM), dille ilgili belirli görevlerin yerine getirilmesinde son derece verimli olacak şekilde tasarlanmış bir tür yapay zeka modelidir. Çok çeşitli genel görevlere çok uygun olan Büyük Dil Modellerinden (LLM'ler) farklı olarak SLM'ler, onları belirli kullanım durumları için daha verimli ve uygun maliyetli hale getirmek amacıyla daha küçük bir veri kümesi üzerine kuruludur.

Microsoft, Phi-3'ün farklı versiyonları olduğunu açıkladı; en küçüğü, 3 trilyon token üzerinde eğitilmiş 3.8 milyar parametreli bir model olan Phi-3.3 Mini'dir. Nispeten küçük boyutuna rağmen (Llama-3'ün külliyatı 15 trilyon token'dan fazla veri içerir) Phi-3 Mini hala 128 bin token bağlamı işleyebilmektedir. Bu, onu GPT-4 ile karşılaştırılabilir hale getiriyor ve token kapasitesi açısından Llama-3 ve Mistral Large'ı geride bırakıyor.

Başka bir deyişle, Meta.ai'deki Llama-3 ve Mistral Large gibi yapay zeka devleri, uzun bir sohbetin ardından veya bu hafif model mücadele etmeye başlamadan çok önce harekete geçebilir.

Phi-3 Mini'nin en önemli avantajlarından biri tipik bir akıllı telefona sığabilmesi ve çalıştırılabilmesidir. Microsoft, modeli bir iPhone 14 üzerinde test etti ve hiçbir sorun yaşamadan çalışarak saniyede 14 jeton üretti. Phi-3 Mini'yi çalıştırmak yalnızca 1.8 GB VRAM gerektirir, bu da onu daha odaklı gereksinimlere sahip kullanıcılar için hafif ve verimli bir alternatif haline getirir.

Phi-3 Mini, üst düzey kodlayıcılar veya geniş gereksinimleri olan kişiler için pek uygun olmasa da, özel ihtiyaçları olan kullanıcılar için etkili bir alternatif olabilir. Örneğin, bir chatbot'a ihtiyaç duyan startup'lar veya veri analizi için LLM'lerden yararlanan kişiler, Phi-3 Mini'yi veri organizasyonu, bilgi çıkarma, matematik akıl yürütme ve inşaat aracıları gibi görevler için kullanabilir. Modele internet erişimi verilirse oldukça güçlü hale gelebilir ve yetenek eksikliğini gerçek zamanlı bilgilerle telafi edebilir.

Phi-3 Mini, Microsoft'un veri kümesini mümkün olan en yararlı bilgilerle düzenlemeye odaklanması nedeniyle yüksek test puanları elde ediyor. Daha geniş olan Phi ailesi aslında gerçeklere dayalı bilgi gerektiren görevler için iyi değildir, ancak yüksek muhakeme becerileri onları büyük rakiplerin üzerinde konumlandırır. Phi-3 Medium (14 milyar parametreli bir model), sentetik kıyaslamaların çoğunda GPT-3.5 gibi güçlü LLM'leri (ChatGPT'nin ücretsiz sürümünü destekleyen LLM) sürekli olarak yener ve Mini sürümü, Mixtral-8x7B gibi güçlü modelleri sürekli olarak yener.

Ancak Phi-3'ün selefi Phi-2 gibi açık kaynak olmadığını belirtmekte fayda var. Bunun yerine, bu bir açık model, erişilebilir ve kullanıma hazır olduğu anlamına gelir, ancak Phi-2 ile aynı açık kaynak lisansına sahip değildir, bu da daha geniş kullanıma ve ticari uygulamalara olanak tanır.

Önümüzdeki haftalarda Microsoft, Phi-3 Small (3 milyar parametre) ve yukarıda adı geçen Phi-7 Medium dahil olmak üzere Phi-3 ailesinde daha fazla model yayınlayacağını söyledi.

Microsoft, Phi-3 Mini'yi Azure AI Studio, Hugging Face ve Ollama'da kullanıma sundu. Model, Windows DirectML desteğinin yanı sıra farklı GPU, CPU ve hatta mobil donanımlarda çapraz platform desteğiyle ONNX Çalışma Zamanı için talimatlarla ayarlanmış ve optimize edilmiştir.

Kripto haberlerinden haberdar olun, gelen kutunuzda günlük güncellemeler alın.

Kaynak: https://decrypt.co/227974/microsoft-phi-3-mini-small-ai-language-model