Araştırmacılar ChatGPT'nin Tıbbi Özetleri Özetlemedeki Performansını Değerlendiriyor

The Annals of Family Medicine'de yayınlanan yakın tarihli bir çalışmada araştırmacılar, Chat Generative Pretrained Transformer'ın (ChatGPT) doktorlara yardımcı olmak amacıyla tıbbi özetleri özetlemedeki etkinliğini değerlendirdiler. Çalışma, ChatGPT tarafından oluşturulan özetlerdeki kaliteyi, doğruluğu ve önyargıyı belirlemeyi amaçladı ve sağlık profesyonellerinin karşılaştığı zaman kısıtlamaları ortasında çok miktarda tıbbi literatürü sindirmeye yönelik bir araç olarak potansiyeline dair içgörüler sağladı.

Kalite ve Doğruluk için Yüksek Derecelendirmeler

Çalışma, 140 farklı dergiden 14 tıbbi özeti yoğunlaştırmak için ChatGPT'yi kullanarak içeriği ortalama %70 oranında azalttı. Özetlerin küçük bir kısmında tespit edilen bazı yanlışlıklar ve halüsinasyonlara rağmen, doktorlar özetleri kalite ve doğruluk açısından yüksek puanladılar. Bulgular, ChatGPT'nin, yoğun miktarda bilgi arasında kısa ve doğru özetler sunarak, tıp literatürünü verimli bir şekilde gözden geçirme konusunda doktorlara yardımcı olma potansiyeline sahip olduğunu gösteriyor.

Araştırmacılar, çeşitli tıbbi konuları ve yapıları kapsayan 10 derginin her birinden 14 makale seçtiler. ChatGPT'yi bu makaleleri özetlemekle görevlendirdiler ve oluşturulan özetleri on tıbbi alanda kalite, doğruluk, önyargı ve uygunluk açısından değerlendirdiler. Çalışma, ChatGPT'nin tıbbi özetleri ortalama %70 oranında başarılı bir şekilde yoğunlaştırdığını ve kalite ve doğruluk açısından hekim incelemecilerinden yüksek puanlar aldığını buldu.

Sağlık hizmetlerine yönelik çıkarımlar

Yüksek derecelendirmelere rağmen çalışma, az sayıda özette ciddi yanlışlıklar ve halüsinasyonlar tespit etti. Bu hatalar, kritik verilerin atlanmasından, araştırma bulgularının yorumlanmasını potansiyel olarak değiştirebilecek çalışma tasarımlarının yanlış yorumlanmasına kadar uzanıyordu. Bununla birlikte, ChatGPT'nin tıbbi özetleri özetlemedeki performansı güvenilir kabul edildi ve minimum düzeyde önyargı gözlendi.

ChatGPT, dergi düzeyinde insan değerlendirmeleriyle güçlü bir uyum sergilese de, bireysel makalelerin belirli tıbbi uzmanlıklarla ilgisini belirlemedeki performansı daha az etkileyiciydi. Bu tutarsızlık, ChatGPT'nin daha geniş tıbbi uzmanlık bağlamı içindeki tekil makalelerin alaka düzeyini doğru bir şekilde belirleme yeteneğindeki bir sınırlamayı vurguladı.

Çalışma, yapay zekanın, özellikle de ChatGPT'nin, doktorlara tıbbi literatürü verimli bir şekilde gözden geçirme konusunda yardımcı olma potansiyeline dair değerli bilgiler sağlıyor. ChatGPT, tıbbi özetleri yüksek kalite ve doğrulukla özetleme konusunda umut verici olsa da, sınırlamaları ele almak ve belirli tıbbi bağlamlarda performansını artırmak için daha fazla araştırmaya ihtiyaç vardır.

Gelecekteki araştırmalar, ChatGPT'nin bireysel makalelerin belirli tıbbi uzmanlıklarla ilgisini tanıma yeteneğini geliştirmeye odaklanabilir. Ek olarak, oluşturulan özetlerdeki yanlışlıkları ve halüsinasyonları azaltmaya yönelik çabalar, yapay zeka araçlarının sağlık hizmetlerinde kullanımını daha da artırabilir.

Kaynak: https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/