Çevrimiçi Sohbet Tabanlı Yapay Zeka Programı ChatGPT’nin Tiroid Kanseri ile İlgili Temel Soruları Yanıtlamadaki Başarı Oranının Değerlendirilmesi


Türk Y., Baki B. E., Dural A. C., TEKSOZ S., Makay O., Icoz R. G., ...Daha Fazla

The Anatolian journal of general medical research, cilt.35, sa.1, ss.83-89, 2025 (TRDizin) identifier

Özet

Amaç: Yapay zeka (YZ) tabanlı bir büyük dil modeli olan ChatGPT, girdileri anlayabilen ve üretebilen bir program olan gelişmiş bir sohbet botudur. Bu çalışmada tiroid kanseri ile ilgili hastaların sorabileceği sorulara ChatGPT’nin verdiği yanıtların doğruluğunu değerlendirmeyi amaçladık. Yöntem: Tiroid kanseri ile ilgili sağlık profesyoneli olmayanların sorabileceği toplam dört başlıkta (genel bilgiler, tanı, tedavi, takip) 27 Türkçe soru hazırlandı. Bu sorular ücretsiz halka açık versiyon olan ChatGPT sürüm 3.5’e soruldu. Endokrin cerrahisi alanında uzman üç akademisyenden (A.C.D., S.T., Ö.M.) yanıtları değerlendirmesi istendi. Cevaplar uygun/uygun değil/ yeterli değil-eksik, şeklinde üç ayrı grupta sınıflandırdı. Bulgular: ChatGPT’nin hazırlanan dört gruptaki sorulara verdiği yanıtlar genel olarak değerlendirildiğinde 27 soruya verilen 9 yanıt (%33,3), üç uzmandan ikisi tarafından “uygun”, bir uzman tarafından “yeterli değil/eksik” olarak değerlendirildi. Altı (%22,2) yanıt ise iki uzman tarafından “uygun”, bir uzman tarafından “uygun değil” olarak değerlendirildi. Genel olarak bakıldığında en az iki uzmanın “uygun”, olarak nitelendirdiği toplamda 16 yanıt (%59,25) mevcuttu. Sonuç: ChatGPT gibi YZ tabanlı sohbet programları hastaların medikal tavsiyeler aldığı bir uzmanın yerini alması şu aşamada mümkün görülmemektedir.
Objective: ChatGPT, an advanced conversational bot based on artificial intelligence (AI) and a large language model, is designed to understand and generate responses to inputs. This study aims to assess the accuracy of responses provided by ChatGPT to questions that might be asked by patients concerning thyroid cancer. Methods: A total of 27 questions in Turkish, relevant to thyroid cancer and likely to be asked by non-healthcare professionals, were prepared under four categories (general information, diagnosis, treatment, follow-up). These questions were posed to the free public version of ChatGPT, version 3.5. Three experts in endocrine surgery (A.C.D., S.T., Ö.M.) were asked to evaluate the responses. The answers were classified into three categories: appropriate, inappropriate, and insufficient/incomplete. Results: Upon evaluating the responses given by ChatGPT to the prepared questions across the four categories, 9 responses (33.3%) were considered “appropriate” by two of the three experts and “insufficient/incomplete” by one expert. Six responses (22.2%) were deemed “appropriate” by two experts and “inappropriate” by one. Overall, a total of 16 responses (59.25%) were considered “appropriate” by at least two experts. Conclusion: At this stage, AI-based conversational programs like ChatGPT are not seen as capable of replacing a specialist from whom patients receive medical advice.