Büyük Dil Modelleri (LLM) Obstetri Pratiğinde

⚕️ Hedef kitle: Bu içerik sağlık profesyonellerine yöneliktir ve eğitim/güncel-bilgi amaçlıdır. Yapay zekâ araçları klinik karar desteği sunar; klinisyen sorumluluğunun ve onaylı klinik iş akışlarının yerine geçmez.

Büyük dil modelleri (LLM — large language model; çok büyük metin külliyatı üzerinde eğitilmiş, bir sonraki kelimeyi olasılıksal olarak tahmin ederek insan benzeri metin üreten derin öğrenme modelleri) Kasım 2022'de ChatGPT'nin halka açılmasıyla klinik gündeme oturdu. Obstetri ve maternal-fetal tıp, hem yoğun hasta iletişimi hem de ağır dokümantasyon yükü taşıyan bir alan olarak bu teknolojinin doğal bir uygulama zeminidir. Ancak aynı özellikler — akıcı, ikna edici ama doğrulanmamış metin üretimi — beraberinde özgün riskler getirir. Bu yazı, LLM'lerin obstetri pratiğindeki gerçekçi kullanım alanlarını, yayımlanmış değerlendirme çalışmalarının sayısal bulgularıyla ve başarısızlık biçimleriyle birlikte ele alır.

Büyük dil modeli nedir, nasıl çalışır?

LLM'ler, GPT (Generative Pre-trained Transformer — üretken, önceden eğitilmiş dönüştürücü mimari) gibi "transformer" adı verilen sinir ağı yapılarına dayanır. Model, eğitim verisindeki istatistiksel örüntülerden yola çıkarak bir metni kelime kelime tamamlar; tıbbi "anlamayı" değil, dilsel olasılığı modeller. Bu ayrım klinik açıdan kritiktir: model doğruyu değil, en olası devamı üretir. Doğru ve yanlış yanıtlar aynı kendinden emin üslupla sunulabilir.

Modern modeller artık metnin yanı sıra görüntü, ses ve video da işleyebilen çok-kipli büyük modellere (LMM — large multi-modal model) dönüşmüştür. Dünya Sağlık Örgütü (DSÖ), 2024'te yayımladığı kılavuzda LMM'lerin sağlıktaki beş geniş kullanım alanını tanımlar: tanı ve klinik bakım, hastaya yönelik kullanım, idari/büro işleri, tıp eğitimi ve bilimsel araştırma. LLM'lerin temel kavramsal sınırı, eğitim verisinin belirli bir tarihte "donmuş" olması ve modelin kendi bilgi kaynağını gerçek zamanlı doğrulayamamasıdır.

Klinik karar desteği ve soru-yanıt

Obstetride yayımlanan ilk değerlendirmeler, LLM'lerin yapılandırılmış sorulara şaşırtıcı ölçüde tutarlı yanıt verebildiğini gösterdi. Grünebaum ve arkadaşları (Am J Obstet Gynecol, 2023), ChatGPT'nin obstetri-jinekoloji sorularına büyük oranda akıcı, bilgili ve önemli hata içermeyen yanıtlar verdiğini bildirirken, modelin 2021 sonrası veriyi güvenilir biçimde kullanamadığını ve kaynak gösteremediğini açıkça vurguladılar — bu da yanıltma potansiyeli taşır.

Allahqoli ve arkadaşları (Gynecol Obstet Invest, 2023), altı obstetri-jinekoloji alanından 30 olguyu modele ve uzmana sunduğunda, ChatGPT olguların %90'ını (27/30) doğru yönetti. Yazarların kendi belirttiği önemli kısıtlılık şudur: olgular bir ders kitabından alınmıştı; bu da modelin lehine bir yanlılık (test verisinin eğitim verisine benzemesi) yaratmış olabilir. Tek merkezli, küçük örneklemli bu çalışmaların dış geçerliliği sınırlıdır.

Daha yapılandırılmış bir bağlamda, Gumilar ve arkadaşları (Comput Struct Biotechnol J, 2025) kardiyotokografi (CTG — fetal kalp hızı ve uterin kontraksiyon kaydı) görüntülerinin yorumlanmasında yapay zekâ dil modellerini karşılaştırdı. ChatGPT-4o, 100 üzerinden 77,86 puanla diğer modelleri (Gemini Advanced 57,14; Copilot 47,29) ve genç hekimleri (61,57) geride bıraktı; kıdemli hekimlere (80,43) ise istatistiksel olarak anlamlı fark olmadan yaklaştı (p > 0,05). Bu sonuç umut verici olmakla birlikte, çalışmanın yalnızca yedi görüntü üzerinde, beş değerlendirici ile yürütüldüğü ve gerçek klinik iş akışına entegre prospektif bir test olmadığı unutulmamalıdır.

Klinik perspektif: Bu çalışmaların ortak mesajı, LLM'lerin uzman kararının yerine değil, bir başlangıç taslağı veya kontrol listesi gibi yanında değer üretebileceğidir. Hiçbiri prospektif, hasta-sonuç temelli bir validasyon değildir; sayısal üstünlük iddiaları yapay test koşullarına özgüdür.

Hasta iletişimi ve eğitim materyalleri

LLM'lerin belki de en pratik kullanımı, hasta için anlaşılır bilgilendirme metinleri üretmektir. Horgan ve arkadaşlarının maternal-fetal tıp pratiğine yönelik hazırladığı klinisyen rehberinde (Am J Obstet Gynecol MFM, 2024), dört yönetim kurulu sertifikalı MFM uzmanı, ChatGPT'nin ürettiği beş hasta bilgilendirme broşürünü değerlendirdi: doğruluk ortancası 6 üzerinden 4,8, eksiksizlik ortancası ise 3 üzerinden yalnızca 2,2 idi. Yazarlar, bazı broşürlerde danışmanlık için klinik açıdan önemli bilgilerin atlandığını ve kaynak doğrulanamadığını vurguladı; sonuç olarak aracı, halkın serbestçe kullanacağı bir kaynak değil, klinik pratiğe ek (adjunct) ve mutlaka uzman onayından geçen bir taslak üreticisi olarak konumlandırdılar.

Peled ve arkadaşları (Int J Gynaecol Obstet, 2024), gebelerin sık sorduğu 15 obstetrik soruya verilen yanıtları 20 uzmana değerlendirtti. Yanıtların %75'i olumlu (≥4) puan aldı; doğruluk en güçlü boyuttu (ortalama 4,2; %80 olumlu), ancak eksiksizlik (ortalama 3,8; yalnızca %46,7 olumlu) ve güvenlik (ortalama 3,9; %53,3 olumlu) belirgin biçimde zayıftı. Yazarların net uyarısı: anne veya fetüs güvenliğini ilgilendiren sorularda dikkat şarttır. Yakın tarihli bir editöryel (Recker ve ark., Arch Gynecol Obstet, 2025) de benzer biçimde LLM'leri "bilgilendirilmiş karar için dijital bir refakatçi" olarak tanımlar; bireysel sağlık durumunu değerlendiremedikleri ve tıbbi konsültasyonun yerini alamayacakları koşuluyla.

Dokümantasyon ve ambient yapay zekâ (otomatik klinik not)

LLM tabanlı en hızlı klinik benimsenen uygulama, ortam dinleyen yapay zekâ kâtipleridir (ambient AI scribe — hasta-hekim görüşmesini dinleyip otomatik klinik not taslağı üreten araçlar; ör. Nuance/Microsoft DAX Copilot). Obstetri ve jinekoloji gibi yoğun poliklinik temposu olan branşlarda dokümantasyon yükünü azaltma vaadi büyüktür.

Stanford Health Care'de 48 hekimle yürütülen pilot çalışmada (Shah ve ark., JAMIA, 2025), ambient yapay zekâ kâtibi görev yükünde (−24,42; p < 0,001) ve tükenmişlikte (−1,94; p < 0,001) istatistiksel olarak anlamlı azalma sağladı. Eşlik eden bir çalışmada (Ma ve ark., JAMIA, 2025) LLM destekli kâtip, günlük dokümantasyon süresini 6,89 dakika, elektronik sağlık kaydında geçirilen toplam süreyi 19,95 dakika/gün azalttı; ancak araç görüşmelerin yalnızca %55,25'inde kullanıldı ve kullanıcılar arasında belirgin değişkenlik vardı.

Ölçek büyüdükçe tablo dengelenir. Sutter Health'te 100 klinisyenle yapılan değerlendirmede (Stults ve ark., JAMA Netw Open, 2025), zihinsel yük ve aceleci tempo skorları anlamlı düşse de tükenmişlikteki azalma istatistiksel anlamlılığa ulaşmadı (p = 0,12) ve not başına süre kazancı uygulama başına 1 dakikadan azdı. Fayda branşa ve kullanıcıya göre değişkendi (en yüksek memnuniyet birinci basamakta).

Güvenlik uyarısı (dokümantasyon): Otomatik üretilen notlar hatasız değildir. Biro ve arkadaşlarının validasyon çalışması (J Med Internet Res, 2025), yapay zekâ kâtip teknolojisinde güvenlik riski oluşturabilecek hataların sistematik olarak değerlendirilmesi gerektiğini ortaya koydu. Üretilen her not, imzalanmadan önce klinisyen tarafından gözden geçirilmeli ve düzeltilmelidir.

Riskler ve başarısızlık biçimleri

Halüsinasyon (uydurma içerik)

LLM'lerin en kritik klinik riski halüsinasyondur: modelin gerçek olmayan bir bilgiyi, sahte bir referansı veya var olmayan bir kılavuz önerisini kendinden emin biçimde üretmesi. Williams ve arkadaşlarının kontrollü çalışması (JAMA Intern Med, 2025) bunu somutlaştırır: 100 yatan hasta epizodunda LLM'in ürettiği taburculuk özetleri genel kalite açısından hekim notlarıyla karşılaştırılabilir ve eşit ölçüde tercih edilir bulundu; ancak LLM notları özet başına daha fazla benzersiz hata içerdi (ortalama 2,91'e karşı 1,82) ve bu hatalar yanlışlıklar, atlamalar ve halüsinasyonları kapsıyordu. Genel zarar potansiyeli düşük olsa da, insan onayı olmadan kullanımın güvenli olmadığı vurgulandı. Obstetride bir doz, bir gebelik haftası eşiği veya bir kontrendikasyonun yanlış üretilmesi doğrudan hasta zararına yol açabilir.

Kanıt-güncelliği ve kaynak doğrulanamazlığı

Eğitim verisinin belirli bir tarihte donması, modelin güncel kılavuzları (ör. revize edilmiş tarama eşikleri, yeni ilaç güvenlik uyarıları) bilmemesine yol açar. Ayrıca standart bir LLM gerçek kaynak gösteremez; ürettiği "referanslar" sıklıkla uydurmadır. Bu nedenle her LLM çıktısı, otoriter ve güncel bir kaynağa (kılavuz, UpToDate, birincil literatür) karşı doğrulanmalıdır.

Gizlilik ve veri güvenliği (KVKK/GDPR)

Hasta verisinin halka açık, tüketici sınıfı bir LLM arayüzüne girilmesi ciddi bir mahremiyet ihlali riskidir. Türkiye'de Kişisel Verilerin Korunması Kanunu (KVKK) ve Avrupa'da Genel Veri Koruma Tüzüğü (GDPR), sağlık verisini özel nitelikli (hassas) veri olarak korur. DSÖ'nün LMM kılavuzu, veri yönetişimi, rıza ve gizliliği temel ilkeler arasında sayar. Kimliği tanımlayıcı hasta bilgisi, denetlenmemiş bulut tabanlı modellere girilmemelidir; kurumsal kullanımda veri işleme sözleşmeleri ve yerel/güvenli dağıtım gerekir.

Yanlılık (bias) ve eşitsizlik

LLM'ler eğitim verisindeki toplumsal yanlılıkları öğrenir ve yeniden üretir. Tıbbi LLM'lerde demografik eşitsizlikleri inceleyen sistematik bir derleme (Int J Equity Health, 2025), incelenen 24 çalışmanın 22'sinde (%91,7) yanlılık saptadı; cinsiyet yanlılığı 16 çalışmanın 15'inde (%93,7), ırksal/etnik yanlılık ise 11 çalışmanın 10'unda (%90,9) bildirildi. Maternal mortalitede zaten var olan ırksal ve sosyoekonomik eşitsizlikler düşünüldüğünde, doğrulanmamış bir modelin bu uçurumları derinleştirme riski obstetri için özellikle önemlidir.

Otomasyon yanlılığı

Akıcı ve kendinden emin çıktı, klinisyeni eleştirel değerlendirmeyi bırakıp modelin önerisini sorgusuz kabul etmeye itebilir (otomasyon yanlılığı). Bu, doğru kullanımda en sinsi risklerden biridir ve "insan döngüde" (human-in-the-loop) ilkesinin neden vazgeçilmez olduğunu gösterir.

Kanıt düzeyi ve sınırlılıklar

Mevcut obstetri literatürünün büyük bölümü küçük örneklemli, tek merkezli, çoğunlukla retrospektif ya da yapay test kurgulu değerlendirme çalışmalarından oluşur. Genel tıp alanındaki temel çalışmalar (ör. Med-PaLM; Singhal ve ark., Nature 2023) modellerin tıbbi soru bankalarında yüksek doğruluğa ulaştığını gösterse de, aynı çalışmaların insan değerlendirmesi modellerin klinisyenlerin gerisinde kaldığını ve güvenlik ile yanlılık açıklarını ortaya koydu. Obstetride hasta sonuçlarını ölçen prospektif, randomize bir LLM çalışması henüz yoktur. Performans metrikleri (puanlar, yüzdeler) test koşullarına ve seçilen sorulara duyarlıdır; farklı popülasyon, dil ve klinik bağlama genellenmeleri kanıtlanmamıştır. Modeller ayrıca sürüm sürüm hızla değiştiği için, belirli bir sürümle elde edilen sonuç kalıcı bir gerçek olarak okunmamalıdır.

Klinik pratiğe yansıması: Sorumlu kullanım ilkeleri

Dengeli sonuç şudur: LLM'ler obstetri pratiğinde gerçek bir verimlilik ve iletişim aracıdır, ancak denetimli, sınırları belirli ve insan onaylı bir çerçevede. Pratik ilkeler:

İnsan döngüde: Her klinik içerik (not, hasta broşürü, öneri) klinisyen tarafından doğrulanmadan kullanılmaz.
Düşük riskli görevlere öncelik: Taslak yazımı, metin sadeleştirme, idari işler — doz/kontrendikasyon/tanı kararı gibi yüksek riskli alanlardan ayrı tutulur.
Kaynağa karşı doğrulama: Her klinik iddia güncel kılavuz veya birincil literatürle teyit edilir; modelin verdiği "referanslar" ayrıca kontrol edilir (uydurma olabilir).
Veri mahremiyeti: Kimlik tanımlayıcı hasta verisi denetlenmemiş araçlara girilmez; KVKK/GDPR ve kurumsal veri sözleşmeleri esas alınır.
Yanlılık farkındalığı: Çıktılar dezavantajlı gruplar açısından eleştirel okunur; sonuç "objektif" sayılmaz.
Şeffaflık: Yapay zekâ kullanımı uygun yerlerde belgelenir; hasta bilgilendirmesinde gizlenmez.

Bu alandaki düzenleyici ve etik çerçeve (DSÖ LMM kılavuzu, raporlama standartları, kurumsal duruşlar) Etik, Yanlılık, Validasyon ve Düzenleme yazısında ayrıntılandırılmıştır. LLM'lerin görüntü işleme tarafıyla (ör. CTG/ultrason yorumlama destekleri) ilgili konular için Kardiyotokografide Yapay Zeka ve Fetal Ultrasonografide Yapay Zeka bölümlerine bakılabilir.

← Obstetride Yapay Zeka bölümüne dön