Makine öğrenmesinden büyük dil modellerine; obstetri ve perinatolojide yapay zekânın temel kavramları, uygulama haritası, gerçekçi fırsatları ve sıklıkla göz ardı edilen sınırlılıkları — kanıta dayalı ve dengeli bir başlangıç.
⚕️ Hedef kitle: Bu içerik sağlık profesyonellerine yöneliktir ve eğitim/güncel-bilgi amaçlıdır. Yapay zekâ araçları klinik karar desteği sunar; klinisyen sorumluluğunun ve onaylı klinik iş akışlarının yerine geçmez.
Yapay zekâ (YZ), son on yılda görüntü tanımadan metin üretimine kadar pek çok alanda hızlı bir sıçrama yaptı ve bu ivme obstetri ile perinatolojiye de yansıdı. Otomatik fetal biyometriden preeklampsi risk modellerine, kardiyotokografi (CTG) yorumlamasından embriyo seçimine ve klinik notu yazan büyük dil modellerine kadar geniş bir uygulama yelpazesi literatürde yer buluyor. Ancak bu alan, abartılı beklentilere de açık. Bu yazı; temel kavramları netleştirmeyi, mevcut uygulama haritasını çıkarmayı ve hem fırsatları hem de sıklıkla gölgede kalan sınırlılıkları dürüstçe ortaya koymayı amaçlıyor. Bölümün diğer yedi yazısı tek tek uygulama alanlarını derinlemesine ele alıyor; bu metin ise ortak çerçeveyi ve sözlüğü sunuyor.
Yapay zekâ (YZ), normalde insan zekâsı gerektiren görevleri (örüntü tanıma, sınıflandırma, öngörü) yerine getiren bilgisayar sistemlerini kapsayan şemsiye bir terimdir. Klinikte bugün karşımıza çıkan sistemlerin neredeyse tamamı, bu şemsiyenin altındaki makine öğrenmesi (machine learning — verideki örüntüleri açık kurallar yazılmadan, örneklerden öğrenen yöntemler) sınıfına girer.
Makine öğrenmesi içinde de en çok ilgi gören dal derin öğrenmedir (deep learning — çok katmanlı yapay sinir ağları kullanan yöntemler). Görüntü temelli görevlerde sıkça kullanılan konvolüsyonel sinir ağı (CNN — convolutional neural network; görsel verideki yerel desenleri katman katman çıkaran derin öğrenme mimarisi), fetal ultrasonografi düzlemlerini tanıma veya organ sınırlarını çizme (segmentasyon) gibi işlerde temel araçtır. Öğrenme biçimine göre yöntemler kabaca üçe ayrılır: etiketli veriyle öğrenen denetimli öğrenme (supervised learning — örneğin "bu görüntü standart düzlemdir" etiketleriyle eğitim), etiketsiz veride yapı arayan denetimsiz öğrenme ve geri bildirimle strateji geliştiren pekiştirmeli öğrenme.
Son dönemde gündemi belirleyen büyük dil modelleri (LLM — large language models; çok büyük metin külliyatlarıyla eğitilip insan diline yakın metin üreten modeller, ör. GPT ailesi) ise transformer adı verilen bir mimariye dayanır. Bunların görüntü, ses ve metni birlikte işleyebilen sürümleri büyük çok-kipli modeller (LMM — large multi-modal models) olarak adlandırılır; Dünya Sağlık Örgütü 2024 rehberinde sağlıkta bu modellerin yönetişimini ayrı bir başlık olarak ele almıştır.
Obstetrik ve perinatal YZ uygulamalarını beş ana kümede toplamak, alanı kavramayı kolaylaştırır. Aşağıdaki tablo bu haritayı ve bölümümüzdeki ilgili ayrıntılı yazıyı özetliyor.
| Uygulama alanı | Tipik görevler | Olgunluk düzeyi |
|---|---|---|
| Fetal ultrasonografi | Otomatik biyometri (BPD/HC/AC/FL), standart düzlem tespiti, kalite kontrolü, anomali/kardiyak tarama desteği | Ticari/onaylı araçlar mevcut; prospektif kanıt sınırlı |
| Fetal izlem (CTG/NST) | Bilgisayarlı CTG, derin öğrenmeyle çizelge sınıflandırma, antepartum NST yorumu | Araştırma ağırlıklı; sonuç iyileştirmesi kanıtlanmamış |
| Öngörü modelleri | Preeklampsi, preterm doğum, gestasyonel diyabet, advers gebelik sonuçları riski | Çok sayıda model; dış validasyon zayıf |
| Üreme tıbbı (IVF/ART) | Time-lapse görüntüyle embriyo derecelendirme/seçim, blastosist skorlama | Ticari skorlar var; RCT'ler canlı doğumda üstünlük göstermedi |
| Büyük dil modelleri | Klinik soru-yanıt, hasta eğitimi, dokümantasyon (ambient AI), kodlama | Hızlı yayılım; doğruluk ve güvenlik değişken |
Obstetrik ultrasonografiye odaklanan kapsamlı bir tarama derlemesi, alandaki çalışma yoğunluğunu somutlaştırıyor: Horgan ve arkadaşları (2023) bu konuda yalnızca ultrasonografi için 127 yayın belirlemiş ve birinci trimester değerlendirmesi, plasenta analizi, fetal biyometri, fetal ekokardiyografi, nörosonografi ve fetal anatomi taramasını başlıca kullanım alanları olarak sıralamıştır. Bu uygulamaların ortak vaadi; operatör bağımlılığını azaltmak, verimi artırmak ve özellikle düşük-kaynak ortamlarda tarama erişimini iyileştirmektir.
Öngörü modellerinin başarısı genellikle AUC (eğri altında kalan alan — modelin hasta/sağlıklı ayrımını ne kadar iyi yaptığını 0,5 ile 1,0 arasında özetleyen ölçüt), duyarlılık (sensitivite), özgüllük (spesifite), tespit oranı (DR) ve yanlış pozitif oranı (FPR) ile raporlanır. Örneğin preeklampsi için yapılan bir sistematik derlemede dâhil edilen makine öğrenmesi modellerinin AUC değerleri 0,860 ile 0,973 arasında bildirilmiştir (Ranjbar ve ark., 2024). Bu rakamlar etkileyici görünse de aynı derleme, dâhil edilen tüm çalışmaların retrospektif kohort tasarımında olduğunu ve sayıca az (yalnızca dört çalışma) olduğunu vurgular — yani yüksek AUC, tek başına klinik hazır olmanın kanıtı değildir.
Dengeli bir bakış, alanın gerçek potansiyelini de açıkça tanımlamayı gerektirir. En tutarlı vaatler şunlardır:
Bu fırsatların ortak özelliği, çoğunlukla destekleyici ve iş akışını kolaylaştırıcı nitelikte olmasıdır; klinik sonuçları (neonatal morbidite, canlı doğum gibi) doğrudan iyileştirdiğine dair kanıt ise çok daha sınırlıdır.
Obstetrik YZ literatürünün en kritik özelliği, performans vaatleri ile sağlam klinik kanıt arasındaki mesafedir. Bu mesafeyi en net gösteren örnek, intrapartum fetal kalp hızı izleminde bilgisayarlı karar desteğini test eden büyük ölçekli INFANT randomize kontrollü çalışmasıdır. Birleşik Krallık ve İrlanda'da 24 merkezde 46.042 kadının analiz edildiği bu çalışmada, CTG yorumuna eklenen karar destek yazılımı kötü neonatal sonuç oranını değiştirmemiştir (yüzde 0,7'ye karşı yüzde 0,7; düzeltilmiş risk oranı 1,01; %95 GA 0,82–1,25) ve 2 yaşındaki gelişimsel değerlendirmede de fark bulunmamıştır (INFANT Collaborative Group, Lancet 2017). Yüksek tanısal doğruluk vaat eden bir aracın, randomize koşulda sonucu iyileştirmemesi, bu alanda "doğruluk metriği ≠ klinik fayda" ilkesinin altını çizer.
Benzer bir örüntü üreme tıbbında da görülür: embriyo seçiminde YZ'yi embriyologlarla karşılaştıran sistematik derleme, modellerin görüntü/morfoloji görevlerinde tutarlı biçimde iyi performans verdiğini bildirir; ancak yazarlar, çalışmaların çoğunun prospektif olarak klinik ortamda değerlendirilmediğini ve birçoğunun dış validasyondan yoksun olduğunu açıkça belirtir (Salih ve ark., 2023). Nitekim time-lapse + YZ tabanlı seçimi standart morfolojiyle kıyaslayan randomize çalışmalar, canlı doğum/gebelik oranında genel olarak üstünlük gösterememiştir. Bu null bulgular, alanın dürüst bir resmi için vurgulanmak zorundadır.
Tüm uygulamalarda tekrar eden, alanı kesen başlıca sınırlılıklar şunlardır:
LLM'ler obstetri pratiğine girerken kendine has riskler taşır. Gebelere yönelik yaygın obstetrik soruları değerlendiren bir çalışmada, uzmanların ChatGPT yanıtlarına verdiği ortalama puan 5 üzerinden 4 olmuş ve yanıtların yüzde 75'i olumlu (≥4) değerlendirilmiştir; ancak tamlık (mean 3,8; olumlu oran yüzde 46,7) ve güvenlik (mean 3,9; olumlu oran yüzde 53,3) boyutları, doğruluğun (mean 4,2) gerisinde kalmıştır (Peled ve ark., 2024). Yazarlar, anne veya fetüs güvenliğini ilgilendiren sorularda dikkatli olunması gerektiğini özellikle vurgular. Halüsinasyon (gerçek dışı ama ikna edici çıktı üretme), kanıt güncelliğinin sınırlılığı, gizlilik/KVKK kaygıları ve yanlılık, bu modellerin sorumlu kullanımını zorunlu kılan başlıca etmenlerdir.
Bu sınırlılıklar, alanın olgunlaşması için ortak bir kalite ve şeffaflık çerçevesini gerekli kılmıştır. İki standart bu yazının kapsamı için merkezîdir:
Bu iki çerçeveye ek olarak protokoller için SPIRIT-AI, erken klinik değerlendirme için DECIDE-AI ve yanlılık değerlendirmesi için PROBAST-AI gibi araçlar tamamlayıcı rol oynar; düzenleyici boyut (FDA'nın YZ/ML tabanlı yazılım tıbbi cihaz çerçevesi, CE/IVDR) ve kurumsal duruşlar (ISUOG'un YZ pozisyon bildirisi, FIGO, WHO YZ etik rehberleri) ise klinik kullanım için zemini belirler. Bu standartların ayrıntıları bölümümüzün "Etik, Yanlılık, Validasyon ve Düzenleme" yazısında ele alınmaktadır.
Klinisyen açısından pratik çıkarım nettir: YZ araçları bugün için en güçlü oldukları yerde — gözlemci değişkenliğini azaltma, ölçüm standardizasyonu ve iş akışı verimliliği — destekleyici rol üstlenir. Bir aracı değerlendirirken sorulması gereken sorular şunlardır: Hangi popülasyonda ve hangi cihazlarla geliştirildi? Bağımsız, dış bir merkezde prospektif olarak doğrulandı mı? Onay/CE durumu ve kanıt düzeyi nedir? Çıktısı klinik kararı nasıl etkiliyor ve hata durumunda sorumluluk nasıl tanımlanmış? TRIPOD+AI ve CONSORT-AI, bu soruların yanıtını aramak için pratik bir kontrol listesi sağlar.
Bu genel çerçevenin üzerine, bölümün diğer yazıları her uygulama alanını derinleştiriyor: Fetal Ultrasonografide YZ, Kardiyotokografi (CTG/NST) Yorumlamada YZ, Preeklampsi Öngörüsünde YZ, Preterm Doğum Öngörüsünde YZ, IVF/ART'ta Embriyo Seçiminde YZ, Büyük Dil Modelleri Obstetri Pratiğinde ve Etik, Yanlılık, Validasyon ve Düzenleme. Hepsinin ortak mesajı aynıdır: vaadi ciddiye almak, ama kanıtı daha da ciddiye almak.
Son güncelleme: . Kaynaklar yayın tarihleri ve güncel sürümleriyle teyit edilmiştir.