Kardiyotokografi (CTG/NST) Yorumlamada Yapay Zeka

⚕️ Hedef kitle: Bu içerik sağlık profesyonellerine yöneliktir ve eğitim/güncel-bilgi amaçlıdır. Yapay zekâ araçları klinik karar desteği sunar; klinisyen sorumluluğunun ve onaylı klinik iş akışlarının yerine geçmez.

Kardiyotokografi (CTG — fetal kalp atım hızı ile uterus kasılmalarının eşzamanlı kaydı; antepartumda kullanıldığında non-stres test/NST adını alır) yarım asırdır obstetrik bakımın merkezinde yer alır. Sürekli elektronik fetal izlem (EFM), doğum eyleminde fetal iyilik halinin değerlendirilmesinde standart yöntem haline gelmiştir. Ancak yöntemin paradoksu şudur: traseyi kaydetmek kolaydır, fakat onu doğru yorumlamak zordur. CTG sinyalleri karmaşıktır ve görsel yoruma dayalı değerlendirme öznel kaldığı için tutarsızdır. İşte yapay zekâ (YZ), bu öznelliği azaltma ve yorum tutarlılığını artırma vaadiyle bu alana girmektedir.

CTG yorumunun temel sorunu: gözlemci değişkenliği

CTG'nin klinik değerini sınırlayan en iyi belgelenmiş sorun, gözlemciler arası (interobserver) ve gözlemci-içi (intraobserver) düşük uyumdur — yani aynı traseyi farklı klinisyenler, hatta aynı klinisyen farklı zamanlarda, farklı sınıflandırabilir. NICHD üç-katmanlı (3-Tier) fetal kalp atım sınıflandırma sisteminin güvenilirliğini test eden bir çalışmada, gözlemciler arası uyum yalnızca orta düzeyde bulunmuştur (kappa 0,45). Daha çarpıcı olan, en kritik kategoride — patolojik (Kategori III) traselerde — uyumun zayıf olmasıydı (kappa 0,0); bu uyumsuzluk büyük ölçüde "yok" ile "minimal" variabilite ayrımındaki anlaşmazlıktan kaynaklanıyordu (Blackwell ve ark., 2011).

Benzer bir tablo Avrupa verilerinde de görülür. FIGO 2015 sınıflandırma kriterlerinin kullanıldığı bir çalışmada, intrapartum traselerin "normal" olarak sınıflandırılmasında orta düzeyde uyum sağlanırken, "şüpheli" ve "patolojik" kategorilerinde uzlaşı sağlanamamıştır (Amadori ve ark., 2022). Klinik açıdan en önemli olduğu noktada — anormal traselerde — yorumun en güvenilmez hale gelmesi, otomasyon arayışının temel gerekçesidir. Bu değişkenlik akademik bir ayrıntı değildir: gereksiz müdahalelere (sezaryen, operatif doğum) yol açabileceği gibi, gerçek fetal tehlikeyi de gözden kaçırabilir.

Bilgisayarlı CTG: Dawes-Redman sistemi

Yapay zekânın güncel dalgasından çok önce, kural-temelli bilgisayarlı analiz bu sorunu çözmeyi denedi. 1990'ların başında geliştirilen Dawes-Redman sistemi (ticari olarak Oxford Sonicaid / Oxford System adıyla yaygın kullanımdadır), antepartum CTG sinyallerini ampirik olarak türetilmiş kriterlerle değerlendiren standartlaştırılmış bir otomatik analiz yöntemidir. Sistem, görsel yorumla güvenilir biçimde ölçülemeyen bir parametreyi — kısa dönem variabilite (STV — fetal kalp atımları arasındaki milisaniye düzeyindeki ince değişkenlik) — nicel olarak hesaplar ve fetal iyilik halinin değerlendirilmesinde objektif bir ölçüt sunar.

Otuz yılı aşkın sürede iteratif olarak güncellenen ve 100.000'den fazla gebelik verisini içeren Dawes-Redman sistemi, sinyal özelliklerinin sağlam (robust) analizini mümkün kılar ve antepartum izlemde — özellikle fetal büyüme kısıtlılığı takibinde — yerleşik bir araçtır (Jones, Cooke, Vatish ve Redman, 2022). Önemli bir kavramsal not: Dawes-Redman "kural-temelli" bir uzman sistemdir; verilerden örüntü öğrenen modern makine öğrenmesi/derin öğrenme yaklaşımlarından metodolojik olarak farklıdır. Yine de günümüzde klinik pratikte en geniş kabul görmüş bilgisayarlı CTG yaklaşımı olmaya devam etmektedir.

Derin öğrenme ile CTG sınıflandırma

Son yıllarda araştırma odağı, sinyalden doğrudan öğrenen veri-güdümlü derin öğrenme (deep learning — çok katmanlı yapay sinir ağlarıyla ham veriden örüntü çıkaran makine öğrenmesi alt dalı) yöntemlerine kaymıştır. Bu modeller, fetal kalp atım hızı zaman serisini işleyerek fetal kompromisi (fetal asfiksi/asidoz riski) otomatik olarak tespit etmeyi amaçlar. 2023 tarihli kapsamlı bir kapsam derlemesi (scoping review), CTG traselerini sınıflandıran en az bir algoritmayı inceleyen 40 farklı çalışmayı haritalamış; bu yaklaşımların gözlemci değişkenliğini azaltma potansiyeli taşıdığını, ancak hiçbirinin klinik pratikte geniş kabul görmediğini ve doğrulanmış bir karar destek sistemine ulaşmak için daha fazla küratörlü ve etiketli veriye ihtiyaç olduğunu vurgulamıştır (Aeberhard ve ark., 2023).

Bu alanın en kritik zayıflığı genellenebilirlik ve dış validasyon eksikliğidir. Modeller genellikle tek ve dengesiz veri setlerinde geliştirilir; farklı popülasyon ve cihazlara aktarıldığında performansları düşebilir. 2025 tarihli bir çalışma, altı derin öğrenme modelini bir özel veri seti (9.887 kayıt) ile açık erişimli CTU-UHB veri seti (552 kayıt) üzerinde çapraz-veritabanı (cross-database) olarak değerlendirmiştir. ResNet mimarisi her iki veritabanında en güçlü performansı göstermiş; dahası, modelin yüksek katkı sağlayan sinyal bölgelerine ait sınıf-aktivasyon haritaları, kompromize fetal örüntülere ilişkin klinik bilgiyle örtüşmüştür — yani modelin "neye baktığı" yorumlanabilir bulunmuştur. Çalışma, gelecekteki yöntemlerin karşılaştırılması için standartlaştırılmış bir iş akışı önerirken, asıl mesajı yeni yöntemlerin genellenebilirlik ve yorumlanabilirlik göstermeden klinik uygulamaya geçmemesi gerektiğidir (Mendis ve ark., 2025).

📊 Performans rakamları nasıl okunmalı? Çok merkezli güncel çalışmalarda derin öğrenme modelleri dış test setlerinde 0,86 dolayında AUC (eğri altı alan; ayırt etme gücü ölçütü) bildirmektedir (örn. Park ve ark., 2025). Bu rakamlar umut vericidir, ancak retrospektif ve büyük ölçüde tek-ülke verilerine dayanır; klinik sonucu (neonatal sağlık) iyileştirip iyileştirmediğini gösteren prospektif kanıt değildir. Yüksek AUC, klinik fayda anlamına gelmez.

INFANT çalışması: dürüst bir uyarı

Bu alanda abartıdan kaçınmanın en güçlü gerekçesi, konuyu doğrudan sınayan en büyük randomize kontrollü çalışmadır. INFANT çalışması (INFANT Collaborative Group, Lancet 2017), doğum eyleminde sürekli EFM uygulanan kadınlarda CTG yorumuna karar destek yazılımı eklenmesinin kötü neonatal sonuçların sayısını etkileyip etkilemediğini test etmiştir. Çalışma devasa ölçektedir: Birleşik Krallık ve İrlanda'daki 24 doğum ünitesinde 47.062 kadın randomize edilmiş, 46.042'si analiz edilmiştir.

Sonuç açık ve olumsuzdur: birincil bileşik kötü neonatal sonuç (intrapartum ölü doğum/erken neonatal ölüm, neonatal ensefalopati veya doğumda kompromis kanıtıyla yenidoğan ünitesine yatış) açısından gruplar arasında hiçbir fark saptanmamıştır — karar destek grubunda %0,7 (172 bebek), karar desteği olmayan grupta %0,7 (171 bebek); düzeltilmiş risk oranı (RR) 1,01, %95 güven aralığı (GA) 0,82–1,25. İki yaşındaki nörogelişimsel değerlendirmede de anlamlı fark bulunmamıştır. Çalışmanın kendi yorumu nettir: "Doğum eyleminde sürekli elektronik fetal izlem uygulanan kadınlarda bilgisayarlı CTG yorumunun kullanımı, anne veya bebekler için klinik sonuçları iyileştirmez."

Ayrıntılı sağlık teknolojisi değerlendirmesi raporu (Brocklehurst ve ark., Health Technol Assess 2018), karar desteğinin pratiği değiştirdiğini ancak sonucu değiştirmediğini ekler: karar destek kolunda fetal kan örneklemesi artmış ve tekrarlayan uyarı oranı azalmıştır; buna karşın sağlık kaynak kullanımı ve toplam maliyette fark olmamıştır. Yani sistem klinisyen davranışını etkilemiş, fakat bu davranış değişikliği daha iyi neonatal sonuca tercüme olmamıştır. INFANT'ın bıraktığı kalıcı ders şudur: teknoloji daha doğru bir uyarı üretse bile, asıl darboğaz çoğu zaman CTG anormalliklerine verilen klinik yanıtın zamanlaması ve uygunluğudur — ki bu hâlâ acil bir eğitim ihtiyacı olarak vurgulanmaktadır.

⚠️ Yapay zekâ insanı her zaman geçmez. 2025 tarihli deneysel bir karşılaştırmada (Miyata ve ark.), fetal asfiksiyi öngörmede insan uzman yargısı en yüksek AUC'yi elde etmiştir (0,693), makine öğrenmesi (0,514) ve derin öğrenmeyi (0,524) geçerek. Derin öğrenme, insanların kaçırdığı bazı vakaları yakalayıp duyarlılığı artırsa da tek başına insan yargısının doğruluğunu aşamamıştır. İlginç biçimde, insan ile YZ birleştirildiğinde özgüllük artmıştır (%91,9'dan %98,0'a) — yani YZ'nin gerçek katkısı "insanın yerini almak" değil, yanlış-pozitifleri azaltarak tamamlamak olabilir. Bu, küçük ölçekli tek bir çalışmadır ve genellenmemelidir, ancak abartıya karşı sağlam bir hatırlatmadır.

Kanıt düzeyi ve sınırlılıklar

Klinik sonuç kanıtı zayıf. Bilgisayarlı/YZ-destekli CTG'nin neonatal sonucu iyileştirdiğine dair güçlü prospektif kanıt yoktur; en büyük randomize çalışma (INFANT) null sonuç vermiştir. Mevcut derin öğrenme çalışmaları ağırlıkla retrospektif tanısal-doğruluk çalışmalarıdır.
Dış validasyon ve genellenebilirlik açığı. Modeller küçük, dengesiz ve çoğunlukla tek merkezli/tek ülkeli veri setlerinde geliştirilir; farklı popülasyon, cihaz ve protokollere taşındığında performans düşebilir (Aeberhard 2023; Mendis 2025).
Referans standart sorunu. Eğitim etiketleri ya öznel uzman yorumuna (kendisi değişken) ya da göbek kordonu pH'sı gibi vekil ölçütlere dayanır; "altın standart"ın belirsizliği modellerin tavanını sınırlar.
Antepartum ≠ intrapartum. Antepartum NST/cCTG (örn. Dawes-Redman, STV) ile doğum eylemi sırasındaki dinamik intrapartum izlem farklı problemlerdir; birinde geçerli bulgu diğerine doğrudan aktarılamaz.
Otomasyon yanlılığı riski. Bir algoritmik uyarı sistemi, klinisyeni kendi muhakemesinden uzaklaştırabilir; INFANT'ta görüldüğü gibi pratiği değiştirip sonucu değiştirmeyebilir.

Klinik pratiğe yansıması

Bugün için pratik tablo şudur: Antepartum izlemde Dawes-Redman tipi bilgisayarlı analiz, özellikle STV ölçümüyle yerleşik ve yararlı bir objektif araçtır ve yüksek riskli takiplerde kullanılmaktadır. Buna karşılık, doğum eyleminde derin öğrenme temelli karar destek sistemleri henüz araştırma aşamasındadır; rutin klinik kullanım için doğrulanmış, prospektif olarak sonuç iyileştirdiği kanıtlanmış bir intrapartum YZ sistemi bulunmamaktadır. Mantıklı duruş, YZ'yi klinisyenin yerine geçen bir karar verici olarak değil, dikkat yönlendiren ve tutarlılığı artıran bir yardımcı olarak konumlandırmaktır.

Hâlâ açık kalan sorular nettir: Hangi hasta popülasyonunda gerçek fayda sağlanır? Modeller farklı merkezlerde genellenir mi? En önemlisi — daha doğru bir uyarı, daha iyi bir klinik yanıta ve daha iyi neonatal sonuca dönüşür mü? Bu sorulara yanıt verecek olan, AUC tablolarından çok, iyi tasarlanmış prospektif/randomize çalışmalar ve şeffaf raporlama standartlarına (ör. TRIPOD-AI, DECIDE-AI) uyumdur. O güne kadar, en güvenli yaklaşım YZ çıktısını eleştirel klinik muhakemeyle birlikte değerlendirmek ve CTG anormalliklerine zamanında, uygun yanıt vermeye yönelik klinik eğitime yatırım yapmaktır.

← Obstetride Yapay Zeka bölümüne dön