Obstetride Yapay Zeka: Etik, Yanlılık, Validasyon ve Düzenleme

⚕️ Hedef kitle: Bu içerik sağlık profesyonellerine yöneliktir ve eğitim/güncel-bilgi amaçlıdır. Yapay zekâ araçları klinik karar desteği sunar; klinisyen sorumluluğunun ve onaylı klinik iş akışlarının yerine geçmez.

Obstetri ve perinatolojide yapay zekâ (YZ) uygulamaları hızla çoğalırken, dikkat çoğunlukla duyarlılık, özgüllük ve AUC (eğri altı alan — bir modelin ayırt etme gücünü gösteren ölçüt) gibi performans rakamlarına odaklanır. Oysa bir aracın klinik olarak güvenilir ve adil olup olmadığını belirleyen asıl etkenler, bu rakamların arkasındaki sorulardır: Model hangi popülasyonda geliştirildi? Farklı etnik ve sosyoekonomik gruplarda eşit performans gösteriyor mu? Bağımsız bir merkezde, ileriye dönük olarak doğrulandı mı? Hatası kime mal olur? Bu yazı, obstetrik YZ'nin etik, yanlılık, validasyon ve düzenleyici çerçevesini bütüncül biçimde ele alır.

Algoritmik yanlılık: maternal eşitsizlik bağlamında özel bir risk

Algoritmik yanlılık (algorithmic bias — bir modelin belirli gruplara karşı sistematik olarak hatalı veya dezavantajlı sonuçlar üretmesi), maternal sağlıkta soyut bir kaygı değildir. Maternal mortalite ve morbiditede etnik kökene dayalı belirgin eşitsizliklerin sürdüğü bir alanda, geçmiş verilerle eğitilen modeller bu eşitsizlikleri yalnızca yansıtmakla kalmaz, ölçeklendirerek pekiştirebilir. Çünkü makine öğrenmesi modelleri, geçmiş kararlardaki ve erişim farklılıklarındaki örüntüleri "doğru" kabul ederek öğrenir.

Bu alandaki en somut obstetrik örnek, sezaryen sonrası vajinal doğum (VBAC) başarı öngörü hesaplayıcısıdır. MFMU (Maternal-Fetal Medicine Units) ağı tarafından geliştirilen orijinal hesaplayıcı, ırk/etnik kökeni bir değişken olarak içeriyor ve Siyahi ile Hispanik gebeler için öngörülen başarı olasılığını düşürüyordu; bu durumun, denenecek doğum (TOLAC) önerilmesini eşitsiz biçimde caydırabileceği endişesi doğdu. Değişken 2021'de modelden çıkarıldı. ABD verilerini kullanan kesintili zaman serisi analizinde, çıkarmanın ardından TOLAC ve VBAC oranlarının genelde ve dört büyük etnik grupta değişmediği; buna karşılık başarılı VBAC oranlarındaki etnik farkın (örn. Hispanik %75,0; Siyahi %67,0; beyaz olmayan diğer gruplara karşı beyaz %77,2) sürdüğü gösterildi (Hikade ve ark., Obstet Gynecol 2025). Ders ikilidir: ırk değişkenini çıkarmak gerekli bir adımdır, ancak tek başına altta yatan klinik eşitsizliği çözmez.

Yanlılığın yalnızca tespit değil, azaltılabilir olduğunu gösteren bir örnek de perinatal duygudurum ve anksiyete bozukluklarının (PMAD) öngörüsündedir. Bir merkezde elektronik sağlık kayıtlarından eğitilen modellerde, ön işleme aşamasında verinin yeniden ağırlıklandırılması (reweighing); demografik parite farkını ve etnik gruplar arası yanlış-negatif farkını belirgin biçimde azaltırken ayırt etme gücünü (AUROC ~0,61–0,64) anlamlı ölçüde düşürmedi (Wong ve ark., JAMA Netw Open 2024). Bu tek-merkezli çalışma, "adillik–performans dengesinin" çoğu zaman sanıldığı kadar keskin olmadığını düşündürür; ancak dış validasyon gerekir.

Validasyon: iç performans yeterli değildir

Bir modelin geliştirildiği veride iyi performans göstermesi (iç validasyon), klinik kullanıma hazır olduğu anlamına gelmez. İki ayrı katman gereklidir: dış validasyon (modelin, geliştirildiği merkez dışındaki popülasyonda, farklı cihaz/protokol/demografi altında test edilmesi) ve prospektif validasyon (ileriye dönük, gerçek iş akışında, ideal olarak randomize kontrollü çalışmayla klinik sonuç üzerindeki etkisinin ölçülmesi). Obstetrik öngörü modellerinin önemli bir kısmı yalnızca retrospektif, tek-merkezli ve iç-validasyonla yayımlanır; bu da dağılım kayması (distribution shift) nedeniyle başka bir merkeze taşındığında performansın düşmesi riskini doğurur.

Prospektif kanıtın "yüksek performans" iddialarını nasıl sınırlayabileceğinin klasik obstetrik örneği intrapartum kardiyotokografi alanındadır: bilgisayarlı CTG karar desteği eklenen büyük çok-merkezli INFANT randomize çalışmasında, sistemin kötü perinatal sonuçları azaltmadığı gösterilmişti. Bu, in-silico veya retrospektif başarı ile gerçek klinik fayda arasındaki uçurumu hatırlatır. Bu nedenle ileriye dönük, sonuç-odaklı değerlendirme — yalnızca tanısal doğruluk değil — vazgeçilmezdir.

Açıklanabilirlik ve otomasyon yanlılığı

Derin öğrenme modellerinin çoğu "kara kutu" niteliğindedir; bir öneriye nasıl ulaştıkları doğrudan görülemez. Açıklanabilir YZ (explainable AI — modelin kararına katkıda bulunan etkenleri klinisyene yorumlanabilir biçimde sunmaya çalışan yöntemler; ör. ısı haritaları, öznitelik önem skorları) bu boşluğu kapatmayı amaçlar. Ancak açıklanabilirlik tek başına güvence değildir: post-hoc açıklamalar yanıltıcı veya tutarsız olabilir ve "makul görünen" bir açıklama, hatalı bir öneriye haksız güven kazandırabilir.

Buna bağlı kritik bir tehlike otomasyon yanlılığıdır (automation bias — klinisyenin kendi değerlendirmesini geri plana atarak otomatik sistemin önerisine aşırı güvenmesi). Klinik karar verme üzerine yapılan deneysel bir çalışmada, YZ önerisinin doğru olduğu durumlarda klinisyen doğruluğunun arttığı, ancak yanlış öneriler sunulduğunda klinisyenlerin yanlış yönlendirilerek tanısal doğruluğunun düştüğü gösterilmiştir (Kücking ve ark., Int J Med Inform 2025). Pratik çıkarım: YZ bir "ikinci görüş" olarak konumlandırılmalı, son kararın klinisyene ait olduğu iş akışları korunmalı ve sistemin hata profili kullanıcıya şeffaf biçimde aktarılmalıdır.

Sorumluluk ve hesap verebilirlik

Bir YZ aracının önerisiyle alınan kararda hata oluşursa sorumluluk kimindir? Klinisyen mi, kurum mu, üretici mi? Mevcut tıbbi-hukuki çerçevelerde standart konum, YZ'nin karar desteği sunduğu, nihai sorumluluğun klinisyende kaldığıdır. Bu durum, klinisyenin aracın endikasyonunu, sınırlarını ve onay durumunu bilmesini etik bir yükümlülük hâline getirir. Hesap verebilirliğin ön koşulu ise izlenebilirliktir: kullanılan model sürümü, eğitim/validasyon veri setleri ve performansın hangi popülasyonda gösterildiği açıkça belgelenmelidir. Bu şeffaflık beklentisi, aşağıdaki raporlama standartlarının da çekirdeğini oluşturur.

Raporlama standartları: TRIPOD+AI, CONSORT-AI, SPIRIT-AI, DECIDE-AI

YZ araştırmalarının eksik veya seçici raporlanması, kanıtın eleştirel değerlendirilmesini ve yinelenmesini engeller. Bu boşluğu kapatmak için geliştirilen ve günümüzde standart kabul edilen raporlama kılavuzları şunlardır:

TRIPOD+AI (Collins ve ark., BMJ 2024): Regresyon veya makine öğrenmesi tabanlı klinik öngörü modelleri için 27 maddelik, uyumlaştırılmış kontrol listesi. 2015 TRIPOD listesinin yerini almıştır; yöntem ne olursa olsun tam, doğru ve şeffaf raporlamayı; veri kaynağı, popülasyon ve adillik/yanlılık değerlendirmesinin açıklanmasını hedefler.
CONSORT-AI (Liu ve ark., Lancet Digit Health / Nature Medicine 2020): YZ müdahalesi içeren randomize kontrollü çalışma raporları için CONSORT 2010'a eklenen 14 yeni madde. Müdahalenin tanımı, kullanım ortamı, girdi/çıktı işlenişi, insan–YZ etkileşimi ve hata olgularının analizini şart koşar.
SPIRIT-AI (Cruz Rivera ve ark., Nature Medicine 2020): YZ müdahalelerine ait çalışma protokolleri için SPIRIT 2013'e eklenen 15 yeni madde; CONSORT-AI'nin protokol karşılığıdır.
DECIDE-AI (Vasey ve ark., Nature Medicine 2022): YZ tabanlı karar destek sistemlerinin erken aşama klinik değerlendirmesi için 17 YZ'ye özgü ve 10 genel maddelik kılavuz; güvenlik, insan faktörleri ve küçük ölçekli gerçek-dünya performansının raporlanmasına odaklanır. İlgili yanlılık aracı PROBAST-AI ile birlikte düşünülür.

Bu standartlar bir hiyerarşi oluşturur: öngörü modeli geliştirme/değerlendirme (TRIPOD+AI) → erken klinik değerlendirme (DECIDE-AI) → randomize müdahale çalışması protokol ve raporu (SPIRIT-AI / CONSORT-AI). Bir aracı değerlendirirken, hangi aşamada hangi kılavuza uyulduğunu sorgulamak, kanıt olgunluğunu hızlıca okumanın pratik bir yoludur.

Düzenleyici çerçeve: FDA ve Avrupa (CE/IVDR)

YZ tabanlı yazılımlar çoğu yargı bölgesinde "tıbbi cihaz yazılımı" (SaMD — Software as a Medical Device) olarak düzenlenir. ABD'de FDA, 2021 tarihli "AI/ML-Based SaMD Action Plan" ile öğrenebilen ve dağıtım sonrası uyarlanabilen yazılımlar için tüm ürün yaşam döngüsü (total product lifecycle, TPLC) yaklaşımını benimsemiştir; "Algorithm Change Protocol" kavramıyla, üreticinin gelecekteki model değişikliklerini önceden tanımlamasına olanak tanır. FDA, 6 Ocak 2025'te yayımladığı taslak kılavuzda (AI-enabled device software functions: lifecycle management ve pazarlama başvurusu önerileri) yaşam döngüsü yönetimi ile dağıtım sonrası performans izlemini daha da merkeze almıştır.

Avrupa'da YZ tabanlı tıbbi cihazlar, niteliklerine göre Tıbbi Cihaz Tüzüğü (MDR) veya İn Vitro Tanı Tüzüğü (IVDR) kapsamında CE işareti gerektirir; ayrıca yatay düzeyde AB Yapay Zeka Yasası (AI Act), sağlıkta kullanılan birçok YZ sistemini "yüksek riskli" kategoride ek yükümlülüklere tabi tutar. Klinik açıdan önemli ayrım şudur: düzenleyici onay (FDA temizliği/CE işareti), aracın belirli bir kullanım amacı ve popülasyon için asgari güvenlik/performans eşiğini karşıladığını gösterir; sizin hasta grubunuzda klinik fayda kanıtının veya dış validasyonun varlığını garanti etmez. Bu iki kavram (onay ≠ kanıtlanmış klinik üstünlük) ayrı tutulmalıdır.

Kurumsal duruşlar: WHO, FIGO, ISUOG, ACOG

Dünya Sağlık Örgütü'nün 2021 tarihli "Ethics and governance of artificial intelligence for health" rehberi, sağlıkta YZ için altı temel etik ilke ortaya koyar: özerkliğin korunması; insan refahı, güvenliği ve kamu yararının gözetilmesi; şeffaflık, açıklanabilirlik ve anlaşılabilirlik; sorumluluk ve hesap verebilirlik; kapsayıcılık ve eşitlik; duyarlı ve sürdürülebilir YZ. WHO bu çerçeveyi 18 Ocak 2024'te yayımladığı, büyük çok-kipli modellere (LMM) ilişkin 40'tan fazla öneri içeren ek rehberle üretken YZ çağına genişletmiştir.

Ultrasonografi tarafında ISUOG'un (Uluslararası Obstetri ve Jinekolojide Ultrasonografi Derneği) YZ konumlandırma bildirisi, teknolojinin kadın sağlığı için sunduğu fırsatı kabul etmekle birlikte; uygulamaya geçmeden önce güçlü/zayıf yönlerin dikkatli değerlendirilmesini, geliştirme ve validasyonda kullanılan yöntem ve veri setlerinin şeffaf biçimde tanımlanmasını ve eşitliği yol gösterici ilke olarak benimser. FIGO (Uluslararası Jinekoloji ve Obstetri Federasyonu) ve ACOG (Amerikan Obstetrisyenler ve Jinekologlar Koleji) gibi meslek kuruluşları da, YZ araçlarının ancak uygun validasyon, yanlılık denetimi ve klinisyen gözetimi koşullarıyla benimsenmesi gerektiği yönünde temkinli bir çizgi izlemektedir. Ortak vurgu nettir: heyecan, kanıtın yerini almamalıdır.

Pratik özet — bir YZ aracını değerlendirirken sorulacaklar: (1) Hangi popülasyonda geliştirildi ve benim hasta grubuma genellenebilir mi? (2) Bağımsız merkezde dış ve ideal olarak prospektif validasyonu var mı? (3) Etnik/sosyoekonomik alt gruplarda performans ve yanlış-negatif farkı raporlandı mı? (4) Klinik sonuç üzerinde fayda gösterildi mi, yoksa yalnızca tanısal doğruluk mu? (5) Düzenleyici onay durumu (FDA/CE) ve onaylı kullanım amacı nedir? (6) Raporlama hangi standarda (TRIPOD+AI / DECIDE-AI / CONSORT-AI) uyuyor?

Kanıt düzeyi ve sınırlılıklar

Bu yazıda aktarılan raporlama standartları (TRIPOD+AI, CONSORT-AI, SPIRIT-AI, DECIDE-AI) ve kurumsal rehberler (WHO, ISUOG) yüksek otoriteye sahip, uzlaşı temelli belgelerdir ve doğrulanmıştır. Buna karşılık yanlılık azaltma ve adillik metrikleri konusundaki klinik kanıtın çoğu tek-merkezli, retrospektif ve sınırlı dış validasyona sahiptir; aktarılan PMAD yanlılık-azaltma sonuçları (Wong ve ark. 2024) tek bir merkeze aittir ve genellenebilirliği belirsizdir. VBAC örneğindeki bulgular ABD nüfusuna özgüdür; etnik kategoriler ve eşitsizlik dinamikleri ülkeden ülkeye değişir. Otomasyon yanlılığına dair veriler deneysel ortamlardan gelmekte olup gerçek klinik iş akışındaki büyüklüğü değişkendir. Düzenleyici çerçeveler ise hızla evrildiğinden (özellikle FDA'nın 2025 taslak kılavuzu ve AB AI Act uygulaması), güncel resmî metinlerin daima kontrol edilmesi gerekir.

Klinik pratiğe yansıması

Etik, validasyon ve düzenleme; YZ benimsemesinin "isteğe bağlı eki" değil, ön koşuludur. Klinisyen için pratik tutum şudur: bir aracı yalnızca etkileyici performans rakamlarına göre değil; kendi popülasyonundaki dış/prospektif validasyonuna, alt-grup adillik kanıtına, açıklanabilirliğine, onay durumuna ve raporlama kalitesine göre değerlendirmek. YZ önerileri ikinci görüş olarak ele alınmalı, otomasyon yanlılığına karşı bilinçli durulmalı ve nihai klinik karar — sorumlulukla birlikte — hekimde kalmalıdır. Adil, şeffaf ve dış-doğrulanmış araçlar, maternal sonuçları iyileştirme potansiyeli taşır; ancak bu potansiyel ancak yukarıdaki güvenceler sağlandığında klinik faydaya dönüşür.

← Obstetride Yapay Zeka bölümüne dön