आईएसएसएन: 2161-0932
रिनहार्ट जॉन
पृष्ठभूमि: IVF अभ्यास में नैदानिक निर्णय लेने की दुविधाएँ विशेष रूप से उल्लेखनीय हैं, यह देखते हुए कि बड़े डेटासेट अक्सर उत्पन्न होते हैं जो चिकित्सकों को उपचार विकल्पों को सूचित करने वाली भविष्यवाणियाँ करने में सक्षम बनाते हैं। इस अध्ययन ने जुड़वाँ बच्चों के जोखिम को निर्धारित करने के लिए IVF डेटा का उपयोग करके मशीन लर्निंग को लागू किया जब दो या अधिक भ्रूण स्थानांतरण के लिए उपलब्ध थे। जबकि अधिकांश क्लासिफायर सटीकता के अनुमान प्रदान करने में सक्षम हैं, यह अध्ययन सटीकता और एरिया अंडर द कर्व (AUC) दोनों द्वारा क्लासिफायर की तुलना करके आगे बढ़ गया।
तरीके: अध्ययन डेटा एक बड़े इलेक्ट्रॉनिक मेडिकल रिकॉर्ड सिस्टम से प्राप्त किया गया था जिसका उपयोग 140 से अधिक IVF क्लीनिकों द्वारा किया जाता है और इसमें 135,000 IVF चक्र शामिल हैं। डेटासेट को 88 चर से घटाकर 40 कर दिया गया और इसमें केवल IVF के वे चक्र शामिल थे जहाँ दो या अधिक ब्लास्टोसिस्ट भ्रूण बनाए गए थे। सटीकता और AUC के संदर्भ में निम्नलिखित क्लासिफायर की तुलना की गई: एक सामान्यीकृत रैखिक मॉडल, रैखिक विभेदक विश्लेषण, द्विघात विभेदक विश्लेषण, K-निकटतम पड़ोसी, सपोर्ट वेक्टर मशीन, रैंडम फ़ॉरेस्ट और बूस्टिंग। एक नया मॉडल बनाने के लिए क्लासिफायर से पूर्वानुमानों का उपयोग करने के लिए एक स्टैकिंग एन्सेम्बल लर्निंग एल्गोरिदम भी लागू किया गया था।
परिणाम: जबकि एन्सेम्बल क्लासिफायर सबसे सटीक था, कोई भी क्लासिफायर अन्य क्लासिफायर से काफी बेहतर होने के रूप में प्रबल नहीं था। निष्कर्षों ने संकेत दिया कि क्लासिफायर के लिए बूस्टिंग विधियों ने खराब प्रदर्शन किया; लॉजिस्टिक और लीनियर डिस्क्रिमिनेंट एनालिसिस क्लासिफायर ने क्वाड्रैटिक डिस्क्रिमिनेंट एनालिसिस क्लासिफायर से बेहतर प्रदर्शन किया, और सपोर्ट वेक्टर मशीन ने ट्री क्लासिफायर के लगभग समान प्रदर्शन किया। सटीकता के लिए AUC परिणाम तुलनाओं के अनुरूप थे। 588 अवलोकनों वाले एक अलग डेटासेट का उपयोग करके बाहरी सत्यापन भी किया गया था। सभी मॉडलों ने बाहरी सत्यापन डेटासेट का उपयोग करके बेहतर प्रदर्शन किया, जिसमें रैंडम फ़ॉरेस्ट क्लासिफायर ने किसी भी अन्य क्लासिफायर की तुलना में बेहतर प्रदर्शन किया।
निष्कर्ष : ये परिणाम इस धारणा का समर्थन करते हैं कि बड़ा डेटा नैदानिक निर्णय लेने की प्रक्रिया में मूल्यवान हो सकता है; लेकिन कोई भी एकल सांख्यिकीय एल्गोरिदम सभी डेटाबेस के लिए अधिकतम सटीकता प्रदान नहीं करता है। इसलिए, यह निर्धारित करने के लिए कि कौन से एल्गोरिदम डेटा के किसी विशेष सेट के लिए सबसे सटीक हैं, विभिन्न डेटासेट की जांच की आवश्यकता होगी। ये निष्कर्ष इस बात को रेखांकित करते हैं कि बड़ी मात्रा में डेटा तक पहुंच रखने वाले चिकित्सक, रोगी देखभाल के लिए अत्यंत महत्वपूर्ण मजबूत नैदानिक जानकारी तैयार करने के लिए उन्नत पूर्वानुमान विश्लेषणात्मक मॉडल का उपयोग कर सकते हैं।