Анализ текстов описаний КТ-исследований головного мозга с признаками внутричерепных кровоизлияний с помощью алгоритма дерева решений

А.Н. Хоружая, Д.В. Козлов, К.М. Арзамасов, Е.И. Кремнева

Ключевые слова: компьютерная томография; диагностические описания; внутричерепное кровоизлияние; обработка медицинских текстов; машинное обучение; алгоритм дерева решений.

2022, том 14, номер 6, стр. 34.

DOI: https://doi.org/10.17691/stm2022.14.6.04

Полный текст статьи

html pdf

3083

2398

Аннотация
Список литературы
Как цитировать в References

Цель исследования — разработать, обучить и протестировать алгоритм анализа текстовых описаний КТ-исследований головного мозга с использованием модели дерева решений для задачи простой бинарной классификации наличия/отсутствия признаков внутричерепного кровоизлияния (ВЧК).

Материалы и методы. Исходные данные представляют собой выгрузку из системы ЕРИС ЕМИАС, содержащей 34 188 исследований, полученных в результате проведения бесконтрастной КТ головного мозга в 56 медицинских организациях стационарной медицинской помощи. Анализ данных, а также их предварительную обработку осуществляли с использованием библиотеки для символьной и статистической обработки естественного языка NLTK (Natural Language Toolkit, v. 3.6.5) и библиотеки для машинного обучения, содержащей инструменты для решения задач классификации scikit-learn. По 14 подобранным ключевым словам, имеющим отношение к ВЧК, а также 33 стоп-фразам, содержащим ключевые слова, наличие которых в тексте описания подразумевало отсутствие ВЧК, выполняли автоматический отбор КТ-исследований и их последующую экспертную верификацию. Получена выборка из 3980 протоколов описаний, из которой сформированы два класса данных: содержащих описание ВЧК и без такового. В качестве модели, с помощью которой решали задачу бинарной классификации, выбран алгоритм решающего дерева. Для оценки производительности модели КТ-исследования были разделены случайным образом на две выборки в соотношении 7:3. Из 3980 протоколов 2786 были отнесены к обучающему набору данных, 1194 — к тестовому.

Результаты. По результатам тестирования чувствительность разработанного и обученного алгоритма при бинарной классификации описаний КТ-исследований «с признаками ВЧК» и «без признаков ВЧК» составила 0,94, специфичность — 0,88, F-мера — 0,83.

Заключение. Разработанный и обученный алгоритм анализа текстовых протоколов КТ-описаний показал высокую точность работы при исследованиях головного мозга с признаками ВЧК. Он может применяться для решения задач бинарной классификации и создания соответствующих наборов данных. Ограничением алгоритма является необходимость ручного пересмотра КТ-исследований с целью обеспечения контроля качества.

Белолипецкая А.Е., Головина Т.А., Полянин А.В. Цифровая трансформация сферы здравоохранения: компетентностный подход. Проблемы социальной гигиены, здравоохранения и истории медицины 2020; 28(S): 694–700, https://doi.org/10.32687/0869-866x-2020-28-s1-694-700.
Полищук Н.С., Ветшева Н.Н., Косарин С.П., Морозов С.П., Кузьмина Е.С. Единый радиологический информационный сервис как инструмент организационно-методической работы Научно-практического центра медицинской радиологии Департамента здравоохранения г. Москвы (аналитическая справка). Радиология — практика 2018; 1: 6–17.
Buchlak Q.D., Milne M.R., Seah J., Johnson A., Samarasinghe G., Hachey B., Esmaili N., Tran A., Leveque J.C., Farrokhi F., Goldschlager T., Edelstein S., Brotchie P. Charting the potential of brain computed tomography deep learning systems. J Clin Neurosci 2022; 99: 217–223, https://doi.org/10.1016/j.jocn.2022.03.014.
Kuo W., Hӓne C., Mukherjee P., Malik J., Yuh E.L. Expert-level detection of acute intracranial hemorrhage on head computed tomography using deep learning. Proc Natl Acad Sci U S A 2019; 116(45): 22737–22745, https://doi.org/10.1073/pnas.1908021116.
Ginat D.T. Analysis of head CT scans flagged by deep learning software for acute intracranial hemorrhage. Neuroradiology 2020; 62(3): 335–340, https://doi.org/10.1007/s00234-019-02330-w.
Pons E., Braun L.M.M., Hunink M.G.M., Kors J.A. Natural language processing in radiology: a systematic review. Radiology 2016; 279(2): 329–343, https://doi.org/10.1148/radiol.16142770.
Wang Y., Sohn S., Liu S., Shen F., Wang L., Atkinson E.J., Amin S., Liu H. A clinical text classification paradigm using weak supervision and deep representation. BMC Med Inform Decis Mak 2019; 19(1): 1, https://doi.org/10.1186/s12911-018-0723-6.
Vo T.H., Nguyen N.T.K., Kha Q.H., Le N.Q.K. On the road to explainable AI in drug-drug interactions prediction: a systematic review. Comput Struct Biotechnol J 2022; 20: 2112–2123, https://doi.org/10.1016/j.csbj.2022.04.021.
Chen J., Druhl E., Polepalli Ramesh B., Houston T.K., Brandt C.A., Zulman D.M., Vimalananda V.G., Malkani S., Yu H. A natural language processing system that links medical terms in electronic health record notes to lay definitions: system development using physician reviews. J Med Internet Res 2018; 20(1): e26, https://doi.org/10.2196/jmir.8669.
Chen P.H. Essential elements of natural language processing: what the radiologist should know. Acad Radiol 2020; 27(1): 6–12, https://doi.org/10.1016/j.acra.2019.08.010.
Sysoev O., Bartoszek K., Ekström E.C., Ekholm Selling K. PSICA: decision trees for probabilistic subgroup identification with categorical treatments. Stat Med 2019; 38(22): 4436–4452, https://doi.org/10.1002/sim.8308.
Hostettler I.C., Muroi C., Richter J.K., Schmid J., Neidert M.C., Seule M., Boss O., Pangalu A., Germans M.R., Keller E. Decision tree analysis in subarachnoid hemorrhage: prediction of outcome parameters during the course of aneurysmal subarachnoid hemorrhage using decision tree analysis. J Neurosurg 2018; 129(6): 1499–1510, https://doi.org/10.3171/2017.7.jns17677.
He B., Guan Y., Dai R. Classifying medical relations in clinical text via convolutional neural networks. Artif Intell Med 2019; 93: 43–49, https://doi.org/10.1016/j.artmed.2018.05.001.
Qing L., Linhong W., Xuehai D. A novel neural network-based method for medical text classification. Future Internet 2019; 11(12): 255, https://doi.org/10.3390/fi11120255.
Donnelly L.F., Grzeszczuk R., Guimaraes C.V. Use of natural language processing (NLP) in evaluation of radiology reports: an update on applications and technology advances. Semin Ultrasound CT MR 2022; 43(2): 176–181, https://doi.org/10.1053/j.sult.2022.02.007.
Vrigazova B. The proportion for splitting data into training and test set for the bootstrap in classification problems. Bus Syst Res 2021; 12(1): 228–242, https://doi.org/10.2478/bsrj-2021-0015.
Warner J.L., Levy M.A., Neuss M.N. ReCAP: feasibility and accuracy of extracting cancer stage information from narrative electronic health record data. J Oncol Pract 2016; 12(2): 157–158, https://doi.org/10.1200/jop.2015.004622.
Szlosek D.A., Ferretti J.M. Using machine learning and natural language processing algorithms to automate the evaluation of clinical decision support in electronic medical record systems. EGEMS (Wash DC) 2016; 4(3): 1222, https://doi.org/10.13063/2327-9214.1222.
Davidson E.M., Poon M.T.C., Casey A., Grivas A., Duma D., Dong H., Suárez-Paniagua V., Grover C., Tobin R., Whalley H., Wu H., Alex B., Whiteley W. The reporting quality of natural language processing studies: systematic review of studies of radiology reports. BMC Med Imaging 2021; 21(1): 142, https://doi.org/10.1186/s12880-021-00671-8.
Морозов С.П., Владзимирский А.В., Кляшторный В.Г., Андрейченко А.Е., Кульберг Н.С., Гомболевский В.А., Сергунова К.А. Клинические испытания программного обеспечения на основе интеллектуальных технологий (лучевая диагностика). Серия «Лучшие практики лучевой и инструментальной диагностики». М; 2019; 51 с.

Khoruzhaya А.N., Kozlov D.V., Arzamasov К.M., Kremneva E.I. Text Analysis of Radiology Reports with Signs of Intracranial Hemorrhage on Brain CT Scans Using the Decision Tree Algorithm. Sovremennye tehnologii v medicine 2022; 14(6): 34, https://doi.org/10.17691/stm2022.14.6.04