Анализ точности алгоритма Skinive для оценки риска состояния кожи

Accuracy Scale for Skinive

Анализ точности алгоритма Skinive для оценки риска состояния кожи

Анализ точности алгоритма Skinive для оценки риска состояния кожи 1200 517 Skinive

Оглавление

— АННОТАЦИЯ

1. ВВЕДЕНИЕ
2. АЛГОРИТМ SKINIVEДЛЯ АНАЛИЗА ИЗОБРАЖЕНИЙ УРОВНЯ КОЖИ
2.1 Нозологии и классы
2.2 Архитектура нейронной сети
2.3 Безопасность данных
3. МАТЕРИАЛЫ И РЕЗУЛЬТАТЫ
— ВЫВОДЫ
— СПИСОК ЛИТЕРАТУРЫ

— РЕЦЕНЗИЯ ИИ-ЭКСПЕРТА
— РЕЦЕНЗИЯ МЕДИЦИНСКОГО ЭКСПЕРТА


Анализ точности алгоритма Skinive для оценки риска состояния кожи, на основе алгоритмов машинного обучения.

Авторы: ​K. Atstarov, A.Lian, V.Shpudeiko, A.Ahushevich, I.Lichko

АННОТАЦИЯ

Предыстория

Алгоритмы машинного обучения для обработки медицинских изображений (medical imaging processing) в настоящее время достигают экспертной точности и активно внедряются в медицинскую практику. Однако нет объективной оценки использования машинного обучения для классификации поражений кожи в ряде приложений для смартфонов. Отсутствие объективных методик и открытых наборов данных для оценки этих алгоритмов (как пример — Imagenet) мешает объективной оценке специалистами и тормозит широкое использование данной технологии в здравоохранении.

Задача

В этом исследовании мы экспериментально оцениваем точность алгоритмов Skinive и сравниваем их с ранее опубликованным исследованием по оценке риска рака кожи (1 *).

Методы

В этой публикации подробно представлены результаты применения нашей системы приложений для смартфонов. Skinive использует алгоритм машинного обучения для расчета рейтинга риска патологий кожи. Алгоритм обучен на 63 955 изображениях. Все изображения в наборе данных были оценены дерматологами на предмет риска.

Для оценки чувствительности алгоритма используются 3 набора проверочных данных:

  1. (Пред) злокачественные — 285 случаев рака кожи и предраковых состояний;
  2. ВПЧ — 285 случаев вируса папилломы человека;
  3. Акне- 285 случаев акне, угрей, милиум, розацеа.

Мы рассчитываем специфичность на отдельном наборе, содержащем 6000 доброкачественных случаев.

Результаты

Для моделирования эксперимента авторы подготовили наборы проверочных данных с аналогичным распределением количества изображений по нозологии и использовали нейронную сеть Skinive для анализа изображений и классификации уровней риска, аналогично приведенному ниже примеру:

Чувствительность: 89,1% — новообразования, 79,6% — ВПЧ, 86,3% — Акне
Специфичность: 93,5%

Risk Assessment Results
high/low

Классы заболеванийВсего случаевНизкий рискВысокий рискЧувствительность*
(Pre) malignant case*2853125489,1%
Acne2853924686,3%
HPV2855822779,6%
ДоброкачественныеНизкий рискВысокий рискСпецифичность**
Доброкачественные новообразования60005,60739393.5%

* Чувствительность определяется как отношение количества случаев патологии кожи, правильно определенных  алгоритмом (предраковые заболевания и злокачественные опухоли, прыщи и ВПЧ), к количеству всех клинически подтвержденных случаев, соответственно.

** Специфичность равна количеству доброкачественных случаев, правильно классифицированных алгоритмом, как низкий риск (истинно отрицательные случаи), деленное на общее количество всех клинически подтвержденных доброкачественных случаев.

Результаты, полученные выше, близко следовали за экспериментальной установкой, предложенной в 1 * с точки зрения соответствующих распределений классов и общего числа случаев.

Выводы

Результаты точности нейронной сети сопоставимы с точностью дерматологов, полученных в исследованиях (5 *, 6 *), и могут рассматриваться как экспертная система для поддержки принятия медицинского решения для косметологов, младших медицинских работников, врачей общей практики и дерматологов.

Sensitivity Scale for Medical Professionals & Skinive

Рис. Шкала точности для медицинских работников

Результаты сравнительного анализа нельзя интерпретировать однозначно и не могут быть полностью достоверными, так как в наборах данных использовались данные из разных источников. Отсутствие открытых данных (изображений) и единый подход к проверке решений от разных производителей не позволяют провести «эталонный» независимый сравнительный анализ, необходимый для подтверждения эффективности метода в целом и объективного сравнения существующих решений. Тем не менее, результаты, полученные выше, находятся на одном уровне с медицинскими работниками и могут быть улучшены с помощью дополнительных данных и более оптимизированных алгоритмов.

Отсутствие открытых наборов данных (изображений) проверки и общий подход различных разработчиков к проверке решений не позволяют им проводить независимый сравнительный анализ, что необходимо для подтверждения эффективности метода в целом и объективного сравнения существующих решений.

Будущие исследования необходимы для определения роли и оценки воздействия мобильных приложений на систему здравоохранения и ее пользователей, а также для дальнейшего обсуждения внедрения общих методологий для оценки эффективности мобильных приложений для оценки риска заболеваний кожи.

 

P.S.

Мы открыты для совместных исследований с другими группами специалистов по обработке данных и можем предоставить доступ к нашему проверенному набору данных по запросу.

Мы готовы предоставить полную версию нашего исследования для следующих целей:

  • публикации в медицинских журналах и печатных СМИ;
  • обзоры медицинских и технических экспертов;
  • партнеры, корпоративные клиенты, инвесторы
    (на условиях NDA до момента официального опубликования в открытых источниках).

Свяжитесь с нами удобным способом https://skinive.ru/feedback/


Рецензия эксперта в DataScience

Исследовательская работа, описанная в этой статье, была проведена авторами во время программы акселерации Rockstart AI в Хертогенбос, Нидерланды. Цель исследования была тройной:

  1. Определите репрезентативный и сбалансированный набор изображений, которые можно сделать доступными для всех исследователей, использующих компьютерное зрение и машинное обучение для классификации повреждений кожи.
  2. Создать тест для оценки всех подобных методов в этой области.
  3. Сравнение результатов Skinive с современным уровнем техники в данной области на основе определенного эталонного теста и данных; поставить эти результаты в контексте работы медицинских работников.

В рамках программы ускорения я проводил еженедельные сессии с технической командой Skinive, наблюдая за экспериментальной установкой, составлением набора данных, распределением классов и другими соответствующими аспектами при создании такого теста. Насколько мне известно, тест удовлетворяет всем необходимым критериям и, таким образом, является хорошим кандидатом на получение золотого стандарта для других исследователей в этой области при тестировании производительности их алгоритмов.

Кроме того, авторы и я строго проверяли результаты всех экспериментов, в том числе показанных в этом отчете. Авторы сделали все возможное, чтобы эти результаты были не только оптимальными для их случая использования, но и сопоставимыми с современным уровнем техники, а также с экспертами в области медицины.

Рецензия медицинского эксперта

на статью «Сравнительный анализ точности приложений для смартфонов по сортировке изображений поражений кожи на основе алгоритмов машинного обучения» (авторы: К. Соколов, А. Лян, В. Шпудейко, А. Ахушевич, И. Личко).

Настоящая статья посвящена актуальной проблеме дерматовенерологии – изучению перспектив применения в медицине алгоритмов машинного обучения для обработки медицинских изображений, что позволит совершенствовать раннюю диагностику кожных онкопатологий. Целью исследования являлось изучение диагностической точности мобильного приложения Skinive и сравнение полученных результатов с ранее опубликованной работой Skinvision B.V.

В результате проведенных исследований авторами установлены уровни чувствительности (76.8-80.4%) и специфичности (93.8%) мобильного приложения Skinive, что говорит о высоком уровне диагностического метода, однако существует необходимость в улучшении уровня чувствительности для выявления рака кожи.

Заключение: Статья выполнена на высоком научном уровне. Структура статьи последовательно отражает логику исследования. Следует отметить, что статья написана ясным языком, не перегруженным узкоспециальной терминологией. Выводы авторов являются вполне обоснованными. Результаты работы могут быть полезны онкодерматологам, дерматовенерологам а также терапевтам.

Список литературы:

1. Accuracy of a smartphone application for triage of  skin lesions based on machine learning algorithms
A. Udrea, G.D. Mitra, D. Costea, E.C. Noels, M. Wakkee, D.M. Siegel, JEADV; accepted for publication. T.M. de Carvalho, T.E.C. Nijsten. Published on September 08, 2019.

https://onlinelibrary.wiley.com/doi/10.1111/jdv.15935

2. Where machines could replace humans—and where they can’t (yet)
Michael Chui, James Manyika, and Mehdi Miremadi 

https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/where-machines-could-replace-humans-and-where-they-cant-yet

3. The practice of radiology needs to change
Giles Maskell. Published on June 19, 2017

http://blogs.bmj.com/bmj/2017/06/19/giles-maskell-the-practice-of-radiology-needs-to-change/

4. Using Deep Learning to Inform Differential Diagnoses of Skin Diseases
Yuan Liu, PhD, Software Engineer and Peggy Bui, MD, Google Health. Published on September 12, 2019

https://ai.googleblog.com/2019/09/using-deep-learning-to-inform.html

5. Assessing diagnostic skill in dermatology: a comparison between general practitioners and dermatologists.
Tran H1, Chen K, Lim AC, Jabbour J, Shumack S. Published in November, 2005

https://www.ncbi.nlm.nih.gov/pubmed/16197420

6. Comparison of dermatologic diagnoses by primary care practitioners and dermatologists. A review of the literature.
Federman DG1, Concato J, Kirsner RS. Published in April, 1999

https://www.ncbi.nlm.nih.gov/pubmed/10101989

7. The 2019 novel coronavirus disease (COVID-19) pandemic: A review of the current evidence.
Chatterjee P, Nagi N, Agarwal A, Das B, Banerjee S, Sarkar S, Gupta N,
Gangakhedkar RR. Published on March 30, 2020

https://www.ncbi.nlm.nih.gov/pubmed/32242874

8. Accuracy classification score.
scikit-learn developers (BSD License). Published in October, 2019

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html

9. CrossEntropyLoss
Torch Contributors

https://pytorch.org/docs/stable/nn.html#crossentropyloss

10. BCELoss
Torch Contributors

https://pytorch.org/docs/stable/nn.html#torch.nn.BCELoss

11. AWS GDPR Data Processing Addendum – Now Part of Service Terms
Chad Woolf. Published on May 22, 2018

https://aws.amazon.com/blogs/security/aws-gdpr-data-processing-addendum/

12. Navigating GDPR Compliance on AWS
Amazon Web Services, Inc. or its affiliates. Published in October, 2019

https://d1.awsstatic.com/whitepapers/compliance/GDPR_Compliance_on_AWS.pdf