Сроки сдачи СЗВ-М в 2021 году
Сроки сдачи СЗВ-М в 2021 году мы собрали в наглядной таблице. Также расскажем, почему в отдельные месяцы крайние отчетные даты отличаются от законодательно установленной, и подскажем, влияет ли на срок сдачи СЗВ-М форма отчета — бумажная или электронная.
Срок сдачи СЗВ-М по закону № 27-ФЗ
О сроках представления в ПРФ отчетов, содержащих сведения о застрахованных лицах, сказано в ст. 11 закона «Об индивидуальном (персонифицированном) учете…» от 01.04.1996 № 27-ФЗ.
Знакомьтесь с действующими видами отчетных форм в ПФР с помощью наших материалов:
Для каждого отчета предусмотрена своя периодичность представления и отдельные отчетные сроки. Один из таких отчетов — СЗВ-М. С его помощью работодатель передает в ПФР набор индивидуальных данных о работниках (Ф.И.О., СНИЛС и ИНН).
Для СЗВ-М отчетный срок установлен в виде конкретной календарной даты, не позднее которой отчет должен быть сдан в ПФР:
Образец заполнения формы СЗВ-М можно посмотреть и скачать в КонсультантПлюс, получив бесплатный пробный доступ:
Далее распишем помесячно отчетные сроки для СЗВ-М в 2021 году.
Таблица сроков сдачи СЗВ-М в 2021 году
Чтобы избежать ненужных материальных потерь в виде штрафа за несвоевременно представленный СЗВ-М, необходимо тщательно контролировать соблюдение отчетных сроков.
Узнайте детальнее о штрафах за СЗВ-М:
Отчетные сроки для СЗВ-М в 2021 году:
Очетный месяц | СЗВ-М нужно сдать не позднее |
Декабрь 2020 | 15.01.2021 |
Январь 2021 | 15.02.2021 |
Февраль 2021 | 15.03.2021 |
Март 2021 | 15.04.2021 |
Апрель 2021 | 17.05.2021 |
Май 2021 | 15.06.2021 |
Июнь 2021 | 15.07.2021 |
Июль 2021 | 16.08.2021 |
Август 2021 | 15.09.2021 |
Сентябрь 2021 | 15.10.2021 |
Октябрь 2021 | 15.11.2021 |
Ноябрь 2021 | 15.12.2021 |
В 2021 году в мае и августе допустимо сдать СЗВ-М позже законодательно установленной даты. Такой сдвиг крайнего отчетного срока связан с попаданием 15-го числа на нерабочий день (праздничный или выходной). В таких случаях можно без штрафа представить СЗВ-М чуть позже — в ближайший рабочий день после выходных или праздников (ст. 193 ГК РФ, письмо ПФР от 28.12.2016 № 08-19/19045).
Пользуйтесь наглядными таблицами для быстрого знакомства с информацией:
Установлен ли отдельный срок для бумажного СЗВ-М?
СЗВ-М в бумажной форме вправе представлять ограниченное число работодателей: способ подачи зависит от количества застрахованных лиц.
На сколько человек можно сдать СЗВ-М на бумаге, а с какой численности доступен только электронный вариант, узнайте в КонсультантПлюс. Пробный доступ к правовой системе можно оформить бесплатно.
Отдельный срок сдачи СЗВ-М на бумажном носителе в законе № 27-ФЗ не прописан. Это означает, что вне зависимости от того, на бумаге или электронно работодатель представляет этот отчет, применяется единый отчетный срок — не позднее 15-го числа месяца, следующего за отчетным.
Для какого отчета законом предусмотрены две разные отчетные даты, узнайте из статьи «Как сдавать отчет 4-ФСС на бумаге».
Итоги
Отчетную форму СЗВ-М работодатели сдают в ПФР ежемесячно не позднее 15-го числа месяца, следующего за отчетным. Это единый отчетный срок для бумажного и электронного отчетов.
Последний день сдачи СЗВ-М в 2021 году в мае и августе допустимо сдвинуть из-за попадания законодательно установленной крайней отчетной даты на нерабочий день. Представление СЗВ-М в таких случаях позже установленного срока, но не позднее первого рабочего дня после выходных или праздников, штрафом не наказывается.
Источники:
закон от 01.04.1996 № 27-ФЗ «Об индивидуальном (персонифицированном) учете в системе обязательного пенсионного страхования» Более полную информацию по теме вы можете найти в КонсультантПлюс.Пробный бесплатный доступ к системе на 2 дня.
Тег — СЗВ-М
Нужно ли сдавать СЗВ-ТД на единственного работника, он же директор и единственный участник? В каких-то ПФЫР считают, что если сдается СЗВ-М, то и СЗВ-ТД нужно. А где-то считают по-другому. А у бухгалтеров головы пухнут.
Поделились в «Красном уголке бухгалтера».
«К вопросу, сдавать ли СЗВ-ТД на единственного руководителя. Сдавать. Пенсионный прислал письмо, что СЗВ-М не бьется, так как СЗВ-ТД НЕ ПРЕДСТАВЛЕН. Программа 1С в недоумении, пришлось вручную сделать мероприятия и внести в них дату приема аж 2014 года, после этого СЗВ-ТД заполнилась. Отправлю, и так по судам таскают за несвоевременную сдачу СЗВ-М».В комментариях пишут, что можно проще — ответить, что с руководителем не заключен трудовой договор.
«А я на такой запрос ответила, что трудовой договор с руководителем не заключён, вроде успокоились».Кто-то дозвонился в ПФР, и вот что там говорят:
«Я дозвонилась в ПФР. Их мнение — если сдавали СЗВ-М, то сдавать и СЗВ-ТД. И указывать не приказ, а решение о назначении. Если не сдавали СЗВ-М и прочие отчёты — то ничего и не сдавать».Вот еще пишут, как попробовали сделать. И реакцию ПФР. «Написали письмо: директор-единственный учредитель, трудовой договор не заключён, не сдаём в соответствии с разъяснениями Минтруда, изложенными в письме от 24.03.2020 № 14-2/В-293.
Пришёл ответ: сдавать.Молчим, благо время есть ещё. Вчера прилетело: в представленных вами сведениях СЗВ-ТД (которые не сдавались) отсутствует первичное наполнение кадровыми мероприятиями по состоянию на 01.01.2020, СЗВ-М есть, СЗВ-ТД нет, устраните несоответствие».
Вот еще вариант, что сдавать, а что нет:
«Я спрашивала в пенсионном у начальника отдела, сказали если нет трудового договора, то СЗВ-М сдать, а СЗВ-ТД нет».Кому-то из ПФР звонили, сказали и на совместителей СЗВ-ТД подавать.
«А нам буквально на прошлой неделе из ПФР позвонили и сказали, что у них новые инструкции. Надо подать и на совместителей СЗВ-ТД. Несмотря на то, что записи в трудовой нет. Указать реквизиты приказа о приеме и то что совместитель».
А Центр обучения «Клерка» приглашает прослушать онлайн-курс «Прием и увольнение работников: кадровый учет без штрафов». Со скидкой 30%.Курс подходит всем, специальных знаний не требуется. Временных рамок нет, конкретных дат — тоже. Учитесь когда и как вам удобнее.
Материал курса сделан на основе рекомендаций Роструда, Минтруда, ПФР, налоговиков, ФМС и ФСС. Все на основе правил 2021 года!
Из курса вы узнаете все правила, по которым надо принимать на работу и увольнять сотрудников. И еще, и это важно для работы без штрафов — вы научитесь работе с несовершеннолетними, иностранцами, дистанционными сотрудниками.
Записывайтесь, пока действует скидка 30%.
Новые сроки сдачи СЗВ-М в 2021 году: таблица
В какие сроки нужно сдавать в ПФР форму СЗВ-М в 2021 году и какие есть особенности? В этой консультации приводим н овые сроки сдачи СЗВ-М в 2021 году в таблице.
Кто должен сдавать СЗВ-М в 2021 году
Отчётность СЗВ-М должны сдавать все организации – не позднее 15-го числа месяца, следующего за отчетным.
Нулевой СЗВ-М не бывает. Даже если в компании только генеральный директор, который единственный учредитель, СЗВ-М всё равно надо сдать (письмо ПФР от 07.06.2018 № 08/30755).
СЗВ-М на 25 человек и больше сдавайте в электронном виде. На меньшее число работников можно сдать сведения на бумаге (п. 2 ст. 8 Закона № 27-ФЗ).
Основные особенности заполнения СЗВ-М такие:
- В отчёте СЗВ-М укажите данные всех работников, которые трудились у вас в отчетном месяце, в т. ч. тех, кто в нем уволился, и тех, у кого не было никаких выплат.
- Работников по гражданско-правовым договорам (подряда, оказания услуг и т. п.) показывайте
- Учредителей показывайте, если они занимают в компании какую-нибудь должность или работают по договору ГПХ.
Таблица со сроками сдачи СЗВ-М 2021
ОТЧЁТНЫЙ МЕСЯЦ | ПОСЛЕДНИЙ ДЕНЬ СДАЧИ ФОРМЫ СЗВ-В 2021 |
---|---|
Декабрь 2020 года | 15.01.2021 |
Январь 2021 года | 15.02.2021 |
Февраль 2021 года | 15.03.2021 |
Март 2021 года | 15.04.2021 |
Апрель 2021 года | 17.05.2021 (перенос с субботы 15.05.2021) |
Май 2021 года | 15.06.2021 |
Июнь 2021 года | 15.07.2021 |
Июль 2021 года | 16.08.2021 (перенос с воскресенья 15.08.2021) |
Август 2021 года | 15.09.2021 |
Сентябрь 2021 года | 15.10.2021 |
Октябрь 2021 года | 15.11.2021 |
Ноябрь 2021 года | 15.12.2021 |
Декабрь 2021 года | 17.01.2022 (перенос с субботы 15.01.2022) |
В поле «Отчетный период» СЗВ-М укажите код месяца, за который подаете отчёт в 2021 году:
КОД | МЕСЯЦ | КОД | МЕСЯЦ | КОД | МЕСЯЦ |
---|---|---|---|---|---|
01 | Январь | 05 | Май | 09 | Сентябрь |
02 | Февраль | 06 | Июнь | 10 | Октябрь |
03 | Март | 07 | Июль | 11 | Ноябрь |
04 | Апрель | 08 | Август | 12 | Декабрь |
Корректирующие формы СЗВ-М
Когда сдавать отчёты СЗВ-М в 2021 году, отменяющие или дополняющие первоначальную форму СЗВ-М?
По таким отчетам сроки их представления законом не установлены. Поэтому их можно сдать в любые сроки. Но некоторые территориальные отделения ПФР считают, что подобные формы должны быть переданы в Фонд до окончания срока подачи основного отчета – т. е. до 15-го числа месяца, следующего за отчетным. В противном случае организации или ИП может грозить штраф.
Более подробно о сроках сдачи дополняющих и отменяющих отчетов СЗВ-М читайте в статье «Сроки сдачи СЗВ-М в 2018 году в таблице» (актуально в 2021 г.).
Выдача СЗВ-М работнику при увольнении: образец справки
Выписки из СЗВ-М в обязательном порядке следует предоставлять параллельно с подачей соответствующих отчетов в Пенсионный фонд (это происходит каждый месяц).
Помимо этого, выписка из СЗВ-М предоставляется в обязательном порядке:
- Сотрудникам, которые собираются выйти на заслуженный отдых. Выписка является обязательной и подается совместно с остальным пакетом необходимых документов для получения в дальнейшем пенсионного обеспечения.
- Всем сотрудникам, которые изъявили желание уволиться. Согласно статье 62 Трудового Кодекса РФ выписка в обязательном порядке включена в перечень документации, которая напрямую связана с работой. Сотрудникам документ должен быть предоставлен в последний рабочий день. Если трудовая деятельность велась по трудовому соглашению – в крайний день действия данного договора.
Важно помнить о том, что данный документ должен в действительность быть выпиской, которая включает в себя конкретную информацию о сотруднике. Вся информация об остальных наемных сотрудниках находиться исключительно в отчете СЗВ-М является персональной, поэтому защита гарантируется на государственном уровне.
Категорически запрещается выдавать наемным рабочим копии отчетов по форме СЗВ-М.
Итак, период выдачи выписки гражданам напрямую зависит от обстоятельств:
- каждый месяц параллельно с предоставлением отчетов в ПФР РФ;
- если граждане увольняются – срок получения последний рабочий день;
- при выходе на заслуженный отдых – в течении первых 10 календарных дней с момента написания сотрудником соответствующего заявления.
Содержание статьи
Необходимость
С мая прошлого года все без исключения работодатели, в том числе предприятия и индивидуальные предприниматели, в обязательном порядке должны предоставлять в территориальный отдел Пенсионного Фонда отчет СЗВ-М «Информация о застрахованных гражданах».В нем должны упоминаться се лица, с которыми работодатель официально вступил в трудовые взаимоотношения.
Исходя из этого, все официально устроенные сотрудники, которые получают заработную плату либо же иное вознаграждение, подлежащие налогообложению должны быть указаны в данном отчете. По большому счету эта выписка способна подтвердить наличие страхового стажа граждан.
Согласно №27-ФЗ, документ по форме СЗВ-М каждый работодатель обязан выдавать данный документ по требованию своих наемных сотрудников с целью предоставления в соответствующие органы. После того как сотрудник получил документ, в обязательном порядке необходимо получить письменное подтверждение этого факта.
Заполнение
Для понимания того, что и как необходимо заполнять была разработана уникальная инструкция, благодаря которой можно без особых усилий справиться с этой проблемой. Как было сказано выше, СЗВ-М сдается также и предпринимателя, поэтому разница между ними и предприятиями заключается исключительно в статусе страхователя.
Итак, раздел 1 заполняется следующим образом:
- Регистрационный номер в ПФР – указывается на основании имеющего свидетельства.
- Наименование – имеющуюся правовую форму нужно в обязательном порядке указывать в сокращенном варианте.
- ИНН – указывается на основании наличия необходимого пакета документов о государственной регистрации. Допускается возможность узнать даны сведения на официальном портале ФНС;
- КПП – здесь идентично: указывается на основании наличия необходимого пакета документов о государственной регистрации. Допускается возможность узнать даны сведения на официальном портале ФНС nalog.ru.
Что касается второго раздела «Отчетный период за календарный год», то его нужно заполнять всегда в обязательном порядке. Третий раздел «Разновидность формы» обязателен к заполнению.
В раздел нужно вписать один из предложенных вариантов:
- «исхд» – указывается при условии, что страхователь сдает отчет впервые;
- «доп» – указывается в случае дополнения уже принятого в Пенсионный Фонд отчета за предыдущий отчетный месяц;
- «отмн» – указывается в ситуации, когда есть необходимость в аннуляции уже поданного ранее отчета по сведениям сотрудника.
Четвертый раздел считается ключевым, поскольку в нем содержится информация о застрахованных гражданах. В нем должны содержаться сведения о сотрудниках, а также о действия трудовых соглашений.
Итак:
- Инициалы застрахованного лица – необходимо указывать исключительно в именительном падеже.
- Страховой номер персонального лицевого счета – его можно узнать в подписанном трудовом соглашении.
- ИНН – его можно внести исключительно при наличии сведений о нем. Во многом это связано с тем, что страхователям запрещается требовать от застрахованных граждан данные об ИНН.
В последнем разделе необходимо указать реквизиты:
- должность непосредственного руководителя и его инициалы – здесь стоит обращать внимание на безошибочное указание работодателя согласно уставу предприятия/фирмы. К примеру, генеральный директор и так далее;
- дата составления отчета – в обязательном порядке указывается только в форма ДД.ММ.ГГ;
- печать – может быть поставлена только в случае ее наличия.
Документы для скачивания (бесплатно)
Как видно, в заполнении СЗВ-М нет никаких сложностей, и с этим может справиться любой желающий. Главное, о чем нужно помнить – категорически запрещается наличие каких-либо помарок либо опечаток. Все должно быть указано в соответствующих полях и без использования корректоров и других средств для исправления ошибок.
Как подтвердить выдачу формы работнику и ее получение
Чтобы в дальнейшем исключить возможные разногласия между работодателями и наемными сотрудниками, и, как следствие, с контролирующими органами, в обязательном порядке на предприятие/фирме должно быть в наличии подтверждения факта получения гражданами выписки из СЗВ-М.Получить подтверждение можно несколькими способами:
- сформировать одновременно несколько экземпляров выписки и попросить сотрудника расписаться при получении на том, который останется на хранении у работодателя;
- создать журнал, в котором будет содержаться учет предоставления сотрудникам всех документов, в том числе и данной выписки. В журнале каждый сотрудник будет ставить роспись о получении;
- можно пойти другим путем: при выдаче документа просит у получателя написать расписку, которая и станет при необходимости подтверждением.
Наиболее популярным вариантом у работодателей является ведение журнала учета, где указывается дата выдачи и подпись получателя.
Ответственность за невыдачу
Согласно №27-ФЗ каждый работодатель в обязательном порядке должен предоставлять помимо самих сведений о застрахованных гражданах в Пенсионный Фонд еще и выписки сотрудникам.
Однако на практике это далеко не так. Некоторые предприниматели игнорируют данный закон и никому ничего не выдают.
Основными причинами такого поведения принято считать:
- За пренебрежение данным законодательством отсутствуют какие-либо уголовные и административные наказания. Исключением считаются ситуации, когда работодатели обязаны выдавать выписку тем сотрудникам, которые изъявили желание уволиться либо же при их выходе на заслуженный отдых;
- В получении выписки у сотрудников нет необходимости. К примеру, факт работы в прошлом месяце у определенного работодателя известно и так сотруднику. Говоря простыми словами, она необходима только при необходимости предъявить ее третьему лицу (нужно подтвердить факт работы).
Как уже было сказано выше, работодателям за невыдачу выписки из СЗВ-М не предусмотрено каких-либо наказаний. Однако если сотруднику без каких-либо на то причин отказывают в выдаче документа, он имеет все юридические основания обратиться в правоохранительные органы либо же в судебную инстанцию. Как показывает практика, после подачи заявления о правонарушении со стороны работодателя, последний в короткие сроки предоставляет все документы для разглаживания конфликтной ситуации.
На что нужно обратить внимание при формировании отчета СЗВ-М? Узнайте из данного видео.
ОПОРНЫЕ ВЕКТОРНЫЕ МАШИНЫ (СВМ). Введение: все, что вам нужно знать… | by Ajay Yadav
Машины опорных векторов, так называемые SVM, представляют собой контролируемый алгоритм обучения , который можно использовать для задач классификации и регрессии в качестве вспомогательной векторной классификации (SVC) и поддержки векторной регрессии (SVR). Он используется для меньшего набора данных, поскольку его обработка занимает слишком много времени. В этом наборе мы сосредоточимся на SVC.
SVM основан на идее поиска гиперплоскости, которая наилучшим образом разделяет функции на разные домены.
Рассмотрим следующую ситуацию:
Сталкер отправляет вам электронные письма, и теперь вы хотите разработать функцию (гиперплоскость), которая будет четко различать два случая, так что всякий раз, когда вы получаете электронное письмо от сталкера, оно будет классифицироваться как спам. На следующем рисунке показаны два случая, в которых нарисована гиперплоскость. Какой из них вы выберете и почему? найдите минутку, чтобы проанализировать ситуацию ……
Думаю, вы бы выбрали инжир (а).Вы думали, почему вы выбрали инжир (а)? Потому что электронные письма на рис (а) четко классифицированы, и вы более уверены в этом, чем на рис (б). По сути, SVM состоит из идеи создания оптимальной гиперплоскости , которая четко классифицирует различные классы (в данном случае это двоичные классы).
Точки, ближайшие к гиперплоскости, называются опорными точками вектора , а расстояние векторов от гиперплоскости называется полями .
Основная интуиция, которую следует здесь развить, заключается в том, что чем дальше точки SV от гиперплоскости, тем больше вероятность правильной классификации точек в их соответствующих регионах или классах. Точки SV очень важны при определении гиперплоскости, потому что, если положение векторов изменяется, положение гиперплоскости изменяется. Технически эта гиперплоскость также может называться , максимальное поле гиперплоскости .
В этом посте мы так долго обсуждали гиперплоскость, давайте объясним ее значение, прежде чем двигаться дальше.Гиперплоскость — это функция, которая используется для различения элементов. В 2-D функция, используемая для классификации между элементами, является линией, тогда как функция, используемая для классификации элементов в 3-D, называется плоскостью, аналогично функция, которая классифицирует точку в более высоком измерении, называется гиперплоскостью. Теперь, когда вы знаете о гиперплоскости, давайте вернемся к SVM.
Допустим, есть размеры «m»:
, таким образом, уравнение гиперплоскости в измерении «M» может быть задано как =
, где
Wi = векторы (W0, W1, W2, W3… Wm )
b = смещенный член (W0)
X = переменные.
Теперь,
Предположим, 3 гиперплоскости, а именно (π, π +, π−), такие, что «π +» параллельно «π», проходящему через опорные векторы на положительной стороне, а «π−» параллельно » π ‘, проходящий через опорные векторы на отрицательной стороне.
уравнения каждой гиперплоскости можно рассматривать как:
для точки X1:
Объяснение: когда точка X1, мы можем сказать, что эта точка лежит на гиперплоскости, и уравнение определяет, что произведение нашего фактического выхода и уравнение гиперплоскости равно 1, что означает, что точка правильно классифицируется в положительной области.
для точки X3:
Объяснение: когда точка X3 мы можем сказать, что эта точка находится далеко от гиперплоскости, и уравнение определяет, что произведение нашего фактического выхода и уравнения гиперплоскости больше 1, что означает, что точка правильно классифицирован в положительной области.
для точки X4:
Объяснение: когда точка X4, мы можем сказать, что эта точка лежит на гиперплоскости в отрицательной области, и уравнение определяет, что произведение нашего фактического выхода и уравнения гиперплоскости равно 1, что означает, что точка правильно отнесена к отрицательной области.
для точки X6:
Объяснение: когда точка X6, мы можем сказать, что эта точка находится далеко от гиперплоскости в отрицательной области, и уравнение определяет, что произведение нашего фактического выхода и уравнения гиперплоскости больше 1, что означает, что точка правильно отнесена к отрицательной области.
Давайте рассмотрим ограничения, которые не классифицируются:
для точки X7:
Объяснение: Когда Xi = 7, точка классифицируется неправильно, потому что для точки 7 wT + b будет меньше единицы, и это нарушает ограничения.Итак, мы обнаружили неправильную классификацию из-за нарушения ограничений. Точно так же мы можем сказать для точек Xi = 8.
Таким образом, из приведенных выше примеров мы можем сделать вывод, что для любой точки Xi,
, если Yi (WT * Xi + b) ≥ 1:
, тогда Си правильно классифицирован
иначе:
Си неправильно классифицирован.
Итак, мы можем видеть, что если точки линейно разделимы, то только наша гиперплоскость способна различать их, а если вводится какой-либо выброс, то она не может их разделить.Таким образом, этот тип SVM называется как SVM с жестким запасом (поскольку у нас есть очень строгие ограничения для правильной классификации каждой точки данных).
Мы в основном считаем, что данные линейно разделимы, и это может быть не так в реальном сценарии. Нам нужно обновление, чтобы наша функция могла пропустить несколько выбросов и иметь возможность классифицировать почти линейно разделяемые точки. По этой причине мы вводим новую переменную Slack ( ξ), которая называется Xi.
, если мы введем ξ в наше предыдущее уравнение, мы можем переписать его как
Введение Xi, если ξi = 0,
точки можно считать правильно классифицированными.
иначе:
ξi> 0, неправильно классифицированные точки.
, поэтому, если ξi> 0, это означает, что Xi (переменные) находятся в неправильном измерении, поэтому мы можем думать о ξi как об ошибке, связанной с Xi (переменной).Средняя ошибка может быть выражена как;
средняя ошибка, таким образом, наша цель математически может быть описана как;
, где ξi = ςi
ЧТЕНИЕ: найти вектор w и скаляр b, такие, что гиперплоскость, представленная w и b, максимизирует запасное расстояние и минимизирует член потерь при условии, что все точки правильно классифицирован.
Эта формулировка называется методом мягких полей.
, когда Zi ≥ 1, потери равны 0, когда Zi <1, потери возрастают., таким образом, можно интерпретировать, что потери на шарнире являются максимальными (0,1-Zi).
Теперь давайте рассмотрим случай, когда наш набор данных вовсе не является линейно разделимым.
в основном, мы можем отделить каждую точку данных, проецируя ее в более высокое измерение, добавляя к ней соответствующие функции, как мы это делаем в логистической регрессии. Но с помощью SVM есть мощный способ выполнить эту задачу по проецированию данных в более высокое измерение. Обсуждаемая выше формулировка представляла собой первичную форму SVM .Альтернативный метод представляет собой двойную форму SVM, которая использует множитель Лагранжа для решения задачи оптимизации ограничений.
Примечание:
Если αi> 0, то Xi является опорным вектором, а когда αi = 0, то Xi не является опорным вектором.
Наблюдение:
- Для решения реальной проблемы нам не требуется фактическая точка данных, вместо этого может быть достаточно скалярного произведения между каждой парой вектора.
- Для вычисления смещенной константы «b» нам требуется только скалярное произведение.
- Основным преимуществом двойной формы SVM перед формулировкой Лагранжа является то, что она зависит только от α .
Переходя к основной части SVM, которой она наиболее известна, это трюк с ядром . Ядро — это способ вычисления скалярного произведения двух векторов x и y в некотором (очень многомерном) пространстве признаков, поэтому функции ядра иногда называют «обобщенным скалярным произведением».
попробуйте прочитать это уравнение… s.t = подчиненоПрименение уловки ядра означает просто замену скалярного произведения двух векторов функцией ядра.
- линейное ядро
- полиномиальное ядро
- Ядро радиальной базисной функции (RBF) / ядро Гаусса
Мы сосредоточимся на полиномиальном и гауссовском ядрах, поскольку они наиболее часто используются.
Ядро полинома:
В общем случае ядро полинома определяется как;
b = степень ядра & a = постоянный член.t и Zb.Метод 1:
традиционно мы решали бы это следующим образом:
, что потребует много времени, так как нам нужно будет выполнить точечное произведение для каждой точки данных, а затем вычислить скалярное произведение, которое нам может потребоваться для умножения. Представьте, что мы делаем это для тысяч точек данных….
Или мы могли бы просто использовать
Метод 2:
с использованием уловки ядра:
В этом методе мы можем просто вычислить скалярное произведение, увеличив значение мощности. Просто не правда ли?
Ядро радиальной базисной функции (RBF) / Ядро Гаусса:
Гауссовское RBF (радиальная базисная функция) — еще один популярный метод ядра, используемый в моделях SVM для большего.Ядро RBF — это функция, значение которой зависит от расстояния от начала координат или от некоторой точки. Гауссовское ядро имеет следующий формат;
|| X1 — X2 || = Евклидово расстояние между X1 и X2Используя расстояние в исходном пространстве, мы вычисляем скалярное произведение (сходство) X1 и X2.
Примечание: сходство — это угловое расстояние между двумя точками.
Параметры:
- C: сила, обратная степени регуляризации.
Поведение: по мере увеличения значения «c» модель становится переобученной.
Поскольку значение «c» уменьшается, модель не подходит.
2. γ: Гамма (используется только для ядра RBF)
Поведение: По мере увеличения значения « γ » модель становится переобученной.
Поскольку значение « γ » уменьшается, модель не подходит.
Плюсы:
- Это действительно эффективно в высшем измерении.
- Эффективно, когда количество функций больше, чем обучающих примеров.
- Лучший алгоритм, когда классы разделяются
- На гиперплоскость влияют только опорные векторы, поэтому выбросы имеют меньшее влияние.
- SVM подходит для двоичной классификации крайних случаев.
минусы:
- Для обработки большего набора данных требуется много времени.
- Плохо работает в случае перекрытия классов.
- Правильный выбор гиперпараметров SVM, обеспечивающий достаточную производительность обобщения.
- Выбор подходящей функции ядра может быть непростым.
SVM предполагает, что входные данные являются числовыми, а не категориальными. Таким образом, вы можете преобразовать их, используя один из наиболее часто используемых « one hot encodin g, label-encoding etc ».
2. Двоичное преобразование:Поскольку SVM может классифицировать только двоичные данные, вам нужно будет преобразовать многомерный набор данных в двоичную форму, используя ( один против остальных метод / один метод против одного ) метод преобразования.
Знакомство с машинами опорных векторов (SVM)
Машина опорных векторов (SVM) — это модель машинного обучения с учителем, которая использует алгоритмы классификации для задач классификации на две группы. После предоставления модели SVM наборов помеченных обучающих данных для каждой категории, они могут классифицировать новый текст.
Итак, вы работаете над проблемой классификации текста. Вы уточняете свои тренировочные данные и, возможно, даже пробовали что-то с помощью Наивного Байеса. Но теперь вы уверены в своем наборе данных и хотите сделать еще один шаг вперед.Enter Support Vector Machines (SVM): быстрый и надежный алгоритм классификации, который очень хорошо работает с ограниченным объемом данных для анализа.
Возможно, вы копнули немного глубже и столкнулись с такими терминами, как линейно отделимая , трюк ядра и функции ядра . Но не бойтесь! Идея, лежащая в основе алгоритма SVM, проста, и ее применение к классификации естественного языка не требует большинства сложных вещей.
Перед тем, как продолжить, мы рекомендуем сначала прочитать наше руководство по наивным байесовским классификаторам, так как многие вещи, касающиеся обработки текста, о которых говорится здесь, также актуальны.
Готово? Большой! Давайте двигаться дальше.
Как работает SVM?
Основы машин опорных векторов и принципы их работы лучше всего понять на простом примере. Представим, что у нас есть два тега: красный и синий , а наши данные имеют две характеристики: x и y . Нам нужен классификатор, который, учитывая пару координат (x, y) , выводит, если это красный или синий . Мы наносим наши уже помеченные данные тренировки на самолет:
Наши помеченные данные
Машина опорных векторов берет эти точки данных и выводит гиперплоскость (которая в двух измерениях представляет собой просто линию), которая лучше всего разделяет теги.Эта линия является границей решения : все, что падает на одну сторону от нее, мы классифицируем как синий , а все, что падает на другую сторону как красный .
В 2D лучшая гиперплоскость — это просто линия
Но что именно является лучшей гиперплоскостью ? Для SVM это тот, который максимизирует поля для обоих тегов. Другими словами: гиперплоскость (помните, что в данном случае это линия), расстояние до ближайшего элемента каждого тега которой является наибольшим.
Не все гиперплоскости созданы одинаковыми
Вы можете посмотреть этот видеоурок, чтобы узнать, как именно находится эта оптимальная гиперплоскость.
Нелинейные данные
Теперь этот пример был легким, поскольку очевидно, что данные были линейно разделяемыми — мы могли провести прямую линию, чтобы разделить красный и синий . К сожалению, обычно все не так просто. Взгляните на этот кейс:
Более сложный набор данных
Совершенно очевидно, что не существует линейной границы принятия решений (единственной прямой линии, разделяющей оба тега).Однако векторы очень четко разделены, и похоже, что их должно быть легко разделить.
Итак, вот что мы сделаем: добавим третье измерение. До сих пор у нас было два измерения: x и y . Мы создаем новое измерение z и указываем, что оно должно быть вычислено определенным удобным для нас способом: z = x² + y² (вы заметите, что это уравнение для круга).
Это даст нам трехмерное пространство.Если взять кусочек этого пространства, это выглядит так:
С другой стороны, данные теперь разделены на две линейно разделенные группы
Что с этим может делать SVM? Посмотрим:
Отлично! Обратите внимание, что, поскольку сейчас мы находимся в трех измерениях, гиперплоскость — это плоскость, параллельная оси x на некотором расстоянии z (допустим, z = 1 ).
Осталось сопоставить это с двумя измерениями:
Вернемся к нашему первоначальному виду, теперь все аккуратно отделено
И вот мы! Граница нашего решения — это окружность радиуса 1, которая разделяет оба тега с помощью SVM.Посмотрите эту трехмерную визуализацию, чтобы увидеть еще один пример того же эффекта:
Уловка с ядром
В нашем примере мы нашли способ классификации нелинейных данных, умело отображая наше пространство в более высокое измерение. Однако оказывается, что вычисление этого преобразования может быть довольно затратным с точки зрения вычислений: может быть много новых измерений, каждое из которых, возможно, требует сложных вычислений. Выполнение этого для каждого вектора в наборе данных может потребовать больших усилий, поэтому было бы здорово, если бы мы могли найти более дешевое решение.
И нам повезло! Вот уловка: SVM не нужны реальные векторы, чтобы творить чудеса, на самом деле она может обойтись только скалярными произведениями между ними. Это значит, что мы можем обойти дорогостоящие расчеты новых размеров! Вместо этого мы делаем следующее:
- Представьте себе новое пространство, которое нам нужно:
z = x² + y²
- Выясните, как выглядит точечный продукт в этом пространстве:
a · B = xa · xb + ya · yb + za · zb
a · b = xa · xb + ya · yb + (xa² + ya²) · (xb² + yb²)
- Сообщите SVM чтобы сделать свое дело, но с использованием нового скалярного произведения — мы называем это функцией ядра .
Вот и все! Это трюк с ядром , который позволяет нам избежать множества дорогостоящих вычислений. Обычно ядро линейное, и мы получаем линейный классификатор. Однако, используя нелинейное ядро (как указано выше), мы можем получить нелинейный классификатор без преобразования данных вообще: мы меняем только скалярный продукт на то, что нам нужно, и SVM с радостью продолжит работу.
Обратите внимание, что трюк с ядром на самом деле не является частью SVM. Его можно использовать с другими линейными классификаторами, такими как логистическая регрессия.Машина опорных векторов заботится только о нахождении границы решения.
Используете SVM с классификацией естественного языка?
Итак, мы можем классифицировать векторы в многомерном пространстве. Большой! Теперь мы хотим применить этот алгоритм для классификации текста, и первое, что нам нужно, это способ преобразовать кусок текста в вектор чисел, чтобы мы могли запускать с ними SVM. Другими словами, какие функции мы должны использовать для классификации текстов с помощью SVM?
Самый распространенный ответ — частота слов, как мы это делали в Наивном Байесе.Это означает, что мы рассматриваем текст как набор слов, и для каждого слова, которое появляется в этом пакете, у нас есть особенность. Ценность этой функции будет заключаться в том, насколько часто это слово встречается в тексте.
Этот метод сводится к подсчету количества раз в тексте каждого слова и делению его на общее количество слов. Таким образом, в предложении «Все обезьяны — приматы, но не все приматы — обезьяны» слово обезьяны имеет частоту 2/10 = 0,2, а слово , но имеет частоту 1/10 = 0.1.
Для более продвинутой альтернативы расчета частот мы также можем использовать TF-IDF.
Теперь, когда мы это сделали, каждый текст в нашем наборе данных представлен как вектор с тысячами (или десятками тысяч) измерений, каждое из которых представляет частоту одного из слов текста. Идеально! Это то, что мы скармливаем SVM для обучения. Мы можем улучшить это, используя методы предварительной обработки, такие как выделение слов, удаление стоп-слов и использование n-граммов.
Выбор функции ядра
Теперь, когда у нас есть векторы признаков, остается только выбрать функцию ядра для нашей модели.Все проблемы индивидуальны, и функция ядра зависит от того, как выглядят данные. В нашем примере наши данные были расположены в концентрических кругах, поэтому мы выбрали ядро, которое соответствовало этим точкам данных.
Учитывая это, что лучше всего для обработки естественного языка? Нужен ли нам нелинейный классификатор? Или данные линейно разделимы? Оказывается, лучше всего придерживаться линейного ядра. Почему?
В нашем примере у нас было две функции. Некоторые реальные применения SVM в других областях могут использовать десятки или даже сотни функций.Между тем, классификаторы NLP используют тысячи функций, поскольку они могут иметь до одного для каждого слова, которое появляется в обучающих данных. Это немного меняет проблему: хотя использование нелинейных ядер может быть хорошей идеей в других случаях, наличие такого количества функций в конечном итоге приведет к тому, что нелинейные ядра будут перегружать данные. Поэтому лучше всего просто придерживаться старого доброго линейного ядра, которое на самом деле дает лучшую производительность в этих случаях.
Собираем все вместе
Теперь осталось только тренироваться! Мы должны взять наш набор помеченных текстов, преобразовать их в векторы с использованием частот слов и передать их алгоритму, который будет использовать нашу выбранную функцию ядра, чтобы он создал модель.Затем, когда у нас есть новый немаркированный текст, который мы хотим классифицировать, мы конвертируем его в вектор и передаем его модели, которая выведет тег текста.
Учебное пособие по простому классификатору SVM
Чтобы создать свой собственный классификатор SVM, не прибегая к векторам, ядрам и TF-IDF, вы можете использовать одну из предварительно созданных моделей классификации MonkeyLearn, чтобы сразу приступить к работе. Также легко создать свой собственный, благодаря интуитивно понятному пользовательскому интерфейсу платформы и подходу без кода.
Это также отлично подходит для тех, кто не хочет вкладывать большие средства в найм экспертов по машинному обучению.
Давайте покажем вам, как легко создать классификатор SVM за 8 простых шагов. Прежде чем начать, вам нужно зарегистрироваться в MonkeyLearn бесплатно.
1. Создайте новый классификатор
Перейдите на панель управления, нажмите «Создать модель» и выберите «Классификатор».
2. Выберите способ классификации данных.
Мы собираемся выбрать модель «Тематическая классификация» для классификации текста по теме, аспекту или релевантности.
3. Импортируйте данные обучения
Выберите и загрузите данные, которые вы будете использовать для обучения модели. Имейте в виду, что классификаторы учатся и становятся умнее, когда вы вводите им больше обучающих данных. Вы можете импортировать данные из различных источников, включая файлы CSV или Excel, а также из сторонних приложений, таких как Twitter, Gmail, Zendesk или RSS-каналы.
4. Определите теги для своего классификатора SVM
Пришло время определить теги, которые вы будете использовать для обучения классификатора тем.Для начала добавьте как минимум два тега — вы всегда сможете добавить другие теги позже.
5. Пометьте данные для обучения классификатора
Начните обучение классификатора тем, выбирая теги для каждого примера:
После добавления тегов вручную к некоторым примерам классификатор начнет делать прогнозы самостоятельно. Если вы хотите, чтобы ваша модель была более точной, вам нужно будет добавить теги к другим примерам, чтобы продолжить обучение модели.
Чем больше данных вы пометите, тем умнее будет ваша модель.
6. Установите свой алгоритм на SVM
Перейдите в настройки и убедитесь, что вы выбрали алгоритм SVM в расширенном разделе.
7. Протестируйте свой классификатор
Теперь вы можете протестировать свой классификатор SVM, нажав «Выполнить»> «Демо». Напишите свой собственный текст и посмотрите, как ваша модель классифицирует новые данные:
8. Интегрируйте тематический классификатор
Вы обучили свою модель делать точные прогнозы при классификации текста.Пришло время загрузить новые данные! Есть три различных способа сделать это с помощью MonkeyLearn:
Пакетная обработка: выберите «Выполнить»> «Пакетная обработка» и загрузите файл CSV или Excel. Классификатор начнет анализировать ваши данные и отправит вам новый файл с прогнозами.
API: используйте MonkeyLearn API для классификации новых данных из любого места.
Интеграции: подключайте повседневные приложения для автоматического импорта новых текстовых данных в классификатор для автоматического анализа. Такие интеграции, как Google Sheets, Zapier, Rapidminer и Zendesk, можно использовать без ввода единственной строчки кода:
Заключительные слова
И это основы машин опорных векторов!
Подводя итог:
- Машина опорных векторов позволяет классифицировать данные, которые можно линейно разделить.
- Если он не разделен линейно, вы можете использовать трюк с ядром, чтобы заставить его работать.
- Однако для классификации текста лучше придерживаться линейного ядра.
По сравнению с более новыми алгоритмами, такими как нейронные сети, у них есть два основных преимущества: более высокая скорость и лучшая производительность при ограниченном количестве выборок (в тысячах). Это делает алгоритм очень подходящим для задач классификации текста, когда обычно имеется доступ к набору данных, состоящему максимум из пары тысяч образцов с тегами.
Для более подробного объяснения этого алгоритма ознакомьтесь с этой отличной лекцией MIT. Если вас интересует объяснение других алгоритмов машинного обучения, ознакомьтесь с нашим практическим объяснением Наивного Байеса. А для других статей по этой теме вам также могут понравиться наше руководство по обработке естественного языка и наше руководство по машинному обучению.
Помните, если вы хотите сразу же начать классифицировать свой текст с помощью алгоритмов SVM, просто зарегистрируйтесь в MonkeyLearn бесплатно, создайте свой классификатор SVM, следуя нашему простому руководству, и вперед!
Машина опорных векторов— Срок действия непрофессионала | by shivangi kaul
Машина опорных векторов — термин непрофессионала
Машина опорных векторов, также известная как SVM, может использоваться как для классификации, так и для регрессии, но мы предпочитаем использовать ее больше для классификации.Этот алгоритм лучше всего разделяет два класса.
Машина опорных векторовНа вышеупомянутой диаграмме вы можете увидеть проблеск жаргонов, которые мы будем использовать в статье ниже.
Что такое опорный вектор?
Опорные векторы — это те точки данных, которые лежат (точно) на границах полей. Это единственные точки, которые необходимы для расчета маржи.
Ой !! Предупреждение о новом жаргоне !!!
Запас: это расстояние от поверхности принятия решения (гиперплоскость / линия) до ближайшей точки данных определяет поле классификатора.
Зеленая линия на приведенной выше диаграмме показывает гиперплоскость, а (красное расстояние от одного класса (красные кружки) плюс расстояние от другого класса (синий кружок) называется полем).
Теперь возникает следующий вопрос, должна ли граница быть больше или меньше. Очень важно понимать важность маржи в SVM.
Почему мы используем гиперплоскость с высоким запасом?
Это потому, что низкая маржа увеличивает шансы ошибочной классификации.
До сих пор мы поймите, что есть две вещи, которые SVM делает блестяще…
- Отдельное разделение точек / классов.
- Максимально увеличивает расстояние, т.е. поле
Но в этом случае приоритет отдается первой точке, и если вектор успешно разделяет классы, то только он переместится в следующую точку (задачу).
- **** SVM устойчив к выбросам, это означает, что на него не влияет наличие выбросов *****
До сих пор мы обсуждали только классы, которые могут быть разделены линией как гиперплоскость, но что, если линии трудно разделить классы.Ниже приведено изображение, которое поможет вам визуализировать один из таких сценариев.
Можете ли вы провести разделительную линию на этой плоскости?Не могли бы вы придумать какую-нибудь строчку, которая помогла бы нам отделить красный цвет от синего?
Часы щелкают ……… Время увеличивается. Я — Support Vector Machine, и я пришел вам на помощь. хахаха 🤣😁
SVM помогает нам применить преобразование и добавить еще одно измерение, как мы называем его осью z. Предположим, что значение точек на плоскости z, w = x² + y². В этом случае мы можем манипулировать им как расстоянием точки от начала координат z.Теперь, если мы построим по оси Z, будет видно четкое разделение и можно провести линию.
график оси zy. Здесь можно сделать разделение.Когда мы преобразуем эту линию обратно в исходную плоскость, она отображается на круговую границу, как показано на изображении E. Эти преобразования называются ядрами .
При обратном преобразовании в плоскость x-y линия преобразуется в круг.Я знаю, что у вас в голове … Но, честно говоря, вам не нужно каждый раз угадывать / выводить преобразование для вашего набора данных.Реализация SVM библиотеки sklearn предоставляет его встроенным.
Другой сценарий 😢😢😢
Что делать, если график данных перекрывается? Или, что в случае, если некоторые из черных точек находятся внутри синих? Какую линию из 1 или 2 мы должны провести?
Как вы думаете? Что ж, оба ответа верны. Первый допускает некоторые выбросы. Второй пытается достичь нулевого допуска с идеальным разделением.
Допуск к выбросам Идеальное разделение с нулевым допускомНо есть компромисс .В реальном приложении поиск идеального класса для миллионов наборов обучающих данных занимает много времени. Это называется параметром регуляризации . В следующей статье мы определяем два термина: параметр регуляризации и гамма . Это параметры настройки в классификаторе SVM. Изменяя их соответствующим образом, мы можем добиться значительной нелинейной линии классификации / гиперплоскости с большей точностью.
Еще один параметр — это ядро . Он определяет, хотим ли мы линейное или линейное разделение.Также обсуждается в следующей статье «Игра с параметрами»
Оставайтесь на связи …….
машинное обучение — поиск члена смещения в SVM классификации вручную в
рэндовЧто касается дополнительного вопроса к этому сообщению, я попытался доказать себе, что я понял обозначение в уравнении для смещения (стр. 5) в опорной векторной машине SVM (классификация, линейное ядро), которая равна
$$ b = \ frac {1} {N_s} \ sum_ {s \ in S} \ left (y_s — \ sum_ {m \ in S} \ alpha_m \; y_m \; \ mathbf x_m \ cdot \ mathbf x_s \ справа) $$
соответствует (я полагаю) среднему по опорным векторам $ N_s $ скалярного произведения этих векторов, т.е.е. $ \ mathbf x_m \ cdot \ mathbf x_s, $, масштабированный по коэффициентам, $ \ alpha_m, $ и значениям классификации ($ y_m = 1 $ или $ y_m = — 1). $
В качестве игрушечного примера и ориентира я использую пример в этом посте, обозначенный как
x1s <- c (.5,1,1,2,3,3,5,1,3,5,4,5,5,5,6)
x2s <- c (3.5,1,2.5,2,1,1.2,5.8,3,4,5,4,1)
ys <- c (повтор (+1,6), повтор (-1,6))
my.data <- data.frame (x1 = x1s, x2 = x2s, type = ys)
библиотека (e1071)
svm.model <- svm (тип ~., data = my.data, type = 'C-классификация', ядро = 'linear', scale = FALSE)
# получаем параметры гиперплана
w <- t (свм.модель $ coefs)% *% svm.model $ SV
(b <- -svm.model $ rho)
# [1] 5,365853
И мы можем доказать, что svm.model $ rho
действительно имеет отрицательное смещение $ b: $
Собираем вместе опорные векторы с их метками и коэффициентами:
(sv = as.matrix (sapply (cbind (my.data [rownames (svm.model $ SV),], coef = svm.model $ coefs), as.numeric)))
# x1 x2 type coef
# [1,] 3.5 1.2 1 1.0000000
# [2,] 3,5 3,0 -1 -0,6487805
# [3,] 6.0 1.0 -1 -0.\ top \ mathbf x_s + b \ right) = 1 $$
как одно из ограничений.
Смещение, $ \ mathbf b, $ может быть вычислено в приведенном выше примере просто как:
- ((sv [, "тип"] * (svm.model $ SV% *% t (w))) - матрица (rep (1, nrow (svm.model $ SV)) ,, 1))
[, 1]
6 5,3
8 -5,365854
12 -5,365854
, что фактически равно rho. Отрицательный перехватчик
, как в документации svm.
Пытаясь воспроизвести rho
(или $ b $) с исходной формулой, я попробовал вот что:
инд. = Числовой (3)
for (я в 1: 3) {
ind [i] = sv [i, "тип"] - sv [, "type"]% *% (sv [, "coef"] * (sv [, 1: 2]% *% sv [i, 1: 2]))
}
среднее (инд.)
# [1] -40.53398
, что дает результат, отличный от rho
выше (т.е. svm.model $ rho [1] -5.365853
.
Что я делаю не так? Я испортил линейную алгебру или неправильно понял уравнение?
Машинное обучение - SVM, переменное взаимодействие и обучающие данные соответствуют
Как предполагает highBandwidth, это зависит от того, используете ли вы линейную SVM или нелинейную (если вы будете педантичны, если ядро не используется, это будет линейный классификатор с максимальным запасом, а не SVM).
Линейный классификатор с максимальным запасом не отличается от любого другого линейного классификатора в том, что если процесс генерации данных означает, что между атрибутами существует взаимодействие, то предоставление этих условий взаимодействия, вероятно, повысит производительность. Линейный классификатор максимальной маржи скорее похож на гребневую регрессию с небольшой разницей в штрафном члене, который разработан, чтобы избежать переобучения (при подходящих значениях для параметра регуляризации), и в большинстве случаев гребневая регрессия и классификатор максимальной маржи дадут схожую производительность.d $, что даст пространство признаков, в котором каждая ось представляет одночлен порядка $ d $ или меньше, параметр $ c $ влияет на относительный вес одночленов разных порядков. Таким образом, SVM с полиномиальным ядром эквивалентна подгонке полиномиальной модели в пространстве атрибутов, которая неявно включает эти взаимодействия.
При наличии достаточного количества функций любой линейный классификатор может легко соответствовать данным . IIRC и $ n $ точек в "общем положении" в $ n-1 $ -мерном пространстве могут быть разбиты (разделены любым произвольным образом) гиперплоскостью (c.f. Размер ВК). Это обычно приводит к серьезной перетяжке, и этого следует избегать. Смысл классификации максимальной маржи состоит в том, чтобы ограничить это переоснащение путем добавления штрафного члена, который означает, что достигается максимально возможное разделение (что потребовало бы наибольшего отклонения от любого обучающего примера для получения ошибочной классификации). Это означает, что вы можете преобразовать данные в очень многомерное пространство (где линейная модель очень эффективна), не подвергая себя чрезмерной подгонке.2} $, где пространство признаков является положительным ортантом бесконечномерной гиперсферы. Такие ядра делают SVM универсальным аппроксиматором, который может представлять практически любую границу решения .
Однако это только часть истории. На практике мы обычно используем SVM с мягкой маржой, где разрешено нарушать ограничение маржи, и есть параметр регуляризации, который контролирует компромисс между максимизацией маржи (который является штрафным термином, аналогичным тому, который используется в гребенчатая регрессия) и величина переменных резервов (что сродни потерям на обучающей выборке).Затем мы избегаем чрезмерной подгонки, настраивая параметр регуляризации, например, минимизируя ошибку перекрестной проверки (или некоторую границу ошибки исключения одного исключения), как мы это делали бы в случае регрессии гребня.
Таким образом, хотя SVM может тривиально классифицировать обучающий набор, обычно он будет делать это только в том случае, если параметры регуляризации и ядра выбраны неправильно. Ключ к достижению хороших результатов с любой моделью ядра заключается в выборе подходящего ядра, а затем в настройке ядра и параметров регуляризации, чтобы избежать чрезмерной или недостаточной подгонки данных.
Elastic SCAD как новый метод штрафов для задач классификации SVM в данных большой размерности | BMC Bioinformatics
Исследование моделирования
Дизайн моделирования
Было проведено всестороннее исследование моделирования, оценивающее производительность четырех классификаторов SVM выбора функций, L 1 SVM, SCAD SVM, Elastic Net SVM и Elastic SCAD SVM. Мы использовали обычный алгоритм SVM L 2 с лайнерным ядром в качестве эталона для точности прогнозирования.
Моделируются два независимых набора данных: обучающий набор для построения классификатора и тестовый набор для оценки ошибок предсказания классификаторов. Сначала генерируются обучающие данные, и оптимальные параметры настройки находятся с помощью пятикратной стратифицированной перекрестной проверки в соответствии с подходом интервального поиска [15]. Затем классификационная гиперплоскость вычисляется с использованием оцененных параметров настройки. Наконец, применение правила классификации к тестовым данным обеспечивает такие характеристики прогноза, как ошибка неправильной классификации, чувствительность и специфичность.
Входные данные для обучения и тестирования представлены матрицей данных X = { x i }, i = 1, ..., n , где x i ∈ ℝ p описывает шаблоны функций для образца i . Входные данные X подчиняются многомерному нормальному распределению со средним значением μ и ковариационной матрицей Σ. Ярлыки классов Y = { Y i }, i = 1 ,..., n генерируются в соответствии с моделью логистической регрессии
, где β = { β 1 , ..., β p } - вектор коэффициентов классификатора и u i - реализации переменной, следующие за распределением U 0 [1].
В нашем моделировании процент соответствующих функций варьируется от 1% до 20%. Коэффициенты β j , j = 1 ,..., p всегда определяются как
с равным количеством положительных и отрицательных коэффициентов. Пересечение β 0 установлено на ноль.
Мы также считаем, что есть «скопления» коррелированных признаков. Предполагается, что комковатая зависимость описывает наиболее распространенный тип зависимости в исследованиях микрочипов [28]. Мы определяем «группы» коррелированных функций как блоки из одной релевантной и четырех избыточных функций с ковариационной матрицей Σ * ( k ) , где k - номер текущего блока.Диагональные элементы Σ * ( k ) для каждого блока равны единице, а недиагональные элементы равны ρ = 0,8. Всего мы проектируем пять блоков коррелированных признаков, и поэтому ковариационная матрица имеет вид
, где
Из-за сгруппированных блоков вектор β имеет более сложную форму
с
, где r обозначает ряд соответствующих функций. Используя коррелированные блоки, мы исследуем возможность выбора коррелированных признаков, так называемый эффект группировки .
Оптимальные параметры настройки находятся путем интервального поиска в пространстве параметров настройки с использованием пятикратной перекрестной проверки. Мы выбираем большой интервал настройки параметров, чтобы быть уверенным в том, что не будут придерживаться локальных оптимумов. Пространство параметров настройки для L 1 и SCAD SVM является одномерным с λ 1 ∈ [ λ 1, min , λ 1, max ]. Эластичный SCAD имеет два параметра настройки: λ 1 , λ 2 ∈ [ λ l, min , λ л, макс. ], l = 1, 2.Elastic Net применяет пути LARS. для фиксированного λ 2 вычисляется путь λ 1 и определяется оптимальный λ 1 (подробности см. в [17]). Таким образом, оптимальная пара параметров для Elastic Net была найдена в двумерном пространстве ℝ × [ λ l, min , λ л, макс. ] Мы устанавливаем интервал поиска для обоих параметров равным [ λ l, min , λ л, макс. ] = [2 -10 , 2 -10 ], l = 1, 2.
Работоспособность классификаторов характеризуется индексом Юдена. Индекс Юдена описывается как равновзвешенная сумма истинно положительных результатов («чувствительность») и ложноположительных результатов («1 - специфичность»):
Максимальный индекс Юдена равен единице, когда показатель истинных положительных результатов равен единице, а показатель ложных положительных результатов. равно нулю. Для случайного классификатора ожидаемый индекс Юдена равен нулю. Чувствительность и специфичность имеют равные веса в этом индексе. Чаще всего затраты и последствия истинных и ложных срабатываний будут сильно отличаться.Поэтому Гу и Пепе [29] рекомендуют сообщать об этих двух показателях отдельно. Для наших смоделированных данных мы считаем индекс Юдена подходящим индикатором эффективности методов выбора функций, поскольку мы одинаково взвешиваем ошибки.
Следует отметить, что для дискретного классификатора индекс Юдена и площадь под кривой (AUC) дают одно и то же сообщение из-за их линейной зависимости. Согласно Greiner et al. [30], если на графике ROC есть только одна точка, кривая ROC оценивается путем соединения трех точек.точка соответствует классификатору, краям (0, 0) и (1, 1) графика. Тогда геометрически оценочная AUC соответствует среднему значению оцененной чувствительности и специфичности. Таким образом, индекс Юдена и AUC имеют линейную зависимость. AUC = (чувствительность + специфичность) / 2 = (индекс Юдена +1) / 2. Оптимизация AUC приведет к тем же результатам, что и оптимизация индекса Youden при работе с дискретными классификаторами. Тем не менее, для приложений с реальными данными значения AUC представлены в отдельном столбце из-за более высокого уровня знакомства с биоинформатикой.
Наконец, вычисляется частота ошибочной классификации, размер классификаторов и частота выбранных функций в пределах 100 прогонов моделирования.
Результаты моделирования
Производительность методов выбора признаков, примененных к имитируемым данным с использованием p = 1000 признаков и n = 500 образцов для обучения и тестирования, представлена в следующем разделе. Процент соответствующих функций варьируется от 1% до 20% в четыре этапа, т. Е. R = 10, 50, 100, 200.Мы предполагаем, что у нас есть взаимосвязанные блоки функций, как описано в разделе дизайна. Оптимальные параметры настройки были выбраны, как описано выше. Множественные сравнения показателей эффективности между предлагаемыми методами прогнозирования и лучшим методом (тест MCB) для каждого шага моделирования будут проводиться в соответствии с Хсу [31] на основе 100 прогонов моделирования. Мы использовали предел не меньшей эффективности процедуры, чтобы различать методы с аналогичной производительностью.
Степень ошибочной классификации
В таблице 1 приведены средние показатели ошибочной классификации в зависимости от количества соответствующих характеристик.Цифры в скобках - стандартные ошибки оценок. Для очень разреженных моделей (актуальны 10 из 1000 функций) SCAD показал самую низкую ошибку ошибочной классификации (18%), за ней следуют Elastic Net и Elastic SCAD (19,4% и 20,8% соответственно), где обе находятся в зоне безразличия для лучших методов, если маржа не меньшей эффективности была установлена на Δ = 0,05. Для менее редких и не редких моделей ( r = 50 и r = 100) Elastic Net показала лучшие характеристики. Для r = 200 релевантных элементов L 1 и Elastic Net показали почти одинаковые результаты (32.9% и 33,1% соответственно). То же самое наблюдалось для SCAD (34,7%) и Elastic SCAD (34,2%). Для r ≥ 50 степень ошибочной классификации была неотличима для всех методов выбора признаков, за исключением L 1 SVM. Классификаторы SVM L 2 показали большие ошибки неправильной классификации для разреженных моделей ( r = 10 и r = 50), чем все другие методы выбора признаков. Для менее редких моделей различия в ошибочной классификации нивелированы.
Таблица 1 Средняя степень ошибочной классификации методов выбора признаков, примененных к имитированным тестовым данным Индекс Юдена
Средний индекс Юдена для очень разреженных моделей ( r = 10) был значительно высоким для всех методов выбора признаков: 0,96 для SCAD, 0,95 для эластичной сетки, 0,92 для эластичного SCAD и 0,81 для L 1 SVM (таблица 2). По увеличению количества информативных функций Elastic Net SVM показала лучший индекс Youden (0,71% - 0.27%) среди всех методов выбора функций, за которым следует Elastic SCAD SVM (0,67–0,27%), причем оба они неотличимы.
Таблица 2 Средний индекс Юдена для классификаторов, примененных к смоделированным тестовым данным Все методы, кроме SVM L1, предоставили значительно сопоставимые индексы Юдена на уровне α = 0,05 и соответствующую разницу Δ = 0,10 для r = 10. По Повышая сложность модели, Elastic Net SVM показала лучший индекс Youden среди всех методов выбора функций, за которым следует Elastic SCAD SVM.Начиная с r > 100 существенной разницы между Elastic Net и Elastic SCAD SVM нет. По мере увеличения числа соответствующих функций индекс Юдена уменьшается с 0,9 до 0,27 для «эластичных» методов до 0,14 для SVM L 1 и до 0,16 для SVM SCAD. соответственно.
Редкость классификатора
SCAD SVM предоставила самый разреженный классификатор (с точки зрения выбора наименьшего количества функций) для r = 10 и r = 50 из 1000 функций (см.Таблица 3). Было выбрано 12 и 61 характеристика соответственно. Для менее разреженных моделей виртуальные машины Elastic Net и Elastic SCAD имели схожую производительность, выбирая наименьшее количество функций.
Таблица 3 Среднее количество выбранных функций Частоты выбора
График частот для исследования моделирования представлен в «Дополнительном файле 1 - График частот». При увеличении количества соответствующих функций ( r ) наблюдалось уменьшение доли истинных положительных результатов (красным цветом) и увеличение доли ложных положительных результатов (синим цветом) для всех моделей выбора характеристик, соответственно.В то же время мы наблюдали увеличение количества ложных срабатываний, которые коррелируют с истинными срабатываниями (выделено зеленым цветом) в классификаторах.
Процент истинных положительных результатов в классификаторах показан в Таблице S1 (Дополнительный файл 2 - Таблицы S1, S2, S3). Для r = 10 релевантных функций Elastic Net SVM обнаружил почти все истинные положительные результаты (99,8%), за ним следует Elastic SCAD SVM с 97,6%. Для r = 50 Elastic SCAD SVM дает самое разреженное решение, за которым следует L 1 SVM.В менее редких моделях SVM L 1 показал самые высокие истинно положительные показатели 84,5% и 86%.
Эффект группирования
Мы дополнительно оценили способность методов выбора признаков выбирать коррелированные признаки истинных положительных результатов. Хотя для всех сценариев L 1 SVM обнаружил самый большой процент коррелированных функций, который увеличивается с увеличением количества релевантных функций (23,6 - 62,5%), уровень коррелированных функций сопоставим с уровнем нерелевантных функций (Таблица S2).
Сравнивая таблицы S1, S2 и S3, можно заметить, что SCAD и SVM L 1 не смогли найти характеристики, сильно коррелированные с истинными положительными результатами, чаще, чем с независимыми ложными срабатываниями. Elastic Net и Elastic SCAD SVM удалось обнаружить коррелированные функции (отмечены зеленым цветом) чаще, чем независимые ложные срабатывания (синим цветом), по крайней мере, для разреженных моделей ( r = 10 и r = 50).
Частота ложных срабатываний
Для очень разреженных моделей частота ложных срабатываний (FPR) была наименьшей для SVM SCAD, за которой следовали SVM Elastic Net и Elastic SCAD (Таблица S3).Для других менее разреженных моделей Elastic Net SVM выбрала меньше ложных срабатываний, чем остальные методы. Второй лучший метод - это Elastic SCAD SVM.
Выводы
Как и ожидалось теоретически, SCAD SVM и L 1 SVM производили классификаторы с низкой ошибкой предсказания для очень редких ситуаций.
Для менее разреженных и не разреженных моделей Elastic Net и Elastic SCAD SVM показали лучшие результаты, чем SVM L 1 и L 2 в отношении точности, индекса Юдена и разреженности классификаторов.
SVM SCAD и SVM L 1 не смогли найти коррелированные функции. Виртуальные машины защиты Elastic Net и Elastic SCAD обнаруживали коррелированные функции чаще, чем можно было бы ожидать при случайном выборе. Хотя сила эффекта группировки ослабевает с увеличением числа соответствующих функций, SVM Elastic Net и Elastic SCAD по-прежнему управляют эффектами группировки.
В целом, виртуальные машины Elastic Net и Elastic SCAD показали одинаковую производительность.Кроме того, Elastic SCAD SVM предоставляет более разреженные классификаторы, чем Elastic Net SVM.
Приложения
Набор данных по раку груди NKI
Два исследования рака груди из Нидерландского института рака (NKI) были опубликованы группой van't Veer [32], [33]. В первой статье набор из 78 пациентов с отрицательными лимфатическими узлами с предварительно отобранными 4919 клонами использовался для поиска предиктора отдаленных метастазов. Классификатор был обучен и утвержден на пациентах, у которых в течение пяти лет после операции развились отдаленные метастазы, и на пациентах, у которых метастазы отсутствовали в течение как минимум первых пяти лет.Результирующим предиктором была сигнатура из 70 генов, также известная как MammaPrint® . Мы будем использовать подпись MammaPrint® в качестве справочной информации при анализе набора данных NKI по раку груди. Подпись была создана на основе генных корреляций между экспрессией гена и возникновением метастазов. Набор данных был взят из http://www.rii.com/publications/2002/vantveer.html.
В последующем валидационном исследовании данные 295 пациентов (которые частично включали пациентов из первого исследования) были использованы для валидации подписи [33].Среди пациентов 151 был отрицательным по лимфатическим узлам и 144 имел лимфатические узлы. Предварительно обработанные данные, содержащие 4919 клонов, доступны по адресу http://www.rii.com/publications/2002/nejm.html.
После исключения пациентов, идентичных обучающей выборке, и 10 пациентов без информации о метастазах, осталось 253 пациента. Среди 253 пациентов 114 лимфатических узлов отрицательные и 139 лимфатических узлов положительные.
В этой статье мы объединили набор образцов из 78 отрицательных лимфатических узлов из первой публикации с 114 пациентами с отрицательными лимфатическими узлами из валидационного исследования.Всего использовался набор данных из 192 отрицательных образцов лимфатических узлов. Оценка эффективности классификатора была рассчитана с помощью десятикратной стратифицированной перекрестной проверки.
Результаты по набору данных по раку груди NKI
В таблице 4 показаны ошибка неправильной классификации, чувствительность, специфичность, индекс Юдена и значение AUC для четырех методов выбора признаков, RFE SVM и стандарта L перекрестная проверка.
Таблица 4 Сводка классификаторов для набора данных NKI с удаленными метастазами в качестве конечной точки RFE SVM использовался в соответствии с подходом Гайона [1], где на каждой итерации половина признаков с низшими рангами удаляется.Для повышения стабильности классификатора, RFE SVM с пятикратной стратифицированной перекрестной проверкой повторяли пять раз. В соответствии со средней ошибкой перекрестной проверки оптимальное количество признаков составило 2 8 = 256. Оптимальные параметры настройки для штрафных методов SVM были найдены с помощью интервального поиска в пространстве параметров настройки, как описано в разделе методов с использованием десятикратного стратифицированного перекрестного анализа. Проверка.
SCAD SVM уменьшил количество элементов с 4919 до 476, L 1 SVM выбрал 1573 элемента, Elastic Net 109 элементов, а в классификаторе Elastic SCAD было 459 элементов.Для набора данных NKI лучшим предиктором ошибки неправильной классификации был L 1 SVM. SVM Elastic Net и Elastic SCAD показали аналогичные результаты, за ними последовала SVM SCAD, которая была немного хуже.
Взаимосвязь между истинно положительной частотой (TPR, чувствительность) и частотой ложных положительных результатов (FPR, специфичность 1) для каждого классификатора изображена в виде точки на графике ROC (рисунок 1). Изолинии с постоянным индексом Юдена показаны пунктирными линиями. Принимая индекс Юдена в качестве дополнительного критерия, можно отдать приоритет L 1 SVM.RFE SVM и оба «эластичных» метода лежали сгруппированными на графике ROC с четким расстоянием до классификатора L 1 . L 2 был помещен между L 1 и этим кластером, находясь недалеко от кластера.
Рисунок 1 График ROC для набора данных груди NKI . Характеристики для различных методов отбора признаков были получены с использованием десятикратной стратифицированной перекрестной проверки. Значения TPR и FPR представлены в виде точек (ось x: 1 - специфичность = FPR, ось y.чувствительность = TPR). RFE_256 - это RFE SVM с 256 наиболее популярными функциями, ENet - это Elastic Net SVM, ESCAD - это Elastic SCAD SVM. «70_sign» обозначает классификатор сигнатуры из 70 генов. Серые пунктирные линии изображают изолинии индекса Юдена.
Интересно, что сигнатура MammaPrint® («70_sign») не показала ни хорошей точности теста, ни надежной чувствительности или специфичности. L 2 SVM и методы выбора функций превзошли опубликованную подпись.
Выводы
Для двух наборов данных из группы Вант Вир методы выбора признаков дали сигнатуры с одинаковой точностью предсказания, но разного размера. L 1 SVM с неразреженным классификатором обеспечивает лучшую чувствительность и специфичность, за ним следуют более разреженные предикторы из Elastic Net SVM и Elastic SCAD SVM.
Набор данных о раке молочной железы MAQC-II
Этот набор данных является частью проекта MicroArray Quality Control (MAQC) -II, который был разработан для исследования многочисленных методов анализа данных и достижения консенсуса в отношении «лучших практик» для разработки. и проверка классификаторов на основе микрочипов для клинических и доклинических применений.Одной из биологических конечных точек является статус рецептора эстрогена (ER). Всего из 230 пациентов 89 пациентов имеют отрицательный статус ER и 141 пациент положительный статус ER. Клиническая конечная точка - полный патологический ответ (pCR) на предоперационную химиотерапию. Среди 230 пациентов в наборе данных 182 пациента не показали pCR и 48 имели pCR.
Предварительно обработанные данные содержат 22283 функции и доступны из базы данных GEO, инвентарный номер GSE20194.
Результаты по набору данных о раке молочной железы MAQC-II
Для создания классификаторов были применены методы выбора признаков SCAD SVM, L 1 SVM, Elastic Net SVM и Elastic SCAD SVM с внутренней десятикратной стратифицированной перекрестной проверкой.Кроме того, в качестве эталонных моделей использовались L 2 SVM и RFE SVM. Для измерения производительности использовалась десятикратная стратифицированная перекрестная проверка.
прогноз pCR
На основе минимальной средней ошибки ошибочной классификации было получено оптимальное количество признаков классификатора RFE SVM, равное 2 11 = 2048 (Таблица 5). Методы SVM со штрафными санкциями предоставили умеренно разреженные модели, Elastic SCAD SVM с 148 функциями, Elastic Net SVM с 398 функциями и плотными моделями, L 1 , SVM SCAD и RFE с более чем 1000 функциями.
Таблица 5 Сводка классификаторов для набора данных MAQC-II со статусом pCR в качестве конечной точки Частота ошибок классификации была одинаковой для всех методов с классификатором Elastic SCAD, показывающим самый низкий уровень ошибок 15%. При почти одинаково высокой специфичности (91-94%) мы наблюдали большие различия в чувствительности различных методов выбора признаков, как показано на соответствующем графике ROC (рис. 2). Elastic SCAD превзошел все методы с чувствительностью 52%. Интересно, что эластичная сеть показала наименьшую чувствительность 15%, что привело к небольшому индексу Юдена, равному 0.06.
Рисунок 2 График ROC для набора данных о груди MAQC-II с pCR в качестве конечной точки . Характеристики для различных методов выбора признаков были получены с использованием десятикратной статистической перекрестной проверки. Значения TPR и FPR представлены в виде точек (ось x: 1 - специфичность = FPR, ось y. Чувствительность = TPR). RFE_256 - это RFE SVM с 1024 наиболее популярными функциями, ENet - это Elastic Net SVM, ESCAD - это Elastic SCAD SVM. Серые пунктирные линии изображают изолинии индекса Юдена.
В целом, Elastic SCAD показал лучшие классификационные характеристики, чем другие методы.Более того, более высокая специфичность классификатора Elastic SCAD имеет клиническое значение. Пациенты, не ответившие на терапию, распознавались с большей вероятностью.
Статус ER
Мы также использовали набор данных MAQC-II для прогнозирования статуса ER. Здесь SVM L 1 не смогла получить разреженное решение, тогда как классификаторы SCAD, Elastic Net и Elastic SCAD SVM были похожи (Таблица 6). Более того, Elastic SCAD показал наименьшую частоту ошибок и самую высокую чувствительность среди всех методов.
Таблица 6 Сводка классификаторов для набора данных MAQC-II со статусом ER в качестве конечной точки Все методы классификации обеспечивали небольшие ошибки неправильной классификации, высокую чувствительность и высокую специфичность. График ROC на рисунке 3 демонстрирует эту работу предикторов. Как показано в таблице 6, виртуальные машины Elastic Net, SCAD и Elastic SCAD выбрали небольшое количество функций: 3, 32 и 59 из 22283 соответственно. Чрезвычайная разреженность Elastic Net SVM была оплачена более низкой чувствительностью и специфичностью по сравнению с другими методами.Ошибка теста на неправильную классификацию была одинаковой для всех методов (7–14%). Классификатор Elastic SCAD SVM показал наименьшую частоту ошибок 7%.
Рисунок 3 График ROC для набора данных о груди MAQC-II с ER в качестве конечной точки . Характеристики для различных методов отбора признаков были получены с использованием десятикратной стратифицированной перекрестной проверки. Значения TPR и FPR представлены в виде точек (ось x: 1 - специфичность = FPR, ось y. Чувствительность = TPR). RFE_256 - это RFE SVM с 1024 наиболее популярными функциями, ENet - это Elastic Net SVM, ESCAD - это Elastic SCAD SVM.Серые пунктирные линии изображают изолинии индекса Юдена.
Для данной задачи классификации наилучшие характеристики показали разреженные классификаторы Elastic SCAD и SCAD.
Скрининг двух дополнительных наборов данных о раке груди
Эти наборы данных были недавно проанализированы и опубликованы Johannes et. al. [34]. Первый набор данных, когорта Майнца, включает 154 пациента с отрицательными лимфатическими узлами, без рецидивов и 46 пациентов с отрицательными лимфатическими узлами, которые перенесли рецидив (номер GEO acession GSE11121).Рецидив определяется как появление отдаленных метастазов в течение пяти лет после лечения. Второй набор данных, когорта Роттердама, представляет 286 образцов рака молочной железы с отрицательными лимфатическими узлами, включая 107 повторных событий (GSE2034). Оба набора данных были сгенерированы с использованием платформы Affymetrix HG-U133A, нормализованы теми же методами и рецидивом, что и конечная точка первичной классификации. Мы обучили классификаторы выбора признаков по всей когорте, данным Майнца или данным Роттердама, и использовали другую когорту в качестве независимого набора данных для проверки, соответственно, как представлено в таблицах 7 и 8.
Таблица 7 Сводка классификаторов для когорты Майнца, проверенных на когорте Роттердам с рецидивом в качестве конечной точки Таблица 8 Сводка классификаторов для когорты Роттердама, проверенной на когорте Майнца с рецидивом в качестве конечной точки Мы видим, что все методы выбора признаков имели более низкие ошибка ошибочной классификации, чем у SVM L 2 , содержащего все функции для наборов данных по раку груди. Классификаторы работают по-разному для каждого набора данных. У SVM Elastic Net было небольшое количество ошибок для когорты Роттердама, но не удалось должным образом классифицировать выборки из Майнца.Классификатор L 2 SVM, включающий все характеристики, имел второй лучший индекс Юдена для набора Майнца, однако для данных Роттердама был показан худший индекс Юдена. Используя как ошибку теста, так и значение AUC в качестве комбинированной меры чувствительности и специфичности, можно сделать вывод, что SVM L 1 , SCAD и Elastic SCAD обеспечивают разумные и надежные решения в отношении комбинированного анализа двух наборы данных по раку груди.
В целом Elastic SCAD, кажется, обеспечивает приемлемый компромисс для разреженных и не разреженных данных.
Ансамбли SVM и SVM в прогнозировании рака молочной железы
Abstract
Рак груди - слишком распространенное заболевание у женщин, поэтому эффективное прогнозирование этого заболевания является активной исследовательской проблемой. Для разработки различных моделей прогнозирования рака груди использовался ряд статистических методов и методов машинного обучения. Среди них было показано, что машины опорных векторов (SVM) превосходят многие связанные методы. Чтобы построить классификатор SVM, сначала необходимо определить функцию ядра, и разные функции ядра могут привести к разной производительности прогнозирования.Однако было проведено очень мало исследований, посвященных изучению характеристик предсказания SVM на основе различных функций ядра. Более того, неизвестно, могут ли ансамбли классификаторов SVM, которые были предложены для улучшения производительности отдельных классификаторов, превзойти отдельные классификаторы SVM с точки зрения прогнозирования рака груди. Таким образом, цель данной статьи - полностью оценить эффективность прогнозирования ансамблей SVM и SVM для небольших и крупных наборов данных о раке молочной железы. Сравниваются точность классификации, ROC, F-мера и время вычисления обучающих SVM и SVM ансамблей.Результаты экспериментов показывают, что ансамбли SVM на основе линейного ядра, основанные на методе бэггинга, и ансамбли SVM на основе ядра RBF с методом повышения могут быть лучшим выбором для небольшого набора данных, где выбор функций должен выполняться на этапе предварительной обработки данных. Для крупномасштабного набора данных ансамбли SVM на основе ядра RBF, основанные на повышении, работают лучше, чем другие классификаторы.
Образец цитирования: Huang M-W, Chen C-W, Lin W-C, Ke S-W, Tsai C-F (2017) Ансамбли SVM и SVM в прогнозировании рака молочной железы.PLoS ONE 12 (1):
e0161501.
https://doi.org/10.1371/journal.pone.0161501
Редактор: Энрике Эрнандес-Лемус, Instituto Nacional de Medicina Genomica, MEXICO
Поступила: 11 марта 2016 г .; Принята к печати: 5 августа 2016 г .; Опубликовано: 6 января 2017 г.
Авторские права: © 2017 Huang et al. Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии указания автора и источника.
Доступность данных: Наборы данных доступны по адресу: http://archive.ics.uci.edu/ml/, http://www.sigkdd.org/kddcup/index.php.
Финансирование: Авторы не получили финансирования для этого исследования.
Конкурирующие интересы: Авторы заявили, что никаких конкурирующих интересов не существует.
Введение
Прогнозирование рака груди долгое время считалось важной исследовательской проблемой в медицинских и медицинских кругах.Этот рак развивается в ткани груди [1]. Существует несколько факторов риска рака груди, включая женский пол, ожирение, недостаток физических упражнений, употребление алкоголя, заместительную гормональную терапию во время менопаузы, ионизирующее излучение, ранний возраст первой менструации, опоздание или отсутствие детей и пожилой возраст.
Существуют разные типы рака груди, с разной стадией или распространением, агрессивностью и генетической структурой. Поэтому было бы очень полезно иметь систему, которая позволила бы раннее обнаружение и профилактику, что повысило бы показатели выживаемости при раке груди.
В литературе обсуждается ряд различных статистических методов и методов машинного обучения, которые применялись для разработки моделей прогнозирования рака груди, таких как логистическая регрессия, линейный дискриминантный анализ, наивный байесовский анализ, деревья решений, искусственные нейронные сети, k-ближайший сосед и поддержка. векторные машинные методы [2–9].
В частности, исследования, сравнивающие некоторые из вышеупомянутых методов, показали, что SVM работает лучше, чем многие другие связанные методы [10–15].
При построении классификатора SVM необходимо определить конкретную функцию ядра, такую как полиномиальная или радиальная базисная функция (RBF), которая является важным параметром обучения. Однако было проведено очень мало исследований, посвященных оценке эффективности прогнозирования классификаторов SVM, построенных с использованием различных функций ядра. Кроме того, известно, что объединение нескольких классификаторов или ансамблей классификаторов, еще одна активная область исследований классификации шаблонов, часто дает лучшую производительность, чем отдельные классификаторы [16].Однако, за исключением Lavanya и Rani [17], которые показывают, что ансамбли дерева решений, построенные с помощью пакетирования, работают лучше, чем модель с одним деревом решений, эффективность ансамблей классификаторов в прогнозировании рака груди изучается нечасто. Таким образом, неизвестно, могут ли ансамбли SVM превзойти отдельные классификаторы SVM в прогнозировании рака груди.
Еще одним усложняющим фактором является то, что собранный набор данных для прогнозирования рака груди обычно несбалансирован по классам: класс меньшинства содержит небольшое количество больных раком, а класс большинства - большое количество пациентов без рака.Это означает, что использование только точности предсказания или точности классификации для оценки моделей предсказания недостаточно [18]. Другие показатели оценки, которые используют различные типы ошибок классификации, такие как площадь под кривой (AUC) или кривая рабочей характеристики приемника (ROC) [19], также должны быть исследованы, чтобы полностью понять эффективность модели прогнозирования.
Таким образом, целью нашего исследования является сравнение ансамблей SVM и SVM с использованием различных функций ядра (т.е., линейные, полиномиальные и функции ядра RBF) и методы комбинирования (т. е. бэггинг и бустинг). Их производительность будет оцениваться с помощью различных показателей оценки, включая точность классификации, ROC, F-меру и время обучения классификатора. Следовательно, результаты этой статьи должны позволить будущим исследователям легко выбрать наиболее эффективный базовый метод, который может обеспечить оптимальную производительность прогнозирования для будущего сравнения.
Остальная часть статьи организована следующим образом.В разделе 2 дается обзор связанных исследований, в том числе исследований опорных векторных машин и ансамблей классификаторов, и сравниваются связанные работы с точки зрения используемой функции ядра, используемого набора данных и рассматриваемой метрики оценки. Раздел 3 описывает экспериментальную методологию, включая экспериментальную процедуру, процесс вменения и экспериментальную установку. В разделе 4 представлены экспериментальные результаты. Наконец, раздел 5 завершает статью.
Обзор литературы
Машины опорных векторов
Машины опорных векторов (SVM), впервые представленные Вапником [20], показали свою эффективность во многих задачах распознавания образов [21], и они могут обеспечить лучшие характеристики классификации, чем многие другие методы классификации.
SVM-классификатор выполняет двоичную классификацию, т. Е. Разделяет набор обучающих векторов для двух разных классов ( x 1 , y 1 ), ( x 2 , y 2 ),…, ( x м , y м ), где x i 04 ∈
71 R обозначает векторы в пространстве d -мерных признаков, а y i ∈ {-1, +1} является меткой класса.Модель SVM создается путем сопоставления входных векторов с новым пространством признаков более высокой размерности, обозначенным как Φ: R d → H f , где d < f . Затем оптимальная разделяющая гиперплоскость в новом пространстве признаков строится функцией ядра K ( x i , x j ), которая является продуктом входных векторов x . i и x j и где K ( x i , x j ) = Φ (43 x
) · Φ ( x j ).
Рис. 1 иллюстрирует эту процедуру SVM на основе линейного ядра, которая отображает нелинейное входное пространство в новое линейно разделимое пространство. В частности, все векторы, лежащие на одной стороне гиперплоскости, помечены как -1, а все векторы, лежащие на другой стороне, помечены как +1. Обучающие экземпляры, которые лежат ближе всего к гиперплоскости в преобразованном пространстве, называются опорными векторами. Число этих опорных векторов обычно мало по сравнению с размером обучающего набора, и они определяют запас гиперплоскости и, следовательно, поверхность принятия решения.
Две широко используемые функции ядра - это полиномиальная и радиальная базисная функция Гаусса (RBF), которые равны K poly ( x i , x j ) = ( x i · x j + 1) p ( p - степень полинома) и ( σ - гауссова сигма) соответственно.
Связанные работы показали, что не существует формального способа определить лучшую функцию ядра для конкретной проблемы предметной области. Однако среди различных ядерных функций ядра линейных, полиномиальных и радиальных базисных функций являются наиболее широко используемыми и сравниваются в различных проблемах предметной области, таких как классификация культур [22], классификация экспрессии генов [23], локализация белка [24], динамик. идентификация [25] и идентификация сайтов сплайсинга [26].
Классифицирующие ансамбли
Ансамбли классификаторов, объединяющие несколько классификаторов, стали рассматриваться как важный метод классификации шаблонов [27–29], предлагающий улучшенные характеристики классификации одного классификатора [16].
Концепция ансамблей классификаторов основана на природе обработки информации в мозге, которая является модульной. То есть отдельные функции могут быть подразделены на функционально разные подпроцессы или подзадачи без взаимного вмешательства [30]. Это принцип «разделяй и властвуй», который позволяет разделить сложную проблему на более простые подзадачи (то есть более простые задачи), которые затем можно решить с помощью различных методов или алгоритмов обучения.
Два широко используемых метода комбинирования нескольких классификаторов - это упаковка и бустинг.При бэггинге несколько классификаторов обучаются независимо с помощью разных обучающих наборов с помощью метода начальной загрузки [31]. При загрузке создается k реплицируемых наборов обучающих данных для построения k независимых классификаторов путем случайной повторной выборки исходного данного набора обучающих данных, но с заменой. То есть каждый обучающий пример может казаться повторяющимся в любом конкретном повторяющемся наборе обучающих данных из k или не повторяться вообще. Затем k классификаторов агрегируются с помощью соответствующего метода комбинирования, такого как голосование большинством [32].
В бустинге, как и при бэггинге, каждый классификатор обучается с использованием разных обучающих наборов. Однако классификаторы k обучаются не параллельно и независимо, а последовательно. Первоначальный подход к усилению путем фильтрации был предложен Шапиром [33]. В настоящее время AdaBoost (или Adaptive Boosting) является наиболее распространенным алгоритмом ускоренного обучения, используемым при распознавании образов.
Изначально каждый пример данного обучающего набора имеет одинаковый вес.Для обучения k -го классификатора как слабой обучающей модели , n наборов обучающих выборок ( n < m ) из S используются для обучения k -го классификатора. Затем обученный классификатор оценивается с помощью S для выявления тех обучающих примеров, которые нельзя правильно классифицировать. Затем классификатор k + 1 обучается с помощью модифицированного обучающего набора, который повышает важность этих неправильно классифицированных примеров.Эта процедура выборки будет повторяться до тех пор, пока не будет построено K обучающих выборок для построения классификатора K- th. Окончательное решение принимается на основе взвешенного голосования отдельных классификаторов [34].
Сравнения родственных работ с использованием SVM
В таблице 1 сравниваются несколько недавних связанных работ по прогнозированию рака груди с использованием SVM с точки зрения используемой функции ядра, используемого набора данных и рассматриваемой метрики оценки. Обратите внимание, что в некоторых исследованиях используется программное обеспечение для интеллектуального анализа данных Weka (доступно по адресу: http: // www.cs.waikato.ac.nz/ml/weka/) для создания классификатора SVM, и они не указывают используемую функцию ядра. В этом случае мы предполагаем, что они рассматривают параметры SVM по умолчанию, то есть функцию ядра RBF.
Из таблицы 1 можно выделить несколько ограничений этих недавних исследований. За исключением You и Rumbe [15], большинство связанных работ по построению классификатора SVM для прогнозирования рака груди основаны только на функции ядра RBF. Хотя RBF является наиболее широко используемой функцией ядра в SVM, производительность прогнозирования, полученная с использованием других различных популярных функций ядра, еще полностью не исследована.Во-вторых, в большинстве исследований в своих экспериментах использовался только набор данных по раку молочной железы, штат Висконсин. Хотя это общедоступный набор данных (доступен по адресу: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Original)), размер его набора данных слишком мал для эффективной проверки производительности SVM. для прогнозирования рака груди. Поэтому в этой статье для дальнейшего сравнения также будет использоваться другой крупномасштабный набор данных по раку груди.
Наконец, точность прогноза (или классификации) обычно является основным показателем оценки, используемым для оценки производительности моделей прогнозирования.Однако собранный набор данных для прогнозирования рака груди обычно классифицируется как проблема классового дисбаланса. То есть класс для пациентов, страдающих раком, содержит очень небольшое количество выборок данных, тогда как класс для нормальных пациентов без рака содержит очень большое количество выборок данных. Это вызывает проблему при проверке точности модели прогнозирования, потому что ошибка неправильной классификации нормального пациента без рака как части класса рака и ошибка неправильной классификации пациента с раком как части нормального класса не оцениваются.Только половина связанных работ, показанных в Таблице 1, рассматривают как показатели чувствительности (т.е. частота истинных положительных результатов), так и показатели специфичности (т.е. частота ложных срабатываний) или кривую рабочих характеристик приемника (ROC), которая основана на чувствительности и специфичности. все вместе. Поэтому, помимо точности классификации, в этом исследовании также будут рассмотрены кривая ROC, коэффициент F-меры или оценка F-1 [37]. При вычислении оценки F-мера учитывает как точность (количество правильных положительных результатов, деленное на количество всех положительных результатов), так и отзыв (количество правильных положительных результатов, деленное на количество положительных результатов, которые должны были быть возвращены). .Другими словами, это средневзвешенное значение точности и отзыва.
Экспериментальная методика
Экспериментальная процедура
Экспериментальная процедура основана на следующих шагах. Прежде всего, данный набор данных делится на 90% обучающих и 10% тестовых наборов на основе 10-кратной стратегии перекрестной проверки [38]. На втором этапе основное внимание уделяется построению классификаторов SVM с использованием различных функций ядра (т. Е. Линейных, полиномиальных и RBF) по отдельности.Кроме того, ансамбли SVM-классификатора также будут построены путем упаковки и повышения для создания линейных, полиномиальных и RBF-ансамблей SVM. Наконец, набор для тестирования вводится в сконструированные классификаторы до проверки их точности классификации, ROC и скоростей F-мер. Кроме того, время обучения классификатора также сравнивается для анализа вычислительной сложности обучения различных классификаторов.
Мы также проверяем, может ли выполнение выбора объектов для фильтрации нерепрезентативных объектов из выбранного набора данных повысить производительность классификаторов по сравнению с классификаторами без выбора объектов.В этом случае используется генетический алгоритм (ГА) [39].
Экспериментальная установка
Наборы данных.
В этой статье используются два набора данных по раку груди, которые доступны в репозитории машинного обучения UCI (доступно по адресу: http://archive.ics.uci.edu/ml/) и ACM SIGKDD Cup 2008 (доступно по адресу: http://www.sigkdd.org/kddcup/index.php). Первый представляет собой относительно небольшой набор данных, который состоит из 699 выборок данных, и каждая выборка данных имеет 11 различных функций.С другой стороны, последний набор данных содержит 102294 выборки данных, и каждая выборка данных представлена 117 различными характеристиками, которые в данной статье рассматриваются как крупномасштабный набор данных.
Дизайн классификатора.
Для построения различных классификаторов SVM используется программа интеллектуального анализа данных Weka. Помимо функций ядра, которые выбираются для разработки конкретных классификаторов SVM, другие связанные параметры основаны на значениях Weka по умолчанию. Тот же подход используется для построения ансамблей SVM на основе бэггинга и бустинга.
Следовательно, существует три одиночных SVM-классификатора, а именно линейный SVM, полиномиальный SVM и RBF SVM, и шесть ансамблей SVM, а именно ансамбли линейных / полиномиальных / RBF SVM, построенных с помощью бэггинга и повышения, соответственно. Кроме того, для оценки производительности различных классификаторов SVM, помимо точности классификации, ROC и скорости F-меры, также сравнивается время, затрачиваемое на обучение каждого классификатора. Обратите внимание, что вычислительная среда основана на ПК, Intel ® Core ™ i7-2600 CPU @ 3.40 ГГц, 4 ГБ оперативной памяти.
Мы также используем Weka для выполнения задачи выбора признаков с использованием генетического алгоритма, а его параметры основаны на значениях по умолчанию.
Результаты экспериментов
Классификаторы одиночных SVM
На рис. 2 и 3 показаны характеристики SVM-классификаторов, полученные с помощью линейных, полиномиальных и ядерных функций RBF с выбором признаков и без него, с точки зрения точности классификации, ROC, F-меры и времени вычислений (в секундах) за два набора данных соответственно.Обратите внимание, что после выполнения выбора признаков с использованием генетического алгоритма количество объектов, выбранных из мелкомасштабных и крупномасштабных наборов данных, составляет 10 и 36 соответственно.
Как мы видим, выполнение выбора функций перед обучением классификаторов SVM позволяет им обеспечить значительно лучшую производительность (то есть точность классификации, ROC и F-меру). В частности, лучшие характеристики получены с помощью GA + linear SVM для точности классификации (96,85%), GA + linear SVM для ROC (0.967) и GA + RBF SVM для F-меры (0,988). Более того, нет большой разницы в производительности между GA + linear SVM и GA + RBF SVM.
Кроме того, значительно сокращается время вычислений для обучения классификаторов SVM после выполнения выбора признаков по сравнению с базовыми классификаторами SVM без выбора признаков. Сравнение времени обучения показывает, что обучение RBF SVM требует наименьшего времени, а poly SVM требует второго наименьшего времени. Наибольшее время вычислений требуется для линейного классификатора SVM.
В случае крупномасштабного набора данных выполнение выбора признаков не обязательно приводит к тому, что классификаторы SVM работают лучше, чем классификаторы без выбора признаков. В частности, наилучшие характеристики получены с помощью poly SVM и GA + poly SVM для точности классификации (99,50%) и poly SVM для ROC (0,614) и F-меры (0,994). Подобно результатам, полученным с мелкомасштабным набором данных, классификаторы SVM с выбором функций и без них на основе полиномиальных функций и функций ядра RBF работают одинаково с точки зрения точности классификации и F-меры, в частности, различия в производительности равны 0.02% для точности классификации и 0,001 для F-меры. Однако, когда ROC рассматривается как метрика оценки, poly SVM значительно превосходит другие классификаторы SVM.
Сравнение времени вычислений для обучения классификаторов SVM показывает, что наибольшее время вычислений требуется для линейного классификатора SVM без выбора признаков. После выполнения выбора функций время обучения для других классификаторов, то есть для poly SVM и RBF SVM, примерно в два раза меньше, чем для классов без выбора функций.Однако, с нашей точки зрения, нет большой разницы между 11 минутами, потраченными GA + poly SVM, и 20 минутами, потраченными на poly SVM, особенно когда последняя модель прогнозирования обеспечивает лучшую производительность с точки зрения точности классификации, ROC и F. -мера.
Короче говоря, GA + RBF SVM и poly SVM - лучший выбор для мелкомасштабных и крупномасштабных наборов данных соответственно, поскольку они могут обеспечить лучшую производительность с точки зрения точности классификации, ROC и F-меры, и им не требуется большой классификатор. время тренировок.
Ансамбли классификаторов SVM
На рис. 4–7 показаны характеристики ансамблей линейных, поли- и RBF-классификаторов SVM, полученные путем пакетирования и повышения с выбором признаков и без него, с точки зрения точности классификации, ROC, F-меры и времени вычислений для двух наборов данных. , соответственно.
Для мелкомасштабного набора данных, аналогичного одиночным классификаторам SVM (см. Рис. 2 (a) - 2 (c)), объединение GA с ансамблями SVM превосходит ансамбли SVM без выбора функций, независимо от того, какая функция ядра и метод ансамбля используются.В частности, ансамбли GA + RBF SVM, использующие метод повышения, показывают лучшие результаты с точки зрения точности классификации (98,28%), в то время как ансамбли GA + linear SVM и ансамбли GA + poly SVM, использующие метод бэггинга, превосходят другие ансамбли классификаторов (0,98%). ), а линейный SVM GA +, использующий как мешки, так и методы повышения, может обеспечить наивысшую скорость измерения F (0,966).
Обучение ансамблей SVM на основе сокращенного набора данных после выполнения GA приводит к значительному сокращению времени вычислений.В частности, ансамбли SVM RBF требуют меньше времени на обучение, чем ансамбли linear и poly SVM, когда используется исходный набор данных. Этот результат аналогичен предыдущему (см. Рис. 2 (d)).
В случае крупномасштабного набора данных выполнение выбора признаков не делает ансамбли SVM эффективнее, чем без выбора признаков. В частности, лучшая производительность достигается при использовании ансамблей RBF SVM и метода повышения, ансамблей линейных SVM GA + и метода повышения, а также ансамблей RBF SVM и метода повышения с точки зрения точности классификации (99.52%), ROC (0,876) и F-мера (0,995).
Ансамбли SVM, использующие метод бустинга, требуют большего времени обучения, чем ансамбли, использующие метод бэггинга. Однако ансамбли RBF SVM требуют меньше времени, чем другие ансамбли SVM.
Обсуждение
Не существует единого классификатора, который мог бы работать наилучшим образом для всех оценочных показателей. В таблице 2 перечислены три основных классификатора на основе точности классификации, ROC и F-меры для дальнейшего сравнения.
Можно заметить, что ансамбли SVM в основном обеспечивают лучшую производительность, чем отдельные классификаторы SVM.Этот вывод согласуется с данными соответствующих исследований (Kittler et al., 1998). Кроме того, для мелкомасштабного набора данных ансамбли GA + linear SVM с помощью упаковки и ансамбли GA + RBF SVM с помощью повышения могут рассматриваться как лучшие классификаторы для различных показателей оценки. С другой стороны, для крупномасштабного набора данных только ансамбли RBF + SVM за счет повышения находятся в трех верхних списках трех различных показателей оценки.
Когда время вычислений также сравнивается, время обучения линейной SVM GA + с бэггингом аналогично времени обучения для ансамблей GA + RBF SVM с усилением при использовании небольшого набора данных (т.е., 0,57 против 0,5). Для лучшего классификатора по крупномасштабному набору данных для ансамблей SVM RBF с повышением требуется около 301 часа, что меньше, чем в среднем требуется для ансамблей SVM с повышением (724 часа), но выше, чем в среднем для ансамблей SVM с бэггингом (65 часы).
Поэтому, когда используется больший набор данных и одновременно учитываются характеристики прогнозирования и время обучения классификатора, мы рекомендуем ансамбли GA + RBF SVM, основанные на повышении.Это связано с тем, что они обеспечивают точность классификации, ROC и F-меру 99,41%, 0,875 и 0,994 соответственно. Кроме того, им требуется около 186 часов, что намного меньше, чем для ансамблей RBF SVM с бустингом. Однако, если используется облачная платформа, например, с вычислением MapReduce, реализованным с использованием Hadoop (доступно по адресу: https://hadoop.apache.org/), вычислительная нагрузка, безусловно, может быть уменьшена. В этом случае ансамбли RBF SVM с бустингом являются оптимальным выбором для модели прогнозирования рака груди.
Следует отметить, что эти результаты подходят только для наборов данных прогнозирования рака груди. То есть эти два набора данных содержат небольшое количество функций и большое количество выборок данных, то есть 11 против 699 для мелкомасштабного набора данных и 117 против 102294 для крупномасштабного набора данных. Здесь два дополнительных набора данных, которые содержат очень большое количество функций, но меньшее количество выборок данных, используются для дальнейшего анализа, то есть количество функций больше, чем количество выборок данных.Это Arcene (доступно по адресу: https://archive.ics.uci.edu/ml/datasets/Arcene) и MicroMass (доступно по адресу: https://archive.ics.uci.edu/ml/datasets/MicroMass) наборы данных, которые содержат 10000 объектов по сравнению с 900 выборками данных и 1300 функций по сравнению с 931 выборкой данных, соответственно.
В таблице 3 показаны результаты различных классификаторов SVM с использованием двух наборов данных. Как мы видим, классификаторы SVM RBF работают хуже всего по сравнению с такими наборами данных. С другой стороны, для линейных классификаторов SVM и poly SVM построение ансамблей классификаторов с помощью методов упаковки и повышения не всегда превосходит отдельные классификаторы.В частности, эти результаты показывают, что использование одного линейного классификатора SVM является хорошим базовым классификатором для наборов данных, содержащих очень большое количество функций, превышающих количество выборок данных.
Заключение
В этой статье эффективность отдельных классификаторов SVM и ансамблей классификаторов SVM, полученных с использованием различных функций ядра и различных методов комбинирования, исследуется с точки зрения прогнозирования рака груди. Кроме того, для сравнения используются два разных масштабированных набора данных.Кроме того, сравниваются точность классификации, ROC, F-мера и вычислительное время обучения различных классификаторов.
Эти специфические экспериментальные настройки никогда не были показаны ранее, и экспериментальные результаты позволяют нам полностью понять характеристики прогнозирования SVM и SVM ансамблей, и лучшая модель (модели) прогнозирования может быть определена в качестве базового классификатора (ов) для будущих исследований.
Мы обнаружили, что большинство ансамблей SVM работают немного лучше, чем отдельные классификаторы SVM.В частности, выполнение выбора функций с использованием генетического алгоритма (GA) для небольшого набора данных может привести к тому, что отдельные классификаторы SVM, а ансамбли SVM обеспечат значительно лучшую производительность, чем те же классификаторы без выбора функций. Среди них ансамбли линейной SVM GA + с бэггингом и ансамбли GA + RBF SVM с повышением являются двумя главными моделями прогнозирования, и их различия в производительности не являются значительными.
С другой стороны, для крупномасштабного набора данных модель прогнозирования, основанная на ансамблях RBF SVM с повышением, является лучшим выбором.Однако ансамбли SVM, основанные на бустинге, обычно требуют больше времени на обучение, чем отдельные классификаторы SVM и ансамбли SVM с бэггингом. На практике есть два возможных решения для уменьшения времени вычислений. Первый - сначала выполнить выбор функции, чтобы уменьшить размерность набора данных. В этом случае ансамбли GA + SVM, основанные на повышении, по-прежнему обеспечивают лучшую производительность, чем многие другие классификаторы. Второй - напрямую создавать ансамбли SVM, используя преимущества облачной платформы.В этом случае нет необходимости выполнять выбор признаков, при этом время обучения классификатора все же может быть значительно сокращено.
Вклад авторов
- Задуманы и разработаны эксперименты: МВтч.
- Проведены эксперименты: CWC.
- Проанализированы данные: CFT.
- Написал документ: MWH CWC WCL SWK CFT.
Список литературы
- 1.
Сондерс К., Джассал С. Рак груди. Издательство Оксфордского университета; 2009.
- 2.
Али А., Хан У., Ким М. Обзор моделей прогнозирования выживаемости при раке груди. Международная конференция по взаимодействию наук: информационные технологии, культура и человек; 2009 24–26 ноября; Сеул, Корея. п. 1259–1262.
- 3.
Аруна С., Раджагопалан С.П., Нандакишор Л.В. Основанный на знаниях анализ различных статистических инструментов для выявления рака груди. Международная конференция по информатике, инженерии и приложениям; 2011 г. 15–17 июля; Ченнаи, Индия.п. 37–45.
- 4.
Круз Дж. А., Вишарт Д. С. Применение машинного обучения в прогнозировании и прогнозировании рака. Онкологическая информатика. 2006; 2: 59–78.
- 5.
Гаятри Б.М., Сумати С.П., Сантханам Т. Диагностика рака груди с использованием алгоритмов машинного обучения - опрос. Международный журнал распределенных и параллельных систем. 2013; 4 (3): 105–112.
- 6.
Харья С. Использование методов интеллектуального анализа данных для диагностики и прогноза онкологических заболеваний.Международный журнал компьютерных наук, инженерии и информационных технологий. 2012; 2 (2): 55–66.
- 7.
Куру К., Экзархос Т.П., Экзархос К.П., Карамузис М.В., Фотиадис Д.И. Приложения машинного обучения для прогнозирования и прогнозирования рака. Журнал вычислительной и структурной биотехнологии. 2015; 13: 8–17. pmid: 25750696
- 8.
Шаджахан С.С., Шанти С., Маночитра В. Применение методов интеллектуального анализа данных для моделирования данных о раке груди. Международный журнал новейших технологий и передовой инженерии.2013; 3 (11): 362–369.
- 9.
Шривастава С.С., Сант А., Ахарвал Р.П. Обзор подхода к интеллектуальному анализу данных о раке груди. Международный журнал перспективных компьютерных исследований. 2013; 3 (4): 256–262.
- 10.
Абделаал М.М.А., Фарук М.В., Сена Х.А., Салем А.-Б., М. Использование интеллектуального анализа данных для оценки диагностики рака груди. Международная мультиконференция по информатике и информационным технологиям; 17–19 марта 2010 г .; Гонконг, Китай. п. 11–17.
- 11.Ахмад Л.Г., Эшлаги А.Т., Поребрахими А., Эбрахими М., Разави А.Р. Использование трех методов машинного обучения для прогнозирования рецидива рака груди. Журнал здравоохранения и медицинской информатики. 2013; 4 (2): 124.
- 12.
Хуан К.-Л., Ляо Х.-К., Чен М.-К. Построение модели прогнозирования и выбор функций с помощью машин опорных векторов в диагностике рака груди. Экспертные системы с приложениями. 2008; 34: 578–587.
- 13.
Салама Г.И., Абдельхалим М.Б., Зейд М.А. Экспериментальное сравнение классификаторов для диагностики рака груди. Международная конференция по компьютерной инженерии и системам; 2012 г. 20–22 декабря; Каир, Египет. п. 180–185.
- 14.
Сентурк З.К., Кара Р. Диагностика рака груди с помощью интеллектуального анализа данных: анализ производительности семи различных алгоритмов. Компьютерные науки и инженерия: международный журнал. 2014; 4 (1): 35–46.
- 15.
You H., Rumbe G. Сравнительное исследование методов классификации по данным биопсии FNA при раке молочной железы.Международный журнал искусственного интеллекта и интерактивных мультимедиа. 2010; 1 (3): 6–13.
- 16.
Киттлер Дж., Хатеф М., Дуин Р.П.У., Мэйтас Дж. О комбинировании классификаторов. IEEE Transactions по анализу шаблонов и машинному анализу. 1998; 20 (3): 226–239.
- 17.
Лаванья Д., Рани К.У. Классификатор ансамблевого дерева решений для данных о раке груди. Международный журнал конвергенции информационных технологий и услуг. 2012; 2 (1): 17–24.
- 18.Он Х., Гарсия Э.А. Учимся на несбалансированных данных. IEEE Transactions по разработке знаний и данных. 2009; 21 (9): 1263–1284.
- 19.
Фосетт Т. Введение в анализ ROC. Письма о распознавании образов. 2006; 27: 861–874.
- 20.
Вапник В. Статистическая теория обучения. Джон Вили; 1998.
- 21.
Бьюн Х., Ли С.-В. Обзор приложений распознавания образов машин опорных векторов. Международный журнал распознавания образов и искусственного интеллекта.2003; 17 (3): 459–486.
- 22.
Yekkehkhany B., Homayouni A.S.S., Hasanlou M. Сравнительное исследование различных ядерных функций для классификации SAR с разновременной поляризацией на основе SVM. Международная конференция по исследованиям геопространственной информации; 2014 15–17 ноября; Тегеран, Иран. п. 281–285.
- 23.
Дас С.Р., Дас К., Мишра Д., Шоу К., Мишра С. Эмпирическое сравнительное исследование машины опорных векторов на основе ядра для классификации набора данных экспрессии генов.Разработка процедур. 2012; 38: 1340–1345.
- 24.
Бак Т.А.Э., Чжан Б. Оптимизация ядер SVM: пример предсказания субклеточной локализации дрожжевого белка. 2006; Школа компьютерных наук Университета Карнеги-Меллона.
- 25.
Мезгани Д.Б.А., Бужелбене С.З., Эллуз Н. Оценка ядер SVM и традиционных алгоритмов машинного обучения для идентификации говорящего. Международный журнал гибридных информационных технологий. 2010; 3 (3): 23–34.
- 26.Батен А.К.М.А., Чанг Б.С.Х., Халгамге С.К., Ли Дж. Идентификация сайта сплайсинга с использованием вероятностных параметров и классификации SVM. BMC Bioinformatics. 2006; 7: 1–15.
- 27.
Фросиниотис Д., Стафилопатис А., Ликас А. Метод «разделяй и властвуй» для многосетевых классификаторов. Анализ шаблонов и приложения. 2003; 6 (1): 32–40.
- 28.
Рокач Л. Ансамблевые классификаторы. Обзор искусственного интеллекта. 2010; 33: 1–39.
- 29.
Возняк М., Грана М., Корчадо Э. Обзор систем с несколькими классификаторами как гибридных систем. Информационный фьюжн. 2014; 16: 3–17.
- 30.
Happel B.L.M., Murre J.M.J. Дизайн и развитие модульных архитектур нейронных сетей. Нейронные сети. 1994; 7 (6–7): 985–1004.
- 31.
Предикторы Бреймана Л. Бэггинга. Машинное обучение. 1996; 24 (2): 123–140.
- 32.
Ким Х.-К., Панг С., Дже Х.-М., Ким Д., Банг С.Й. Построение ансамбля опорных векторов машин.Распознавание образов. 2003; 36 (12): 2757–2767.
- 33.
Шапир Р.Э. Сила слабой обучаемости. Машинное обучение. 1990; 5 (2): 197–227.
- 34.
Фройнд Ю., Шапир Р. Э. Эксперименты с новым алгоритмом повышения. Международная конференция по машинному обучению; 1996 г. 3–6 июля; Бари, Италия. п. 148–156.
- 35.
Джоши Дж., Доши Р., Патель Дж. Диагностика и прогноз рака груди с использованием правил классификации. Международный журнал инженерных исследований и общих наук.2014; 2 (6): 315–323.
- 36.
Ронг Л., Юань С. Диагностика опухоли груди с использованием классификатора SVM-KNN. Всемирный конгресс WRI по интеллектуальным системам; 2010 г. 16–17 декабря; Хубэй, Китай. п. 95–97.
- 37.
Пауэрс D.M.W. Оценка: от точности, отзыва и f-меры до ROC, информированности, выраженности и корреляции. Журнал технологий машинного обучения. 2011; 2 (1): 37–63.
- 38.
Кохави Р. Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели.Международная совместная конференция по искусственному интеллекту; 1995 20–25 августа; Квебек, Канада. п. 1137–1143.
- 39.
Oh I.S., Lee J.S., Moon B.R. Гибридные генетические алгоритмы выбора признаков. IEEE Transactions по анализу шаблонов и машинному анализу. 2004; 26 (11): 1424 - 1437.