Революционный прорыв Homsh: ViT+ArcFace
Точность распознавания радужной оболочки глаза достигла мирового уровня
При равной частоте ошибок (EER) всего 0,29% и ROC AUC, приближающемся к теоретическому пределу —
Мы переопределили границы распознавания радужной оболочки глаза с помощью Vision Transformer
▲ Vision Transformer переопределяет базовую парадигму извлечения признаков радужной оболочки глаза
I. На этот раз это не просто прогресс — это смена парадигмы
Если вы спросите инженера, который занимается распознаванием радужной оболочки глаза два десятилетия: «Какая самая сложная проблема, с которой вы когда-либо сталкивались?»
Он, вероятно, сделает паузу, а затем скажет: «Резиновый лист».
С тех пор как Джон Даугман предложил алгоритм IrisCode в 1993 году, процесс «развертывания резинового листа» стал своего рода заклинанием, вписанным в ДНК систем распознавания радужной оболочки глаза по всему миру. Развертывание круглой радужной оболочки в прямоугольное изображение, затем извлечение текстур с помощью фильтров Габора... этот рабочий процесс использовался три десятилетия, и никто не ставил его под сомнение.
Пока мы не решили от него отказаться.
II. Почему «Резиновый лист» перестал работать?
Vision Transformer (сокращенно ViT) — один из самых ярких технологических прорывов в области глубокого обучения за последние три года. Он разбивает изображение на множество «патчей» размером 16x16, использует механизм самовнимания языковых моделей для понимания глобальной структуры изображения и превосходит сверточные нейронные сети (CNN), которые доминировали годами, во многих первоклассных визуальных задачах.
Когда мы впервые попытались применить ViT к распознаванию радужной оболочки глаза, первоначальные результаты были разочаровывающими: равная частота ошибок (EER) составила целых 4,65%, что намного ниже ожиданий.
Команда быстро определила коренную причину: «Резиновый лист» «сплющивает» кольцевую радужную оболочку размером 64x512 пикселей в прямоугольник, который затем масштабируется до входных данных размером 224x224, требуемых ViT — вертикальное растяжение в 3,5 раза и горизонтальное сжатие в 2,3 раза. Естественная радиальная/окружная текстурная структура радужной оболочки была сильно искажена, что сделало невозможным для механизма внимания патчей ViT воспринимать семантику внутри.
Другими словами: мы подавали самой умной модели данные неправильным способом.
Решение кажется простым, но оно потребовало смелости нарушить условности — отказаться от «Резинового листа» и перейти к круговому кадрированию ROI (области интереса): с центром радужной оболочки в качестве начала координат, вырезать квадратную область (в 2,5 раза больше радиуса), чтобы сохранить естественную пространственную симметрию радужной оболочки, затем напрямую изменить ее размер до 224x224 и подать в ViT. Таким образом, каждый патч размером 16x16 может воспринимать подлинную, неискаженную текстуру радужной оболочки.
III. Ключевые метрики: EER = 0,29%, ROC AUC = 0,9999
Изменение этого единственного шага предварительной обработки привело к огромной разнице:
| Решение |
EER |
Примечания |
| Раунд 1: ViT + «Резиновый лист» |
4,65% |
Традиционный рабочий процесс |
| Раунд 2: CNN + «Резиновый лист» |
2,80% |
Замена базовой модели с ограниченным улучшением |
| Раунд 3: ViT + кадрирование ROI |
~0,12%* |
Критический прорыв |
| Финальная версия: ViT-S/16 + ROI + регуляризация |
0,29% |
Решение для производства |
*Результаты раунда 3 не подвергались строгой статистической проверке и содержат оптимистическую предвзятость.
В окончательной выпущенной системе используется ViT-S/16 (22,1 млн параметров) + угловая функция потерь ArcFace, обученная на комбинации 8 общедоступных наборов данных (всего 4480 личностей / 67 704 изображения). После строгой статистической проверки результаты следующие:
● EER = 0,29% (равная частота ошибок)
● 95% доверительный интервал: [0,21%, 0,40%] (200 раундов бутстрэп-ресемплинга)
● ROC AUC = 0,9999 (почти идеальный результат)
● Средняя схожесть подлинных пар: 0,8742 (высокая согласованность для одного и того же человека)
● Средняя схожесть поддельных пар: 0,0450 (полное разделение признаков для разных людей)
● При FRR=1%, FAR = 0,00% (нулевое ложное распознавание при высокобезопасных рабочих точках)
▲ Кривая ROC (AUC=0,9999) и распределение схожести подлинных/поддельных пар — два пика полностью разделены
IV. Обучающие данные: не просто большие, но и разнообразные
В этом исследовании были объединены 8 общедоступных наборов данных, включая два самых сложных сценария в отрасли:
Данные близнецов (CASIA-Iris-Twins)
Данные радужной оболочки глаза от 200 пар близнецов — даже при почти идентичных генах текстуры радужной оболочки совершенно разные. Это «окончательный тест» для проверки дискриминационной способности алгоритма.
Сценарии с видимым светом без ограничений (UBIRIS.v2)
518 личностей с более чем 11 000 изображений, снятых при естественном освещении с размытием движения, расфокусировкой и вариациями освещения — это набор данных, наиболее близкий к сценариям реального развертывания.
Обучение было завершено на Apple Silicon M2 Ultra (Mac Studio) примерно за 12,3 часа (90 эпох обучения) с пиковой задержкой инференса всего около 35 мс (включая кадрирование ROI и извлечение признаков).
V. Горизонтальное сравнение с ведущими отраслевыми работами
| Метод |
Базовая модель |
Предварительная обработка |
EER |
| IrisCode Даугмана |
Габор |
Резиновый лист |
~0,10% (контролируемая среда) |
| UniqueNet (2016) |
Сиамская CNN |
Резиновый лист |
0,18% |
| IrisFormer (2023) |
ViT-B/16 |
Резиновый лист |
0,22% |
| PolyIRIS (2021) |
Многомасштабная CNN |
Резиновый лист |
(один набор данных) |
| Homsh ViT+ArcFace (этот релиз) |
ViT-S/16 |
Кадрирование ROI |
0,29% (8 наборов данных) |
▲ От 4,65% до 0,29% EER: Путь технологической эволюции четырех раундов итераций
VI. Следующие шаги
1. Независимая оценка по наборам данных
Слепое тестирование на наборе данных IIT Delhi, не участвовавшем в обучении, для проверки способности к обобщению в реальном мире.
2. Интеграция обнаружения живости
Комбинирование отклика вспышки по нескольким кадрам или анализа текстуры для защиты от атак воспроизведения фотографий и создания полной системы защиты от подделок.
3. Распознавание радужной оболочки глаза на средних и дальних расстояниях
Введение данных для средних расстояний (3 м) для расширения на сценарии с большими расстояниями захвата — следующий «голубой океан» для коммерческой реализации.
4. Облегчение и развертывание на стороне периферии
Дистилляция модели ViT-S/16 до <5 млн параметров для адаптации к устройствам с ограниченными ресурсами на периферии (NPU/FPGA).
Заключение: Тридцатилетняя конвенция заслуживает пересмотра
«Резиновый лист» Даугмана был оптимальным решением своей эпохи. Но суть технологии в следующем: когда появляются лучшие инструменты, старая парадигма должна уступить дорогу.
Vision Transformer изменил базовую логику распознавания изображений. В ходе четырех раундов экспериментов и четырех месяцев исследований мы нашли правильный способ для ViT полностью раскрыть свой потенциал в распознавании радужной оболочки глаза — не заставлять ViT адаптироваться к старому рабочему процессу, а разработать новую парадигму предварительной обработки, специально предназначенную для ViT.
EER в 0,29% — это просто число, но также и заявление:
Распознавание радужной оболочки глаза вступило в эру Transformer, и Homsh находится на стартовой линии.
О Homsh
WuHan Homsh Technology Co., Ltd. (HOMSH), основанная в 2011 году, является одним из немногих высокотехнологичных предприятий в мире, обладающих независимыми правами интеллектуальной собственности на основные алгоритмы и чипы распознавания радужной оболочки глаза. Ее основной алгоритм Phaselirs™ и интеллектуальные чипы Qianxin Series FPGA/ASIC для распознавания радужной оболочки глаза широко используются в финансовом сборе, таможенном оформлении, выдаче государственных удостоверений, военной безопасности и других областях.