logo
Отправить сообщение
Wuhan Homsh Technology Co.,Ltd.
продукты
Новости
Дом > Новости >
Новости компании около Прорыв Homsh: ViT+ArcFace достигает 0,29% EER в распознавании радужной оболочки
События
Контакты
Контакты: Mr. Kelvin Yi
Контакт теперь
Перешлите нас

Прорыв Homsh: ViT+ArcFace достигает 0,29% EER в распознавании радужной оболочки

2026-04-01
Latest company news about Прорыв Homsh: ViT+ArcFace достигает 0,29% EER в распознавании радужной оболочки

      Революционный прорыв Homsh: ViT+ArcFace

      Точность распознавания радужной оболочки глаза достигла мирового уровня
      При равной частоте ошибок (EER) всего 0,29% и ROC AUC, приближающемся к теоретическому пределу —
      Мы переопределили границы распознавания радужной оболочки глаза с помощью Vision Transformer
последние новости компании о Прорыв Homsh: ViT+ArcFace достигает 0,29% EER в распознавании радужной оболочки  0
▲ Vision Transformer переопределяет базовую парадигму извлечения признаков радужной оболочки глаза

I. На этот раз это не просто прогресс — это смена парадигмы

      Если вы спросите инженера, который занимается распознаванием радужной оболочки глаза два десятилетия: «Какая самая сложная проблема, с которой вы когда-либо сталкивались?»
      Он, вероятно, сделает паузу, а затем скажет: «Резиновый лист».
      С тех пор как Джон Даугман предложил алгоритм IrisCode в 1993 году, процесс «развертывания резинового листа» стал своего рода заклинанием, вписанным в ДНК систем распознавания радужной оболочки глаза по всему миру. Развертывание круглой радужной оболочки в прямоугольное изображение, затем извлечение текстур с помощью фильтров Габора... этот рабочий процесс использовался три десятилетия, и никто не ставил его под сомнение.
      Пока мы не решили от него отказаться.

II. Почему «Резиновый лист» перестал работать?

      Vision Transformer (сокращенно ViT) — один из самых ярких технологических прорывов в области глубокого обучения за последние три года. Он разбивает изображение на множество «патчей» размером 16x16, использует механизм самовнимания языковых моделей для понимания глобальной структуры изображения и превосходит сверточные нейронные сети (CNN), которые доминировали годами, во многих первоклассных визуальных задачах.
      Когда мы впервые попытались применить ViT к распознаванию радужной оболочки глаза, первоначальные результаты были разочаровывающими: равная частота ошибок (EER) составила целых 4,65%, что намного ниже ожиданий.
      Команда быстро определила коренную причину: «Резиновый лист» «сплющивает» кольцевую радужную оболочку размером 64x512 пикселей в прямоугольник, который затем масштабируется до входных данных размером 224x224, требуемых ViT — вертикальное растяжение в 3,5 раза и горизонтальное сжатие в 2,3 раза. Естественная радиальная/окружная текстурная структура радужной оболочки была сильно искажена, что сделало невозможным для механизма внимания патчей ViT воспринимать семантику внутри.
      Другими словами: мы подавали самой умной модели данные неправильным способом.
      Решение кажется простым, но оно потребовало смелости нарушить условности — отказаться от «Резинового листа» и перейти к круговому кадрированию ROI (области интереса): с центром радужной оболочки в качестве начала координат, вырезать квадратную область (в 2,5 раза больше радиуса), чтобы сохранить естественную пространственную симметрию радужной оболочки, затем напрямую изменить ее размер до 224x224 и подать в ViT. Таким образом, каждый патч размером 16x16 может воспринимать подлинную, неискаженную текстуру радужной оболочки.

III. Ключевые метрики: EER = 0,29%, ROC AUC = 0,9999

Изменение этого единственного шага предварительной обработки привело к огромной разнице:
Решение EER Примечания
Раунд 1: ViT + «Резиновый лист» 4,65% Традиционный рабочий процесс
Раунд 2: CNN + «Резиновый лист» 2,80% Замена базовой модели с ограниченным улучшением
Раунд 3: ViT + кадрирование ROI ~0,12%* Критический прорыв
Финальная версия: ViT-S/16 + ROI + регуляризация 0,29% Решение для производства

*Результаты раунда 3 не подвергались строгой статистической проверке и содержат оптимистическую предвзятость.

      В окончательной выпущенной системе используется ViT-S/16 (22,1 млн параметров) + угловая функция потерь ArcFace, обученная на комбинации 8 общедоступных наборов данных (всего 4480 личностей / 67 704 изображения). После строгой статистической проверки результаты следующие:

      EER = 0,29% (равная частота ошибок)

      ● 95% доверительный интервал: [0,21%, 0,40%] (200 раундов бутстрэп-ресемплинга)

      ● ROC AUC = 0,9999 (почти идеальный результат)

      ● Средняя схожесть подлинных пар: 0,8742 (высокая согласованность для одного и того же человека)

      ● Средняя схожесть поддельных пар: 0,0450 (полное разделение признаков для разных людей)

      ● При FRR=1%, FAR = 0,00% (нулевое ложное распознавание при высокобезопасных рабочих точках)

последние новости компании о Прорыв Homsh: ViT+ArcFace достигает 0,29% EER в распознавании радужной оболочки  1
▲ Кривая ROC (AUC=0,9999) и распределение схожести подлинных/поддельных пар — два пика полностью разделены

IV. Обучающие данные: не просто большие, но и разнообразные

В этом исследовании были объединены 8 общедоступных наборов данных, включая два самых сложных сценария в отрасли:

Данные близнецов (CASIA-Iris-Twins)

      Данные радужной оболочки глаза от 200 пар близнецов — даже при почти идентичных генах текстуры радужной оболочки совершенно разные. Это «окончательный тест» для проверки дискриминационной способности алгоритма.

Сценарии с видимым светом без ограничений (UBIRIS.v2)

      518 личностей с более чем 11 000 изображений, снятых при естественном освещении с размытием движения, расфокусировкой и вариациями освещения — это набор данных, наиболее близкий к сценариям реального развертывания.
      Обучение было завершено на Apple Silicon M2 Ultra (Mac Studio) примерно за 12,3 часа (90 эпох обучения) с пиковой задержкой инференса всего около 35 мс (включая кадрирование ROI и извлечение признаков).

V. Горизонтальное сравнение с ведущими отраслевыми работами

Метод Базовая модель Предварительная обработка EER
IrisCode Даугмана Габор Резиновый лист ~0,10% (контролируемая среда)
UniqueNet (2016) Сиамская CNN Резиновый лист 0,18%
IrisFormer (2023) ViT-B/16 Резиновый лист 0,22%
PolyIRIS (2021) Многомасштабная CNN Резиновый лист (один набор данных)
Homsh ViT+ArcFace (этот релиз) ViT-S/16 Кадрирование ROI 0,29% (8 наборов данных)

последние новости компании о Прорыв Homsh: ViT+ArcFace достигает 0,29% EER в распознавании радужной оболочки  2
▲ От 4,65% до 0,29% EER: Путь технологической эволюции четырех раундов итераций

VI. Следующие шаги

1. Независимая оценка по наборам данных
      Слепое тестирование на наборе данных IIT Delhi, не участвовавшем в обучении, для проверки способности к обобщению в реальном мире.
2. Интеграция обнаружения живости
      Комбинирование отклика вспышки по нескольким кадрам или анализа текстуры для защиты от атак воспроизведения фотографий и создания полной системы защиты от подделок.
3. Распознавание радужной оболочки глаза на средних и дальних расстояниях
      Введение данных для средних расстояний (3 м) для расширения на сценарии с большими расстояниями захвата — следующий «голубой океан» для коммерческой реализации.
4. Облегчение и развертывание на стороне периферии
      Дистилляция модели ViT-S/16 до <5 млн параметров для адаптации к устройствам с ограниченными ресурсами на периферии (NPU/FPGA).

Заключение: Тридцатилетняя конвенция заслуживает пересмотра

      «Резиновый лист» Даугмана был оптимальным решением своей эпохи. Но суть технологии в следующем: когда появляются лучшие инструменты, старая парадигма должна уступить дорогу.
      Vision Transformer изменил базовую логику распознавания изображений. В ходе четырех раундов экспериментов и четырех месяцев исследований мы нашли правильный способ для ViT полностью раскрыть свой потенциал в распознавании радужной оболочки глаза — не заставлять ViT адаптироваться к старому рабочему процессу, а разработать новую парадигму предварительной обработки, специально предназначенную для ViT.
      EER в 0,29% — это просто число, но также и заявление:
      Распознавание радужной оболочки глаза вступило в эру Transformer, и Homsh находится на стартовой линии.

О Homsh

      WuHan Homsh Technology Co., Ltd. (HOMSH), основанная в 2011 году, является одним из немногих высокотехнологичных предприятий в мире, обладающих независимыми правами интеллектуальной собственности на основные алгоритмы и чипы распознавания радужной оболочки глаза. Ее основной алгоритм Phaselirs™ и интеллектуальные чипы Qianxin Series FPGA/ASIC для распознавания радужной оболочки глаза широко используются в финансовом сборе, таможенном оформлении, выдаче государственных удостоверений, военной безопасности и других областях.