ผลงานวิเศษของ Homsh: ViT+ArcFace
ความแม่นยําในการจําหน่ายสายจรดสายตาถึงระดับสูงสุดของโลก
ด้วยอัตราความผิดพลาดเท่ากัน (EER) เพียง 0.29% และ ROC AUC ใกล้กับขีดจํากัดทางทฤษฎี
เราได้กําหนดใหม่ขอบเขตของการจดจําสายตาด้วย Vision Transformer
▲ Vision Transformer กําหนดใหม่รูปแบบพื้นฐานของการสกัดลอกลักษณะของสายจมูก
ครั้งนี้ มันไม่ใช่แค่ความก้าวหน้า มันคือการเปลี่ยนแปลงแนวทาง
ถ้าคุณถามวิศวกรที่ทํางานด้านการจําหน่ายสายจร้ามาสองสิบปีว่า "ปัญหาที่ยากที่สุดที่คุณเคยแก้อะไร?"
เขาอาจจะหยุดพักสักครู่ แล้วพูดว่า "แผ่นยาง"
ตั้งแต่จอห์น ดาวก์แมนเสนออัลการิทึมไอริสโค้ดในปี 1993 กระบวนการ "การถอดแผ่นยาง" เป็นเหมือนคําคาถาที่ถูกเขียนไว้ในดีเอ็นเอ ของระบบการจําหน่ายไอริสทั่วโลกเปิดวงจรวงจรเป็นรูปทรงสี่เหลี่ยม, จากนั้นการสกัดเนื้อเยื่อโดยใช้กรอง Gabor... กระบวนการทํางานนี้ได้รับการใช้สําหรับสามสิบปี, และไม่มีใครสงสัยมัน.
จนกระทั่งเราตัดสินใจโยนมันไป
II. เหตุ ใด กระดาษ ยาง จึง หยุด ทํา งาน?
Vision Transformer (ViT) เป็นหนึ่งในความก้าวหน้าทางเทคโนโลยีที่น่าประทับใจที่สุดในด้านการเรียนรู้ลึกในช่วงสามปีที่ผ่านมา มันตัดภาพเป็นจํานวน 16 × 16 "พาร์ทช์"ใช้กลไกการสังเกตตนเองของรูปแบบภาษา เพื่อเข้าใจโครงสร้างภาพทั่วไป, และมีผลงานดีกว่าเครือข่ายประสาทแบบคลุม (CNN) ที่มีอํานาจเป็นเวลาหลายปีในหลายๆภารกิจทางสายตาระดับสูง
เมื่อเราลองใช้ ViT ในการจําหน่ายสายจร้าครั้งแรก ผลการเริ่มต้นผิดหวัง: อัตราความผิดพลาดเท่ากัน (Equal Error Rate EER) เป็นสูงถึง 4.65%, ต่ํากว่าคาดการณ์มาก
ทีมงานได้ระบุสาเหตุอย่างรวดเร็ว: แผ่นยางจะ "ผ่อนคลาย" อีริสวงกลม 64 × 512 พิกเซลเป็นรูปสี่เหลี่ยม ซึ่งจะปรับขนาดเป็น 224 × 224 หน่วยข้อมูลที่ต้องการโดย ViT ‡ a 3.5x ความยืดตั้งและ 2.3x การบดแน่นแนวราบ โครงสร้างเนื้อเยื่อ radial / circumferential ที่ธรรมชาติของสายจรดตาถูกบิดเบือนอย่างหนักทําให้มันเป็นไปไม่ได้สําหรับกลไกความสนใจพาร์ทช์ของ ViT ที่จะรับรู้ความหมายภายใน.
หมายความว่า เรากําลังให้อาหารกับรุ่นที่ฉลาดที่สุดในทางที่ผิด
คําตอบฟังดูง่าย แต่มันต้องมีความกล้าที่จะทําลายประเพณี ละทิ้งแผ่นยาง และเปลี่ยนไปใช้ ROI การปลูกวงกลมปลูกพื้นที่ตารางวา (2.5x แพร่รัศมี) เพื่ออนุรักษ์ความสมดุลทางพื้นที่ธรรมชาติของสายจร แล้วปรับขนาดเป็น 224 × 224 และใส่มันเข้าไปใน ViT โดยวิธีนี้ทุก 16 × 16 แพทช์สามารถรับรู้เนื้อเยื่อของจิ้มจิ้มที่ไม่บิดเบือน.
คีย์เมทริกส์: EER = 0.29%, ROC AUC = 09999
การเปลี่ยนแปลงขั้นตอนการประมวลผลก่อนนี้ ทําให้เกิดความแตกต่างอย่างมาก
| การแก้ไข |
EER |
ความเห็น |
| รอบที่ 1: ViT + ใบยาง |
4.65% |
กระบวนการทํางานแบบดั้งเดิม |
| รอบที่ 2: ซีเอ็นเอ็น + ใบยาง |
2. 80% |
การเปลี่ยนกระดูกสันหลังที่มีการปรับปรุงที่จํากัด |
| รอบที่ 3: ViT + ROI การตัด |
~0.12%* |
ความก้าวหน้าที่สําคัญ |
| รูปแบบสุดท้าย: ViT-S/16 + ROI + การปกติ |
0.29% |
สูตรแก้ไขประเภทการผลิต |
*ผลการทดสอบรอบที่ 3 ไม่ต้องผ่านการตรวจสอบทางสถิติอย่างเข้มข้น และมีอารมณ์ค่อนข้างค่อนข้างดี
ระบบสุดท้ายที่ปล่อยใช้ ViT-S/16 (พารามิเตอร์ 22.1M) + ArcFace เสียขอบมุม, ฝึกบนการผสมผสานของ 8 เซตข้อมูลสาธารณะ (ทั้งหมด 4,480 ตัวตน / 67,704 ภาพ).หลังจากการตรวจสอบทางสถิติอย่างเข้มงวดผลคือ:
●EER = 0.29% (อัตราความผิดพลาดเท่ากัน)
● ระยะความมั่นใจ 95%: [0.21%, 0.40%] (200 รอบการทดสอบ Bootstrap)
● ROC AUC = 0.9999 (คะแนนเกือบสมบูรณ์แบบ)
● ค่า ค่า ค่า ค่า ค่า ค่า ค่า ค่า ค่า ค่า ค่า ค่า ค่า ค่า ค่า
● ความ เหมือน ระหว่าง คู่ ของ คน ปลอม ตัว: 0.0450 (การ แยก ลักษณะ อย่าง เต็ม ที่ สําหรับ คน ต่าง ๆ)
● เมื่อ FRR = 1% FAR = 0.00% (ไม่มีการจําปลอมที่จุดการทํางานที่มีความปลอดภัยสูง)
▲เส้นโค้ง ROC (AUC=0.9999) และการกระจายคะแนนแท้/ปลอม
IV. ข้อมูลการฝึกอบรม: ไม่เพียงแค่ใหญ่ แต่หลากหลาย
การศึกษานี้รวม 8 ชุดข้อมูลสาธารณะ รวมถึงสองฉากที่ท้าทายที่สุดในอุตสาหกรรม:
ข้อมูลแฝด (CASIA-Iris-Twins)
ข้อมูลไอริสจากแฝดแฝด 200 คู่ แม้จะมียีนที่เกือบเหมือนกัน แต่เนื้อเยื่อของไอริสจะแตกต่างกันอย่างสิ้นเชิง นี่คือ "การทดสอบสุดท้าย" เพื่อตรวจสอบพลังการแยกแยกของอัลการิทึม
สถานการณ์ที่แสงมองเห็นไม่จํากัด (UBIRIS.v2)
ตัวตน 518 ภาพที่มีมากกว่า 11,000 ภาพ ถ่ายโดยแสงธรรมชาติและความแตกต่างของการส่องแสง.
การฝึกอบรมได้รับการเสร็จสิ้นบน Apple Silicon M2 Ultra (Mac Studio) ในเวลาประมาณ 12.3 ชั่วโมง (90 ระยะการฝึกอบรม)ด้วยความช้าในการสรุปสูงสุดเพียง ~ 35ms (รวมการตัด ROI และการสกัดลักษณะ).
V. การเปรียบเทียบแนวราบกับงานชั้นนําในอุตสาหกรรม
| วิธีการ |
กระดูกสันหลัง |
การแปรรูปก่อน |
EER |
| ดาวแมน ไอริสโค้ด |
กาบอร์ |
ใบยาง |
~0.10% (สภาพแวดล้อมที่ควบคุม) |
| UniqueNet (2016) |
ซีเอ็มเอสซีเอ็น |
ใบยาง |
0.18% |
| อิริสฟอร์เมอร์ (2023) |
ViT-B/16 |
ใบยาง |
0.22% |
| PolyIRIS (2021) |
ซีเอ็นเอ็นหลายขนาด |
ใบยาง |
(ข้อมูลเดียว) |
| Homsh ViT+ArcFace (ฉบับนี้) |
ViT-S/16 |
ROI การปลูก |
0.29% (8 ชุดข้อมูล) |
▲ จาก 4.65% เป็น 0.29% EER: เส้นทางการพัฒนาทางเทคโนโลยีของสี่รอบของการทบทวน
VI ขั้นตอนต่อไป
1การประเมินอิสระ
การทดสอบแบบตาบอดบนชุดข้อมูลของ IIT เดลลี่ ไม่เกี่ยวข้องกับการฝึกอบรมเพื่อตรวจสอบความสามารถในการสรุปทั่วไปในโลกจริง
2การบูรณาการตรวจจับความมีชีวิต
รวมผลตอบสนองไฟฟ้าหลายกรอบ หรือการวิเคราะห์เนื้อเยื่อ เพื่อป้องกันการโจมตีการเล่นภาพ และสร้างระบบป้องกันการปลอมแปลงที่สมบูรณ์แบบ
3การจําหน่ายสายจมูกสายจมูกระยะกลางและระยะไกล
การนําข้อมูลระยะกลาง (3m) มาใช้ในกรณีที่มีระยะทางในการจับที่ใหญ่กว่า
4.Lightweighting และการใช้งานด้านขอบ
การปรับปรุงแบบ ViT-S/16 ให้มีปริมาตร < 5M เพื่อปรับปรุงกับอุปกรณ์ขอบที่จํากัดทรัพยากร (NPU/FPGA)
สรุป: การ ประชุม ประจํา 30 ปี ควร พิจารณา อีก ครั้ง
แผ่นยางของดาวก์แมน เป็นทางออกที่ดีที่สุดในยุคนั้น แต่มูลนิธิของเทคโนโลยีก็คือ เมื่อมีเครื่องมือที่ดีขึ้น
Vision Transformer ได้เปลี่ยนล็อกจิกที่อยู่เบื้องหลังของการจําภาพเราค้นพบวิธีที่ถูกต้องสําหรับ ViT ที่จะปลดปล่อยศักยภาพของมันในการจําแนกจิ้มสายตาแต่การออกแบบแบบจําลองการประมวลผลก่อนใหม่ที่ปรับปรุงให้กับ ViT
EER 0.29% เป็นแค่ตัวเลข แต่ยังเป็นประกาศด้วย
การจดจําสายจร้าได้เข้าสู่ยุคของทรานฟอร์เมอร์ และฮอมช์ก็อยู่ที่จุดเริ่มต้น
เกี่ยวกับ Homsh
บริษัท วูฮาน โฮมช์ เทคโนโลยี จํากัด (HOMSH) ก่อตั้งเมื่อปี 2011เป็นหนึ่งในบริษัทเทคโนโลยีสูงเพียงไม่กี่แห่งในโลก ที่ถือสิทธิทรัพย์สินทางปัญญาที่อิสระ สําหรับอัลการิธและชิปการจดจําสายจมูกอัลกอริทึมหลักของ PhaselirsTM และชิปฉลาด FPGA / ASIC ซีรี่ย์ Qianxin สําหรับการจําแนกสายจมูกตาถูกใช้อย่างแพร่หลายในการเก็บเงิน การชําระสินค้า การออกใบรับรองภาษีความมั่นคงทางทหาร และสาขาอื่นๆ.