זיהוי סרטוני וידאו "מעמיקים" כהרף עין

Anonim

צורה חדשה של מידע מוטעה עומד להתפשט דרך קהילות מקוונות כמו 2018 אמצע הקדמה הבחירות בחום להתחמם. נקרא "מעמקים" אחרי חשבון מקוון pseudonymous כי popularized הטכניקה - אשר אולי בחרו את שמו כי התהליך משתמש בשיטה טכנית בשם "למידה עמוקה" - קטעי וידאו מזויפים אלה נראים מציאותיים מאוד.

עד כה, אנשים השתמשו קטעי וידאו עמוקים פורנוגרפיה סאטירה כדי לגרום לזה להופיע כי אנשים מפורסמים עושים דברים שהם לא היו בדרך כלל. אבל זה כמעט בטוח לעומק יופיעו במהלך עונת הקמפיין, מתיימר להציג מועמדים אומרים דברים או הולך למקומות המועמד האמיתי לא.

בגלל טכניקות אלה הם כל כך חדש, אנשים מתקשים לספר את ההבדל בין קטעי וידאו אמיתיים ואת קטעי וידאו לעומק. עבודתי, עם חברי מינג-צ'ינג צ'אנג ודוקטורט שלנו סטודנט Yuezun Li, מצא דרך אמין לספר קטעי וידאו אמיתיים מתוך קטעי וידאו לעומק. זה לא פתרון קבע, כי הטכנולוגיה תשתפר. אבל זה התחלה, ומציע תקווה כי המחשבים יוכלו לעזור לאנשים לספר את האמת מתוך בדיוני.

מה זה'עמוק' בכלל?

הפיכת סרטון לעומק הוא הרבה יותר כמו תרגום בין שפות. שירותים כגון Google Translate משתמשים בלמידה ממוחשבת - ניתוח מחשב של עשרות אלפי טקסטים בשפות מרובות - כדי לזהות דפוסים לשימוש במילה שבה הם משתמשים כדי ליצור את התרגום.

אלגוריתמים מעמיקים פועלים באותה דרך: הם משתמשים בסוג של מערכת למידה של מכונה הנקראת רשת עצבית עמוקה כדי לבחון את תנועות הפנים של אדם אחד. לאחר מכן הם מסנתזים תמונות של פרצוף של אדם אחר המקביל תנועות אנלוגיות. פעולה זו יוצרת באופן אפקטיבי סרטון של אדם היעד המופיע לעשות או לומר את הדברים שאדם המקור עשה.

לפני שהם יכולים לעבוד כמו שצריך, רשתות עצביות עמוק צריך הרבה מידע המקור, כגון תמונות של אנשים להיות המקור או יעד של התחזות. ככל שיותר תמונות המשמשות להכשרת אלגוריתם לעומק, כך התחזות הדיגיטלית תהיה מציאותית יותר.

זיהוי מהבהב

ישנם עדיין פגמים בסוג חדש זה של אלגוריתם. אחת מהן קשורה לאופן שבו הפנים המדומות מהבהבות - או לא. בני אדם בריאים בריאים מהבהבים אי-שם בין כל 2 ל -10 שניות, ומצמוץ אחד לוקח בין עשירית לארבע עשיריות של שנייה. זה מה יהיה נורמלי לראות בסרטון של אדם מדבר. אבל זה לא מה שקורה קטעי וידאו רבים.

כאשר אלגוריתם Deepfake מאומן על תמונות פנים של אדם, זה תלוי בתמונות הזמינים באינטרנט, כי ניתן להשתמש בנתונים אימון. גם עבור אנשים שצולמו לעתים קרובות, תמונות מעטות זמינות באינטרנט מראה את עיניהם עצומות. לא רק תמונות כאלה נדירות - כי העיניים של האנשים פתוחות רוב הזמן - אבל צלמים לא בדרך כלל לפרסם תמונות שבהן העיניים של הנושאים העיקריים סגורים.

ללא הכשרה של תמונות של אנשים מהבהבים, אלגוריתמים עמוקים פחות נוטים ליצור פרצופים מהבהבים בדרך כלל. כאשר אנו מחשבים את השיעור הכולל של מהבהב, ומשווה את זה עם טווח טבעי, מצאנו כי תווים קטעי וידאו עמוק להבהב הרבה פחות תכופות בהשוואה לאנשים אמיתיים. המחקר שלנו משתמש בלמידה של מכונה כדי לבחון את פתיחת העין וסגירתם בסרטונים.

זה נותן לנו השראה כדי לזהות קטעי וידאו לעומק. לאחר מכן, אנו מפתחים שיטה לזיהוי כאשר האדם בווידיאו מהבהב. כדי להיות יותר ספציפי, הוא סורק כל מסגרת של וידאו המדובר, מזהה את הפנים בו ואז מאתר את העיניים באופן אוטומטי. לאחר מכן הוא מנצל רשת עצבית עמוקה נוספת כדי לקבוע אם העין מזוהה פתוח או סגור, באמצעות המראה 'העין, תכונות גיאומטריות ותנועה.

אנו יודעים כי העבודה שלנו היא ניצול של פגם בסוג של נתונים זמינים להכשיר אלגוריתמים לעומק. כדי למנוע נפילה טרף לליקוי דומה, יש לנו הכשרה המערכת שלנו על ספריה גדולה של תמונות של עיניים פתוחות וסגורות. שיטה זו נראה לעבוד טוב, וכתוצאה מכך, השגנו מעל 95 אחוז שיעור האיתור.

זו לא המילה האחרונה על גילוי מעמקים, כמובן. הטכנולוגיה משתפרת במהירות, והמתחרים בין הפקת קטעי וידאו מזויפים וגילוים מקבילים למשחק שחמט. בפרט, מהבהב ניתן להוסיף קטעי וידאו עמוק על ידי כולל תמונות פנים עם עיניים עצומות או באמצעות רצפים וידאו לאימון. אנשים שרוצים לבלבל את הציבור ישתפר בהפיכת סרטונים מזויפים - ואנחנו ואחרים בקהילת הטכנולוגיה נצטרך להמשיך ולמצוא דרכים לזהות אותם.

menu
menu