שימוש בטכניקות למידה עמוקה לאיתור פעילויות אנושיות פוטנציאליות בסרטונים

Anonim

כאשר שוטר מתחיל להרים יד בתנועה, הנהגים האנושיים מבינים שהקצין עומד לסמן להם לעצור. אבל המחשבים מוצאים את זה קשה יותר כדי לפענח את הפעולות הבאות סביר של אנשים על בסיס ההתנהגות הנוכחית שלהם. עכשיו, צוות של חוקרים * סטאר ועמיתיו פיתחה גלאי שיכול בהצלחה לבחור היכן פעולות האדם יתרחש קטעי וידאו, כמעט בזמן אמת.

טכנולוגיית ניתוח התמונות צריכה להיות טובה יותר בהבנת הכוונות האנושיות, אם היא צריכה להיות מועסקת במגוון רחב של יישומים, אומר Hongyuan Zhu, מדען מחשבים במכון לחקר האינפוקום של A * STAR, שהוביל את המחקר. מכוניות ללא נהלים חייבים להיות מסוגלים לזהות שוטרים ולפרש את מעשיהם במהירות ובדייקנות, לנהיגה בטוחה, הוא מסביר. מערכות אוטונומיות יכול גם להיות מאומן לזהות פעילויות חשודות כגון לחימה, גניבה, או להפיל פריטים מסוכנים, וקציני אבטחה התראה.

מחשבים כבר טובים מאוד באיתור עצמים בתמונות סטטיות, הודות לטכניקות למידה עמוקות, המשתמשות ברשתות עצביות מלאכותיות כדי לעבד מידע על תמונות מורכבות. אבל קטעי וידאו עם אובייקטים נעים יותר מאתגר. "הבנת הפעולות האנושיות בסרטונים היא צעד הכרחי לבניית מכונות חכמות וידידותיות יותר", אומר ג'ו.

שיטות קודמות לאיתור פעולות אנושיות אפשריות בסרטונים לא השתמשו במסגרות למידה עמוקות, והן היו איטיות ונוטות לשגיאה, אומר ג'ו. כדי להתגבר על כך, גלאי ה- YouTube של הקבוצה משלב שני סוגים של רשתות עצביות במקביל: רשת עצבית סטטית, שכבר הוכיחה שהיא מדויקת בעיבוד תמונות סטילס, ורשת עצבית חוזרת, המשמשת בדרך כלל לעיבוד נתונים משתנים, לצורך זיהוי דיבור. "השיטה שלנו היא הראשונה להביא איתור ומעקב יחד בצינור למידה עמוק אחד", אומר ג'ו.

הצוות בדק את YouTube על יותר מ -3, 000 סרטונים בהם נעשה שימוש שגרתי בניסויי ראיית מחשב. הם דיווחו כי ביצועים גבוהים יותר של גלאי המדינה- of-the-art ב נכון בוחרים את הפעולות האנושיות הפוטנציאליות על ידי כ 20 אחוזים עבור קטעי וידאו מראה פעילויות היומיום היומי סביב 6 אחוזים עבור קטעי וידאו ספורט. גלאי מדי פעם עושה טעויות אם האנשים בסרטון הם קטנים, או אם יש אנשים רבים ברקע. עם זאת, אומר ג'ו, "הוכחנו כי אנו יכולים לזהות את רוב אזורי הפעולה האנושית באופן כמעט בזמן אמת."

menu
menu