מה קורה כאשר מדענים נתונים crunch דרך שלוש מאות שנים של רובינסון קרוזו?

Anonim

מאז שספינתו של דניאל דפו "רובינסון קרוזו" פורסמה לראשונה לפני כמעט 300 שנה, פורסמו אלפי מהדורות וגירסאות, במאות שפות.

צוות מחקר בראשות גרנט גלאס, Ph.D. סטודנט באנגליה וספרות השוואתית באוניברסיטת צפון קרוליינה בצ'פל היל, רצה לדעת איך הסיפור השתנה בזמן שהוא עבר מהדורות שונות, חיקויים ותרגומים, ולראות אילו חלקים עמדו במבחן הזמן.

קריאה של כולם בקצב של אחד ליום ייקח שנים. במקום זאת, החוקרים מאמנים מחשבים לעשות זאת עבורם.

בקיץ האחרון, צוות 'Glass' בתכנית המחקר 'נתונים + קיץ' השתמש באלגוריתמים ממוחשבים ובטכניקות למידה של מכונות כדי לסנן 1, 482 גרסאות טקסט מלא של רובינסון קרוזו, שהורכבו מארכיונים מקוונים.

"הרבה פעמים אנחנו חושבים על ספר כמו אבן, " אמר גלאס. "אבל פרויקט כזה מראה לך שזה מבולגן, יש בזה הרבה שונות".

"כשאתה לוקח ספר חשוב לדעת מה זה עותק, כי זה יכול להשפיע על הדרך שבה אתה חושב על הסיפור", אמר גלאס.

רק קבלת הטקסטים לצורה שהמחשב יכול לעבד הוכיחה כמחצית מהמאבק, אמר חבר הצוות לתואר ראשון, אורג'יל בטאיה, דוקטור כפול כפול במתמטיקה ומדעי המחשב.

הספרים כבר סרקו ופורסמו באינטרנט, כך שהתלמידים השתמשו בתוכנה כדי להוריד את הסריקות מהאינטרנט, באמצעות תהליך הנקרא "גירוד". אבל עיבוד הדפים הסרוקים של ספרים מודפסים ישנים, שחלקם היו כתמים, כתמים או סוג שחוק, והפיכתם לפורמט הניתן לקריאה על ידי מכונה, היו מסובכים יותר מכפי שחשבו.

התוכנה נאבקה לפענח את האיות המוזר ("להעלות", "להשתוקק", "שכנוע", "חוף" מול "שחור"), צורות שונות בין המהדורות, והמוזרויות האחרות.

תווים מיוחדים ייחודיים לגופני המאה ה -18, כגון הגרסה המעניינת בצורת האות F של האות "s", הופכים את בני האדם ל"דיפנטיים "ו"פשוטים" עם שפתיים נפשית.

הניסיונות הראשונים שלהם הגיעו עם gobbledygook. "זיהוי אופי אופטי שנוצר היה בלתי שמיש לחלוטין, " אמר חבר צוות הדוכס הבכיר גבריאל Guedes.

בפגישת נתונים + פוסטר באוגוסט, Guedes, Batzaya והיסטוריה ומדעי המחשב הכפולים של Lucian Li הציגו את התוצאות הראשוניות שלהם: אוסף של מגרשים מפוזרים צבעוניים, מפות, תרשימי זרימה וגרפים קוים.

Guedes הצביע על אשכולות של נקודות על גרף הרשת. "הנה, המהדורות האדומות הן אמריקאיות, המהדורות הכחולות הן מבריטניה", אמר גוידס. "גרף הרשת מזהה את הדמיון בין כל המהדורות האלה וגושי אותם יחד".

לאחר שהפכו את הדפים הסרוקים לטקסטים קריאים למכונה, הצוות האכיל אותם באלגוריתם הלמידה של מכונה שמודד את הדמיון בין מסמכים.

האלגוריתם לוקח קטעים של טקסטים - משפטים, פסקאות, אפילו רומנים שלמים - וממיר אותם לקטורים ממדיים.

יצירת הייצוג המספרי הזה של כל ספר, אמר גוודס, אפשרה לבצע פעולות מתמטיות עליהם. הם הוסיפו את הווקטורים לכל ספר כדי למצוא את הסכום שלהם, חישבו את הממוצע, והביטו לראות איזו מהדורה היתה הקרובה ביותר למהדורה "הממוצעת". זה התברר להיות גרסה של רובינסון קרוזו שפורסם ב Glasgow בשנת 1875.

הם גם ניתחו את החשיבות של נקודות עלילה ספציפיות בקביעת קרבת מהדורה מסוימת למהדורה "הממוצעת": מה לגבי הרגע שבו קרוזו מזהה טביעת רגל בחול ומבין שהוא לא לבד? או מתי קרוזו ויום שישי, אחרי שעזבו את האי, נלחמו בזאבים רעבים בפירנאים?

התוצאות של הקבוצה עשויות להיות צורמות לאלה שאינם רגילים לראות 300 שנים של פרסום מופחת לתרשים בר. אבל באמצעות מחשבים כדי להשוות אלפי ספרים בכל פעם, "מדעי הרוח הדיגיטלית" חוקרים אומרים כי ניתן לעקוב אחר דפוסי בקנה מידה גדול ומגמות כי בני אדם משעמם על ספרים בודדים לא יכול.

"זה באמת משהו שרק מחשב יכול לעשות", אמר גוידס, והצביע על מפת זמן של זמן המראה כיצד הסיפור של קרוזו מתפשט ברחבי העולם, שנבנה מתוך נתונים על המקום ועל תאריך הפרסום עבור 15, 000 מהדורות.

"זה סוג של" קריאה מרחוק ", אמר Guedes. "אתה משתמש זה כמות מסיבית של מידע כדי לסייע להסיק מסקנות על פרסום ההיסטוריה, את התנועה של רעיונות, ואת הידע באופן כללי לאורך זמן."

menu
menu