Tez Arşivi

Hakkımızda

Tez aramanızı kolaylaştıracak arama motoru. Yazar, danışman, başlık ve özete göre tezleri arayabilirsiniz.


İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Anabilim Dalı

Alignment of eye tracker and camera data by using different methods in human computer interaction experiments

İnsan bilgisayar etkileşim deneylerinde göz izleme cihazı ve kamera verisinin farklı yöntemler ile hizalanması

Teze Git (tez.yok.gov.tr)

Bu tezin tam metni bu sitede bulunmamaktadır. Teze erişmek için tıklayın. Eğer tez bulunamazsa, YÖK Tez Merkezi tarama bölümünde 467231 tez numarasıyla arayabilirsiniz.

Özet:

The emergence of human-computer interaction (HCI) introduced new interaction or "dialogue" techniques between human and computers which use input and output devices. The improvement of an effective interaction between users and computers can be considered as the main goal of HCI. This dynamic progress significantly increased productivity, reduced time and frustration spent on user training, scientific experiments or technical research and extended the application areas, both in industry, medicine and academia. Eye movement-based human-computer interaction is widely used in usability studies, medical diagnostics, psychological research and in interactive, gaze-controlled applications via several eye tracking devices. Nowadays, eye trackers have become very popular devices used to analyze people's behaviour and illnesses.These devices are worn as eyeglasses and record all places to a video where a man takes a look. Generally, viewpoints are divided into 3 groups: saccadic, blinks and fixations. The eye movements in which views focus and remain same are called fixations. In general, people usually concentrate on things that attract their attention. By this way, they collect much information about things which they are interested in. Saccades are eye movements between 2 fixations. Eye trackers can easily define and record pupil diameters, gaze coordinates, fixations, saccades. Fixations usually proceed between 200 and 600 ms whereas saccades take about 30-120 milliseconds. Eye tracking technology allows to analyze gaze behaviour and have a deeper insight into several cognitive processes occurred in brain. The idea that eye tracking devices do not demand any additional physical action plays as a key factor in the usage. The video-based eye tracker is a wearable and mobile device and allows to make an experiment even when the user is on foot. The camera records whatever and wherever participant takes a look. The launch of the experiment requires a three point calibration of the eye tracker. The calibration points allow to calculate any other point on-screen via interpolation of the data. The experiment supervisor asks the participant to take a look at left, right and bottom sides of the computer display. After the completion of the eye tracker calibration, it can be considered that the actual part of the experiment has been started. The participant watches these videos while the eye tracker and webcam records the eye measurements and participant's face expressions respectively. The videos can be categorized into three types: entertaining, normal, boring. The participant watches three videos. The major part of videos consists of dialogues between two actors. The purpose of these videos is to test where exactly the participant pays attention much more on the video screen and to compare the results. The start times of videos recorded by web camera and an eye tracking device may be different. Or participants may wear eye trackers earlier or take off late. In addition, there may be differences in seconds between system time of these devices. Because of these factors, time duration of eye tracker and webcam videos may vary by each other. The fact that eye trackers record both visual and audio part of experiment is an advantage. As both devices record same experiment and contain similar audios, it is possible to synchronize them. When it is necessary to identify the actions of the participant during the experiment it is necessary to align the web camera and eye tracker camera data. Most studies require comparison of behaviour of different people during the same part of the experiment so it is also necessary to align the camera data for different people. In this study, we devise a framework for these two alignment tasks based on audio synchronization and image retrieval techniques. Alignment of videos coming from different data sources will enable experimenters to analyze participant's user behaviour in more detail and compare them with different groups of participants. Aligning the eye-tracking device and webcam video recordings and comparing results will also enable us to know what the user feels when they look at the video. This process can be conducted in 3 steps. Firstly, each participant's eye tracker video can be aligned with reference participant's eye tracker video. Secondly, each participant's webcamera video can be aligned with reference participant's webcam video. And finally, each participant's eye tracker video can be aligned with web camera video of the same participant. Our main goal is to realise alignment between eye tracker and web camera videos of the same participant. However, knowledge and results obtained in previous steps can contain supportive character. Therefore, in order to align the webcam and eye tracker device videos, the video files were converted into audio files. For the alignment process, the cross correlation method were used. The cross correlation technique gives an information about time delay and lag difference between discrete-time sequences. Also, for an accurate comparison of results, manual alignment were performed. In addition to these, features of audio files were extracted. The feature extraction process was performed with Marsyas (Music Analysis, Retrieval and Synthesis for Audios Signals) open source framework. In order to accomplish a new audio-to-audio alignment technique, Dynamic Time Warping (DTW) algorithm was applied to these features. This algorithm is based on dynamic programming and can measure a similarity between time series. The similarity is measured by a calculation of an Euclidean or Manhattan distance of audio extracted features. The more distance is close to zero, the more audios are similar. If any feature value in the first audio matches to the closest point in the second audio feature vector, then the cumulative distance between audio feature vectors becomes minimized. The main principle of DTW algorithm is based on this mechanism. MATCH (Music Alignment Tool Chest) toolkit was also used in this study. The main technique of the toolkit is based on DTW (Dynamic Time Warping) algorithm. It enables us to see visually the path created by DTW (Dynamic Time Warping) algorithm. Also, it can be used to find which point in the feature vector coincides to another feature value in the second audio. Finally, the results of all above techniques used for an audio-to-audio alignment are discussed and compared between each other. After a realisation of audio alignment, video normalisation was performed by applying several image retrieval techniques. The participant's head movements toward right and left side, different distances from participants to computers make to accomplish video normalisation process. It is already known that eye trackers enable exactly to see where participant looks at. After video normalisation, we are able to compare eye gaze coordinates of participant when he/she looks at same video frame. After participant's eye tracker or webcam video is aligned with reference participant's eye tracker or webcam video correspondingly, we can express the participant's video frames on the same coordinate plane with reference participant's video frames by using image retrieval technique and inverse transformation matrix information. The eye movement coordinate or information about where participant looks during the experiment is displayed with red circle on screen and have higher RGB (red, green, blue) value on video frame. Finally, different applied techniques of image retrieval were discussed and the results were compared.

Summary:

İnsan-bilgisayar etkileşiminin (HCI) ortaya çıkışı, insan ve bilgisayarlar arasında yeni bir etkileşim veya "diyalog" tekniğini ortaya çıkardı. Kullanıcılar ve bilgisayarlar arasında etkili bir etkileşimin geliştirilmesi, HCI'nin ana hedefi olarak düşünülebilir. Bu dinamik ilerleme, kullanıcı eğitiminde, bilimsel deneylerde veya teknik araştırmada harcanan zaman kaybını ve hayal kırıklığını önemli ölçüde azalttı ve hem sanayi, tıp hem de akademik alanlarda uygulama alanlarını genişletti. Göz hareketi tabanlı insan-bilgisayar etkileşim tekniği, çeşitli göz izleme cihazları ile kullanılabilirlik çalışmaları, tıbbi teşhisler, psikolojik araştırmalar ve interaktif, göz kontrollü uygulamalarda yaygın olarak kullanılmaktadır. Günümüzde göz izleme cihazları, insanların davranışlarını ve hastalıklarını analiz etmek için kullanılan çok popüler aletler haline gelmiştir. Bu cihazlar, gözlük şeklinde takılıyor olup adamın baktığı tüm yerleri sesli ve görüntülü şekilde kaydetmektedir. Insan bakışları genelikle üç gruba ayrılır: sakkadik, göz kırpma ve fiksasyon. Bir noktaya bir süre odaklanıp, bakışların orada kalmasına fiksasyon hareketi denir. Genel olarak insanlar dikkatlerini çeken noktalara bir süre odaklanırlar, böylece kendilerini ilgilendiren şeyle ilgili bilgi toplamış olurlar. İki fiksasyon arasındaki göz hareketine sakkadik hareket denir. Göz izleme cihazları gözbebeği çapını, katılımcının baktığı yerin ekrandaki koordinatlarını, fiksasyonları, sakkadları kolayca tanımlayabilir ve kaydedebilirler. Fiksasyonlar adeta 200 ile 600 millisaniye arasında devam ederken, sakkadlar yaklaşık 30-120 millisaniye arasında zaman alır. Göz izleme teknolojisi, beyinde meydana gelen çeşitli bilişsel sürece daha derinden bir bakış açısına sahip olmaya ve göz hareketlerini daha iyi analiz etmeye izin veriyor. Göz izleme cihazlarının herhangi bir ek fiziksel eylem talep etmemesi onların kullanım alanlarını daha da artırıyor. Video tabanlı göz izleyici cihazları, giyilebilir olup kullanıcının nereye yürümesine bağlı olmayarak her yerde deney yapmaya izin veriyor. Kamera katılımcının nerede nereye bakmasından asılı olmayarak, her şeyi kaydediyor. Deneyin başlatılması, göz izleme cihazının üç noktalı kalibrasyonunu gerektiriyor. Kalibrasyon noktaları, enterpolasyon metoduyla ekran üzerindeki herhangi bir noktayı hesaplamaya izin vermektedir. Deney sorumlusu katılımcıdan bilgisayar ekranının sol, sağ ve alt taraflarına bakmasını istiyor. Göz izleyici kalibrasyonu işlemi tamamlandıktan sonra, deneyin gerçek kısmının başlatılmış olduğu düşünülebilir. Göz izleme cihazı katılımcının nereye baktığını, web kamerası ise onun yüz ifadelerini kaydederken katılımcının kendisi ona sunulan videoları izlemektedir. Katılımcının izlediği videolar üç tipe ayrılabilir: eğlenceli, normal, sıkıcı. Katılımcı üç video izlemektedir. Videoların büyük kısmı iki aktör arasındaki diyaloglardan oluşur. Bu videoların amacı, katılımcının tam olarak videolarda nelere dikkat ettiğini öğrenmek ve sonuçlarını karşılaştırmaktan ibarettir. Göz izleme cihazı ve web kamerası tarafından kaydedilen videoların başlama saatleri farklı olabilir. Veya katılımcılar gözlüğü erken takmış ya da geç çıkarmış olabilirler. Buna ek olarak, bu cihazların sistem zamanları arasında saniyeler bazında farklılıklar olabilir. Bu gibi sebeplerden dolayı, tüm katılımcıların aynı uzunluktaki videoyu izlemesine rağmen, göz izleme ve web kamera cihazlarının kaydettiği videoların süreleri her katılımcı için farklı olabilir. Göz izleme cihazlarının deneyi hem görsel, hem de ses olarak kayıt etmesi birer avantajdır. Çünkü her iki cihaz da aynı deneyi kaydettiği ve benzer ses kayıtlarını içerdiği için bu videoları senkronize etmek mümkündür. Deney sırasında katılımcının davranışlarını analiz etmek gerektiğinde web kamera ve göz izleme cihazlarından gelen videoları hizalama yapmak şarta dönüşür. Çoğu araştırma, deneyin aynı bölümünde farklı kişilerin davranışlarının karşılaştırılmasını gerektirebilir. Bunun için farklı insanların kamera verilerini kendi aralarında hizalamak gereklidir. Bu çalışmada, hizalama işleminin yerine getirilmesi için sesten sese senkronizasyon ve görüntü alma tekniklerine dayanan bir araştırma yapılmıştır. Farklı kaynaklardan gelen ve farklı katılımcılara ait olan videoların hizalanması, katılımcıların davranışlarını daha iyi analiz etmeye ve aynı zamanda, onu diğer gruplarla karşılaştırmaya izin verecektir. Göz izleme cihazı ve web kamerası video kayıtlarını hizalamak ve sonuçlarını karşılaştırmak, kullanıcının videoyu izlediğinde neleri hissettiğini bilmemizi sağlayacaktır. Bu süreç 3 adımda gerçekleştirilebilir. İlk olarak, her bir katılımcının göz izleme videosu, referans katılımcının göz izleme videosuyla hizalanabilir. İkinci olarak, her bir katılımcının web kamerası videosu, referans katılımcının web kamerası videosuyla hizalanabilir. Ve son olarak, her bir katılımcının göz izleyici videosu, aynı katılımcının web kamerası videosuyla hizalanabilir. Bizim ana hedefimiz, aynı katılımcının göz kamera ve web kamera videoları arasında hizalama işlemini sağlamaktır. Buna rağmen, önceki adımlarda elde edilen bilgi ve sonuçlar destekleyici özellik taşıyabilir. Bu nedenle, web kamera ve göz izleme videolarını hizalamak için, video dosyaları ses dosyalarına dönüştürülmüştür. Hizalama işlemi için çapraz korelasyon yöntemi kullanılmıştır. Çapraz korelasyon tekniği, ayrık zaman dizileri arasındaki gecikme zamanı hakkında bilgi sunuyor. Ayrıca, sonuçların doğru şekilde karşılaştırılması için elle hizalama işlemi yapıldı. Buna ek olarak, ses dosyalarının özellikleri çıkarıldı. Ses özelliklerin çıkartılma işlemi, Marsyas (Ses sinyallerinin analizi, algısı ve sentezi) açık kaynak sistemi ile gerçekleştirildi. Yeni bir ses-ses uyum tekniğini gerçekleştirmek için bu özelliklere Dinamik Zaman Bükmesi (DZB) algoritması uygulanmıştır. Bu algoritmanın esası dinamik programlamaya dayanıyor ve zaman serileri arasındaki benzerliği ölçebilmektedir. Bu benzerlik, ses dosyalarından çıkartılan özelliklerin Öklid ya da Manhattan mesafesinin ölçülmesiyle hesaplanıyor. Mesafe ne kadar çok sıfıra yakın olursa, sesler arasındaki benzerlik o kadar çoktur demektir. Öznitelikler arasındaki mesafe sıfıra ne kadar yakınsa, bu iki öznitelik birbirine o kadar benziyor demektir. Eğer bir öznitelik vektöründeki bir nokta, diğer sese ait öznitelik vektöründeki kendisine en yakın noktayla eşleşirse, iki vektör arasındaki kümülatif uzaklık minimize edilmiş olur. DZB (Dinamik Zaman Bükülmesi) algoritmasının ana ilkesi bu mekanizmaya dayanmaktadır. Bu çalışmada MATCH (Müzik Hizalama Alet Seti) aracı da kullanılmıştır. Bu aracın ana tekniği, DZB (Dinamik Zaman Bükülmesi) algoritmasına dayanıyor. DZB (Dinamik Zaman Bükülmesi) algoritması tarafından oluşturulan yolun görsel olarak görmesini sağlar. Ayrıca, özellik vektöründeki hangi noktanın ikinci sesteki başka bir özellik değeriyle çakıştığını bulmak için kullanılabilir. Son olarak, sesten-sese hizalama için kullanılan yukarıdaki tekniklerin sonuçları tartışılıp birbirleri arasında karşılaştırılmaktadır. Ses hizalamasını gerçekleştirdikten sonra, farklı resim erişim yöntemleri ile video normalizasyon işlemi gerçekleştirildi. Katılımcıların başlarını sağa ve sola çevirmelerinden ya da hareket ettirmelerinden, boy farkından, katılımcının bilgisayara olan mesafesinden kaynaklanan sebeplerden dolayı bozulmalar olabiliyor. Göz izleyicilerin katılımcının tam olarak nereye baktığı bilgisini verebildiğini biliyoruz. Video normalizasyonu ile, farklı katılımcıların aynı video karesine baktığında oluşan göz hareket koordinatlarını karşılaştırabiliyoruz. Katılımcı ve referansın göz izleme veya web kamera videolarını kendi aralarında hizalandırdıktan sonra, görüntü erişim tekniğini ve ters transformasyon matris bilgisini kullanarak katılımcının video karelerini referansın uygun video kareleri ile aynı koordinat sistemi üzerinde ifade edebiliriz. Deney sırasında göz hareketi koordinatları veya katılımcının nereye baktığı ekrandaki video karesinde kırmızı daireyle gösteriliyor ve daha yüksek RGB (kırmızı, yeşil, mavi) değerine sahip oluyor. Bu çalışmada farklı resim erişim teknikleri uygulanmış ve sonuçları tartışılmıştır.