Tez Arşivi

Tez aramanızı kolaylaştıracak arama motoru. Yazar, danışman, başlık ve özetlere göre tezleri arayabilirsiniz.


İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik ve Haberleşme Mühendisliği Anabilim Dalı / Telekomünikasyon Mühendisliği Bilim Dalı

2012

A structured sparse decomposition method for audio signals

Ses işaretleri için yapilandirilmiş seyrek bir ayriştirma yöntemi

Bu tez, YÖK tez merkezinde bulunmaktadır. Teze erişmek için tıklayın. Eğer tez bulunamazsa, YÖK Tez Merkezi'ndeki tarama bölümünde tez numarasını arayabilirsiniz. Tez numarası: 315323

Tezi Bul
Özet:

Bu çalışmada, işaretlerin tonal ve tonal olmayan kısımlarının ayrıştırılması için çözümleme önseli temelli bir yöntem önerilmiştir. Önerilen yöntem ses işaretlerinin farklı zaman-frekans gösterilimlerindeki dağılımlarının farklılıklarını kullanmaktadır. Problem, çözümleme önseliyle düzenlileştirilmiş bir tersine problem olarak düzenlenmiştir. Bu çalışmadaki yaklaşım, daha önce önerilmiş olan bireşim işleci temelli yaklaşımlara bir alternatif oluşturmaktadır.İşaretlerin çeşitli kısımlarının elde edilmesi işaret işlemede çok çalışılan bir problemdir. Özellikle ses işaretlerinin farklı kısımlarını, karmaşık olması itibariyle, modellemek çok kolay değildir. Literatürde çok farklı yaklaşımlar olmakla birlikte, son zamanlarda dikkat çeken bir yaklaşım `biçimsel farklılık' ve `yapılandırılmış seyreklik' konseptlerinin kullanımına dayanmaktadır.Bu çalışma içerisinde kullanılan kavramlardan ilki biçimsel farklılık kavramıdır. Bu fikir, görüntü, ses, biyofiziksel işaretler gibi pek çok işaretin çeşitli bileşenlerinin farklı gösterilimler altındaki `seyrek' olabileceği üzerine dayanmaktadır. Sözgelimi, örnek bir görüntü işaretinde, eğrisel yapılar bir çerçeve ile `seyrek' temsil edilebilirken, doku gibi periyodik örüntüler taşıyan yapılar daha farklı bir çerçeve ile `seyrek' temsil edilebilir. Bu özellik kullanılarak, her işaretin `seyrek' olduğu çerçeve seçildiğinde, seyrek çözümler veren eniyileme problemleri istenilen kısımları elde etmeye yardımcı olacaktır. Aynı şey ses işaretleri için de geçerlidir. Örneğin, sesin tonal kısımları spektrogram adı verilen gösterilim altında yatay yapılarda kendini gösterirken, sesin tonal olmayan kısımları spektrogram adı verilen gösterilim altında dikey yapılarda kendini gösterir. Dolayısıyla sesin bu biçimsel özelliklerini kullanarak her iki bileşeni de `seyrek' bir şekilde temsil etmek mümkündür. Sözgelimi, bu amaç için, farklı pencere boylarına sahip Kısa-Zamanlı Fourier Dönüşümü (KZFD) kullanılabilir.Bu çalışmada kullanılan kavramlardan ikincisi `yapılandırılmış seyreklik' adı verilen bir kavramdır. Buna göre, `seyrek' çözümler elde etmek için sıklıkla kullanılan l-1-düzenlileştirme yaklaşımı, sadece seyrek çözümlerin isteneni vermediği, diğer bir deyişle daha `yapılandırılmış' problemler için yetersiz kalmaktadır. Çünkü, l-1-normu üstü kapalı bir şekilde değişkenlerin birbirinden bağımsız olduğunu varsaymaktadır. l-1-normu Bayesçi bir açıdan bakıldığında Laplace önseline karşılık düşmektedir. Dolayısıyla, yapılandırılmış çözümlerin gerekli olduğu durumlarda l-1-normu işlevsel olamamaktadır. Onun yerine çokça kullanılan bir yaklaşım `karışık-norm' düzenlileştirme yaklaşımıdır. Buna göre, sadece bileşenlerin çeşitli gösterilimler altında biçimsel farklılıklarının seyrek olarak elde edilmesinin yetmediği problemlerde, seyrek çözümlere belli bir yapı empoze etmek mümkündür. Karışık-normları karakterize eden grup yapıları probleme özelleştirilerek bu sorunun üstesinden gelinebilir. Özetin ileriki kısımlarında buna açıklık getirilmiştir.Öncelikle ilk kavramımızı, yani biçimsel farklılığı kullanmak için işaretlerin ilgilendiğimiz kısımlarını yeterince net bir şekilde temsil edebilecek dönüşümlere ihtiyacımız vardır. İşaretin ilgilendiğimiz kısımları tonal ve tonal olmayan kısımlar olduğuna göre, bu yapıları özel olarak daha iyi temsil eden iki dönüşüme ihtiyaç duymaktayız. Ses işaretlerinde tonal kısım genelde piyano, vokal gibi dürtüsel içeriğe sahip olmayan kısımdır. Bu kısmın fiziksel özellikleri düşünüldüğünde, bir piyanonun basılan notalara göre belli frekanslarda iyi yerleşmiş olması, fakat zamanda dağılmış olması gerekir. Çünkü saniyeler içerisinde belli notalardaki frekanslar çok iyi lokalize iken, bu notalar belli zaman aralıkları boyunca çalmaktadır. Dolayısıyla, bir zaman-frekans dağılımı düşünüldüğünde, tonal kısımların frekansa karşılık düşen eksende seyrek fakat zamanda seyrek olmamaları gerekir. İşaretleri ses işlemede sıkça kullanılan Kısa-Zamanlı Fourier Dönüşümü (KZFD) domenine geçirdiğimizde bu durum gerçekten de böyle olacaktır. KZFD'nin yapısı gereği tonal kısım enine yapılarla temsil edilecektir. Aynı şekilde perküsyon gibi dürtüsel içeriğe sahip işaretlerin, zamanda çok kısa yer tuttuklarından dolayı, zaman ekseninde seyrek olmaları beklenir. Bu işaretler de frekansta dağılmış olacaklardır. Dolayısıyla, KZFD gösteriliminde tonal olmayan işaretlerin dikey yapılarla temsil edilmesi beklenir. Fakat her iki bileşeni de başarıyla temsil edebilecek bir KZFD dönüşümü yoktur. Çünkü zaman-frekans gösterilimlerinin çözünürlükleri Heisenberg belirsizlik ilkesi uyarınca sınırlanmıştır. Bunun için, iki bileşeni de efektif şekilde temsil edebilmek için, iki dönüşüm kullanmaktayız. Bu dönüşümlerin birincisi, uzun pencereli dönüşümdür ve bu dönüşüm tonal kısımları daha iyi temsil etmektedir. İkinci dönüşüm ise kısa pencereli dönüşümdür ve bu dönüşüm tonal olmayan kısımları temsil etmektedir. İlk dönüşüm -uzun pencereli dönüşüm- alındığında zaman-frekans eksenindeki yatay yapıların, dikey yapılara göre daha belirgin olması beklenmektedir. Fakat böyle bir yapıyı sadece seyrek olmaya zorlamak, yatay yapıları elde etmek için yeterli olmayacaktır. Aynı şekilde, kısa pencereli dönüşüme bakıldığında dikey yapıların yatay yapılara göre daha belirgin olması beklenmekle beraber, yine de bu belirginlik sadece seyrek bir çözüm ile elde edilebilecek kadar net değildir.Bu noktada sadece seyrek çözümler elde etmek yerine, daha komplike ve yapılandırılmış seyrek çözümler elde etme fikri akla gelmektedir. Buna göre, sadece l-1 normu kullanmak yerine, karışık norm kullanılabilir. Çünkü karışık normlar grup yapıları sebebiyle değişkenler arasında bağlılık ilişkilerine imkan vermektedir. İki boyutlu bir yapı olan KZFD gösterilimine bakıldığında, bu yapıda yatay ve dikey yapılar arasında çeşitli bağlılık ilişkileri varsaymak problemin yapılandırılmış çözümüne büyük bir katkı sağlayacaktır. Sözgelimi, yatay yapıların daha belirgin olduğu uzun pencereli dönüşüm için, yatay yöndeki değişkenlerin birbirine bağımlı olduğunu varsaymak veya benzer şekilde dikey yapıların daha belirgin olduğu kısa pencereli dönüşüm için dikey yöndeki değişkenlerin birbirine bağımlı olduğunu varsaymak istediğimiz gibi çözümler elde etmemizi kolaylaştıracaktır. Bu amaçla, karışık normların grupları yatay seçildiğinde, yatay yapıların elde edilmesi, karışık normların grupları dikey seçildiğinde dikey yapıların elde edilmesi mümkündür.Dolayısıyla, uzun pencereli analizin üstüne yatay gruplu karışık norm konularak bir önsel elde edildiğinde, bu önsel bilgi terimi yatay yapıların elde edilmesini sağlayacaktır. Çünkü uzun pencereli analizde yatay yapılar daha belirgin iken, üstüne bir de yatay yapılar arasında bir bağlılık ilişkisi varsayıldığında bu yapıları elde etmek çok daha kolay olacaktır. Aynı şekilde kısa pencereli analizin üstüne dikey gruplu bir karışık norm konularak elde edilen bir önsel bilgi terimi ise dikey yapıların elde edilmesini sağlayacaktır. Bu işaretlerin zamana geri çatıldıklarında elde edilen işaretler sadece tonal ve tonal olmayan kısımlar olacaktır.Bu çalışmadaki temel yeniliklerden birisi, yeni bir notasyonun ve çerçevenin de kullanılmış olmasıdır. İlk kez daha önceki çalışmalarda önerilen `destek işlevleri' ile problem formüle edilmiş ve çözümler bu çerçevenin içerisinde yapılmıştır. Buna göre düzenlileştirme terimi olarak kullanılabilen her norm, destek işlevi olarak yazılabilmektedir. Böyle bir yeniden-yazım, çeşitli önsavların kullanımına imkan vermektedir. Böyle önsavlardan bir tanesi, klasik bir gürültüsüzleştirme probleminin bu şekilde yeniden yazıldığında izdüşüm algoritmaları ile çözülebileceğini savlamaktadır. Dolayısıyla, problem formülasyonları bir kere verildiğinde, geriye kalan şey izdüşüm algoritmalarını çıkarmak olmaktadır. Böyle bir açıdan bakıldığında problemler daha kolay ve basit yollardan çözülebilmektedir.Bu çalışmada temel olarak yapılan şey, destek işlevi çerçevesinde tanımlanmış olan bir gürültüsüzleştirme formülasyonunun, uygun pencere seçimleri ve uygun norm seçimleri ile koordinat-inişi bir düzenlemede kullanılmasıdır. Dolayısıyla, uygun önsel bilgi terimleri modele eklenerek bir işaret ayrıştırma algoritması elde edilmiştir. Bu algoritma sonucu elde edilen işaretler, aynı problemi çözen diğer algoritmaların sonuçları ile karşılaştırılmış ve yakın bir performans elde edildiği ve modelin geliştirmeye açık olduğu görülmüştür.

Summary:

Structured sparse methods enable to obtain special structures in time-frequency representations of audio signals. These methods generally consist of convex optimization problems. Also, these formulations are inverse problem formulations to estimate a target signal under different circumstances. Problem formulation consists of a quadratic data term and regularization terms. Quadratic data term justifies the resulting signal is `close' enough to the observation signal. By using proper regularization terms, which are also corresponding to proper priors for audio signals, one can seek for a special signal structure to estimate. For instance, in a typical denoising scenario, one can incorporate prior knowledge by using regularization terms and successfully obtain target signal in a denoised form.This framework can be applied to signal decomposition problem. To obtain special target structures such as tonal and/or transient parts of an audio signal, different regularization terms can be used. In literature, to form an optimization problem, in addition to different representations, different sparsity-inducing norms are used.In this work, we set `mixed norm analysis priors' as our signal priors, i.e. regularization terms, and achieved tonal/transient decomposition of an audio signal by using simple model. Our problem formulation naturally leads to a convex optimization problem. We solved this convex optimization problem with a coordinate-descent approach by using `mixed-norm denoising' algorithm.It is also important to emphasize that, we use a different theoretical framework to derive algorithms. We rewrite norms as their support, i.e., support functions, and use theoretical tools from convex analysis. This replacement gives us the opportunity of use projection idea and reduce denoising or decomposition problems to projection problems. As long as projection algorithms is well-studied in convex analysis, this theoretical framework gives extensive flexibility to derive algorithms in a clear notational setting.From a general point of view, our method uses two notions. First, we use morphological diversity of components. That is, we use two different transforms to represent audio data in different resolutions. Each resolution gives us a better representation of the component which we interested in. Secondly, we use the notion of structured sparsity, that is based on the usage of more complicated norms than l1-norm to obtain sparsity. At that point, we use mixed norms with different groupings to obtain each component.More concretely, we choose the first regularization term, for tonal part, as mixed-norm with overlapping groups (formed along time-axis) on Short-Time Fourier Transform (STFT) of the first component with long analysis window. For transient part, we choose the second regularization term as mixed-norm with overlapping groups (formed along frequency-axis) on STFT of the second component with short analysis window.Our results show that, this approach succesfully models the tonal and the transient part of an audio signal, hereby leads to a successful decomposition algorithm.