Tez Arşivi

Tez aramanızı kolaylaştıracak arama motoru. Yazar, danışman, başlık ve özete göre tezleri arayabilirsiniz.


İstanbul Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Anabilim Dalı

An integrated architecture for information extraction from documents in Turkish

Türkçe belgelerden bilgi çıkarımı için tümleşik bir mimari

Teze Git (tez.yok.gov.tr)

Bu tezin tam metni bu sitede bulunmamaktadır. Teze erişmek için tıklayın. Eğer tez bulunamazsa, YÖK Tez Merkezi tarama bölümünde 293696 tez numarasıyla arayabilirsiniz.

Özet:

In this study, ontology based information extraction and document layout analysistechniques are integrated for extracting domain specific events and entities. Proposed?Concept Zoning? technique provides easy definition of extraction concepts andincreases portability of the IE system and requires only concept definitions whencompared to approaches that rely on large sets of linguistic patterns. Proposedarchitecture works well when applied to restricted domain applications. It alsosuccessfuly detects data in tabular, list or itimized form. In case of an unknown event,concept similarity is calculated by comparing the concepts in the input document againstthe concepts in the ontology and new attributes, key concept nodes and conceptsproperties are incrementally added to the knowledge base by the user. Domain ontologyis enriched by adding newly discovered instances. Experimental results indicate that ahigh performance document processing system has to cover enough number of lexicalresources, extraction concepts and document models. In addition, document layoutanalysis is used for detecting unknown entity types and approach verifies extractedinformation and relations among them by using key values defined for each domainevent.

Summary:

Bu çalısmada bir belge alanına ait eylemler ve iliskili bilgilerin çıkarılması için ontolojitabanlı bilgi çıkarımı teknikleri ile belge yapı analizi teknikleri bir arada kullanılmıstır.Önerilen ?Kavram Bölme? tekniği sayesinde çıkarım eylemleri kolaylıklatanımlanmakta ve çıkarım sisteminin yeni bir alana tasınması hızlandırılmakta, ayrıcametin sablonları kullanmaya gerek kalmadan çok küçük bir bilgi tabanı ile basarılısekilde çıkarımlar yapılabilmektedir. Önerilen mimarinin kısıtlı belge alanı veuygulamalarında yüksek basarı sağladığı görülmüstür. Ayrıca yaklasım tablolu, listelive maddesellestirilmis yapıdaki metinlerden veri çıkarımı konusunda yüksek basarısağlamıstır. Çıkarım ontolojisi kullanılarak yaklasım, bilinmeyen bir eyleme en yakıneylemi bulmak için kural tabanında tanımlı olan kavramlar ile metinde yer alankavramlar arasındaki benzerliği hesaplamakta ve bu bilgiye dayalı olarak kullanıcısisteme kademeli sekilde yeni çıkarım kavramlarını, anahtar kavram birimlerini vekavram özelliklerini eklemektedir. Yaklasım aynı zamanda yeni kesfedilmis verileriontolojiye örnekleri olarak ekleyerek ontolojiyi zenginlestirmektedir. Deneysel sonuçlarayrıca yüksek basarımlı belge isleme için yeterli sayıda sözlüksel kaynağa, çıkarımkavramına ve belge yapı tanımlamasına ihtiyaç duyulduğunu göstermektedir. Ayrıcabelge yapı analizi bilinmeyen varlık tiplerinin çıkarımında kullanılmakla birlikte,eylemlerle iliskilendirilmis anahtar değerler kullanılarak çıkarımı yapımıs bilgiler ve bubilgiler arasındaki iliskiler kontrol edilmektedir.