+ All Categories
Home > Documents > Ağız Sözlük Çalışmalarında Bilgisayar Destekli Veri Tabanlarının Önemi

Ağız Sözlük Çalışmalarında Bilgisayar Destekli Veri Tabanlarının Önemi

Date post: 22-Jan-2023
Category:
Upload: ukim
View: 0 times
Download: 0 times
Share this document with a friend
15
Ağız Sözlük Çalışmalarında Bilgisayar Destekli Veri Tabanlarının Önemi, 12. Uluslar Arası Türk Halk Kültürü Sempozyumu, Üsküp, 07.05.2007. AĞIZ SÖZLÜK ÇALIŞMALARINDA BİLGİSAYAR DESTEKLİ VERİ TABANLARININ ÖNEMİ Doç. Dr. Oktay AHMED “Aziz Kiril ve Metodiy” Üniversitesi, Filoloji Fakültesi, Türk Dili ve Edebiyatı Bölümü GİRİŞ Sözlük hazırlama çileli bir iştir. Svensén’e göre (Svensén: 1993), sözlük hazırlama safhaları şöyle sıralanabilir: 1. Plânlama 2. Veri toplama 3. Veri seçme ve düzenleme 4. Taslak metnin hazırlanması 5. Metnin gözden geçirilmesi ve düzeltmelerin yapılması 6. Yeniden inceleme ve düzeltme 7. Sayfa düzeni 8. Sayfanın birkaç defa denetlenmesi 9. Basıma hazırlık 10. Basım ve ciltleme Günümüzün sözlük çalışmaları, eskiden olduğu gibi fişlemeyle yapılmamaktadır. Fişleme yerine, bilgisayar ortamında veri tabanı hazırlanmaktadır. Metinlerden oluşan bu veri tabanına “ derlem” (İng. corpus, çokluk şekli corpora) denilmektedir. Derlem, çok sayıda yazılı ve düzenlenmiş metin koleksiyonudur. Çağdaş derlem dil biliminin temellerini Brown Üniversitesi’nden Henry Kucera ve Nelson Francis 1967 yılında yayımladıkları “Günümüz Amerikan İngilizcesi’nin Bilgisayarlı Analizi” adlı yapıtıyla atmışlardır (Kucera, H. & Francis, W. N.: 1967). Derlemde, farklı kaynaklardan derlenen bir milyon İngilizce kelime vardır. Bundan sonra diğer bazı dillerin de bilgisayar derlemi yapılmıştır. Günümüzün en önemli derlem çalışmaları 1990’lı yılların başlangıcına rastlamaktadır. Diğerleri gibi 1990 yılından sonra hazırlanmasına başlanan “Britanya Ulusal Derlemi” (“British National Corpus”, bkz. BNC)’nde 100 milyon kelime vardır. Bu projenin uzantısı olarak “Amerikan Ulusal Derlemi” (“American National Corpus”, bkz. AMC) de hazırlanmaktadır. Bu derlemde yüz milyonlarca kelime bulunmaktadır ve böylece dünyanın en büyük derlemi sayılmaktadır. Bütün bu ticarî çalışmarın dışında, tamamen ücretsiz olan açık kaynaklı derlemler de vardır. Bunların başında “Gutenberg Projesi” (bkz. Project Gutenberg) bulunmaktadır. Projenin amacı, telif hakları olmayan veya geçmiş olan metinleri bir araya toplayarak, okuyucu ve araştırmacıların hizmetine tamamen ücretsiz sunmaktır.
Transcript

Ağız Sözlük Çalışmalarında Bilgisayar Destekli Veri Tabanlarının Önemi, 12. Uluslar Arası Türk Halk Kültürü Sempozyumu,Üsküp, 07.05.2007.

AĞIZ SÖZLÜK ÇALIŞMALARINDA BİLGİSAYAR DESTEKLİVERİ TABANLARININ ÖNEMİ

Doç. Dr. Oktay AHMED“Aziz Kiril ve Metodiy” Üniversitesi, Filoloji Fakültesi, Türk Dili ve Edebiyatı Bölümü

GİRİŞ

Sözlük hazırlama çileli bir iştir. Svensén’e göre (Svensén: 1993),sözlük hazırlama safhaları şöyle sıralanabilir:

1. Plânlama2. Veri toplama3. Veri seçme ve düzenleme4. Taslak metnin hazırlanması5. Metnin gözden geçirilmesi ve düzeltmelerin yapılması6. Yeniden inceleme ve düzeltme7. Sayfa düzeni8. Sayfanın birkaç defa denetlenmesi9. Basıma hazırlık10.Basım ve ciltlemeGünümüzün sözlük çalışmaları, eskiden olduğu gibi fişlemeyle

yapılmamaktadır. Fişleme yerine, bilgisayar ortamında veri tabanıhazırlanmaktadır. Metinlerden oluşan bu veri tabanına “derlem” (İng. corpus,çokluk şekli corpora) denilmektedir.

Derlem, çok sayıda yazılı ve düzenlenmiş metin koleksiyonudur.Çağdaş derlem dil biliminin temellerini Brown Üniversitesi’nden HenryKucera ve Nelson Francis 1967 yılında yayımladıkları “Günümüz Amerikanİngilizcesi’nin Bilgisayarlı Analizi” adlı yapıtıyla atmışlardır (Kucera, H. &Francis, W. N.: 1967). Derlemde, farklı kaynaklardan derlenen bir milyonİngilizce kelime vardır.

Bundan sonra diğer bazı dillerin de bilgisayar derlemi yapılmıştır.Günümüzün en önemli derlem çalışmaları 1990’lı yılların başlangıcınarastlamaktadır. Diğerleri gibi 1990 yılından sonra hazırlanmasına başlanan“Britanya Ulusal Derlemi” (“British National Corpus”, bkz. BNC)’nde 100milyon kelime vardır. Bu projenin uzantısı olarak “Amerikan Ulusal Derlemi”(“American National Corpus”, bkz. AMC) de hazırlanmaktadır. Bu derlemdeyüz milyonlarca kelime bulunmaktadır ve böylece dünyanın en büyük derlemisayılmaktadır.

Bütün bu ticarî çalışmarın dışında, tamamen ücretsiz olan açık kaynaklıderlemler de vardır. Bunların başında “Gutenberg Projesi” (bkz. ProjectGutenberg) bulunmaktadır. Projenin amacı, telif hakları olmayan veya geçmişolan metinleri bir araya toplayarak, okuyucu ve araştırmacıların hizmetinetamamen ücretsiz sunmaktır.

Türkçe’nin derlem çalışmaları 20. yüz yılın sonlarına doğru başladı.ODTÜ’nin “Türkçe Derlem” (“Turkish Corpus”) adlı derlemi, 1990’lıyıllarından başlayarak derlenen metinlerden oluşmuştur. Bu derlem, ikimilyonluk Türkçe kelimeden oluşan bir koleksiyondur (bkz. METU TurkishCorpus). İkinci önemli bir çalışma da ODTÜ ve Sabancı Üniversitesi’nin ortakçalışması olan “Türkçe’nin Ağaç Yapısı” (“Turkish Treebank”) derlemidir.Burada, 7262 gramatikal cümlenin morfolojik ve sentaktik açıdan çözülmüşbankası bulunmaktadır (bkz. METU-Sabanci Turkish Treebank; Oflazer, K.etc., The Annotation...: 2003, Oflazer, K. etc., Building...: 2003).

Bilgisayar derlemlerinden dil bilimi çalışmalarında faydalanmak içinbazı noktalar çok önemlidir:

- İstenilen sonuçların alınması için, derlemin ne tür metinlerdenoluşturulduğu bilmek, dolayısıyla çalışmaya uygun derleminseçilmesi ve bu derlemi iyi tanımak gerekir.

- Derlemden faydalanmak için, çalışmaya uygun aramalar, taramalar,sınıflandırmalar, parçalara ayırmak vb. gibi bilgileri elde etmek için,elektronik araçlar (yazılımlar) gerekir.

- Sonunda, derlemin ve yazılımların nasıl kullanılacağını çok iyibilmek şarttır.

DERLEM ÜZERİNE YAPILAN ÇALIŞMALARDAN ÖRNEKLER

Biz bu çalışmanın sonuçlarını burada göstermek için, OxfordÜniversitesi Bilgisayar Hizmetleri tarafınca geliştirilen XAIRA (XML AwareIndexing and Retrieval Architecture, bkz. XAIRA) yazılımının 1.23 sürümünü,yazı tipi (font) olarak da, ağız metinlerinde kullandığımız ve tarafımızdanhazırlanan Helvet_Oktay_Metinler’i kullandık.

Standart derlemler, bir dilin sözlük çalışmalarında inanılmaz derecedefaydalı olacağı gibi, ağız sözlük çalışmalarında bunlardan pek yararlanılamaz.Dolayısıyla, ağızlardan derlenen malzemelerden oluşan derlemler üzerineyapılacak çalışmalarla, günümüz ağız sözlük çalışmaları ağırlık kazanmıştır.Fişleme yerine, derlem yazılımlarıyla kelime veya deyimlerin farklı sentaktikbağlamda farklı anlam ve kullanımlarını kolayca buluruz.

1996’dan beri Makedonya’nın güneybatısındaki Ohri, Ustruga veResne yörelerinde yaptığımız saha çalışmalarımızda, ağızlardan çok sayıdametin derledik. Bu çalışma için kullandığımız veri tabanımızda 27.000’inüzerinde kelime vardır.

Bu ağızlarda, Standart Türkçe (ST)’deki kullanımlardan farklılıkgösteren “çağır-” (#1), “gene” (#2), “nasıl” (#3), “ne” (#4), “niçin” (#5) ve“sonra” (#6) kelimelerinin kullanışlarını örnek olarak vereceğiz.

Birinci çizelgede (#1) “çağır-” fiilinin kullanışlarına bir göz atalım:3(46), 19(6), 29(17) vb. gibi örneklerde, bu fiilin anlamı “çağır-”tır. Bu,

fiilin temel anlamıdır ve kullanışı ST’den farklılık göstermez.33(5), 36(5), 36(17) vb. cümlelerde, ST’den farklılık gösterir. Bu

ağızlardaki ikinci anlamı “bağır-”tır.34(13) örneğinde “at-” (“nara at-”) anlamında kullanıldığını görmekteyiz.41(10) cümlesinde ise, fiilin “adlandır-”, “de-” anlamında farklılık

gösterdiğini görürüz.

2

3

“gene” kelimesinin ele alındığı ikinci çizelgeye (#2) baktığımızda, şudurumlar ortaya çıkmaktadır:

1(13), 2(19), 3(27) vb. cümlelerde ST’deki asıl anlamı olan “gene”,“yine” anlamındadır.

30(199.1) örneğinde “ise”, “öte yandan” gibi farklılık bildiren anlamlardabir kullanım sergilemektedir.

30(199.2) örneğinde de, bir cümle dışı unsuru olarak “işte”, “yani”anlamında kullanılmıştır.

Dikkat edilirse, kelime anlamlarındaki farlılık, sentaktik düzeydenbaşka, vurguya da bağlıdır. Kelimenin vurgulu hali, ki bu vurgu mutlaka ilkhecededir, ST’deki asıl anlamı verir. Vurgusuz şekiller ise yardımcı öge olarakkullanılmaktadır.

ST’deki “nasıl” kelimesi (anlamı zarf, bazen de sıfat olabilir),derlemimizi dayandırdığımız ağızlarda iki şekilde kullanılır: “nasıl” ve “nası”.Bu kelimenin üçüncü çizelgedeki (#3) kullanışları şöyledir:

1(5), 3(48), 55(4) vb. cümlelerinde, kelimenin ST’deki asıl anlamı, yani“nasıl” anlamı vardır.

2(10), 2(18), 3(35) 13(15), 47(4) vb. örneklerde bu kelime “gibi”, “-Dİğİgibi” anlamında kullanılmıştır.

10(19) vb. gibi örneklerde zarf-fiil anlamı vardır, daha doğrusu /-ken/eki yerine kullanılmıştır.

26(6) cümlesinde ise “mesela”, “örneğin” gibi yan anlamının da varolduğunu görebiliriz.

Dördüncü çizelgede (#4) “ne” edatının kullanış şekillerini görmekmümkündür. Ortaya çıkan durumları şöyle sıralayabiliriz:

2(6), 11(7), 15(12), 30(199) vb. örneklerde “ne” kelimesi zarf gibigörünse de, aslında /-An/ sıfat-fiil eki görevinde kullanılmıştır.

2(11), 13(5), 30(151) vb. örneklerde “ne” sıfatı olarak kullanıldığınıgörüyoruz.

3(21), 3(44), 21(26), 30(26), 30(89), 43(5) vb. cümlelerde ise, “ne”kelimesi zarf görevindedir.

30(85) vb. örneklerde bu kelime zarf olarak görünse de, /-Dİğİ/ sıfat-fiilekinin görevini üstlenmiştir.

“ne” ve “için” kelimelerinin birleşmesiyle ortaya çıkan “niçin”kelimesinin bu ağızlardaki şekli “neyçin”dir. Beşinci çizelgede (#5), bukelimenin veri tabanımızdaki metinlerde nasıl kullanıldığını görebiliriz:

2(10), 2(35), 30(65), 48(12) vb. örneklerinde “-Dİğİ için” ve/veya“çünkü” anlamında kullanılmıştır.

2(22), 2(28), 17(21) vb. cümlelerde ise, kelimenin asıl anlamı olan“niçin”, “neden” olarak kullanıldığını görüyoruz.

Bu çalışmada ele alacağımız son örnek de “sonra” kelimesidir. ST’dezarf ve nadır olarak isim anlamında kullanılır. Metinleri derlediğimiz ağızlarda“sonra” kelimesinin iki varyantı vardır: “sona” ve “sora”. Bu varyantlarınkullanış sahalarını altıncı çizelgede (#6) görebiliriz:

1(5), 15(24), 2(28) gibi örneklerde zaman zarfı olarak kullanılmıştır.4(6), 4(8), 4(14), 17(25), 23(59), 23(106), 25(8), 32(48) vb. örneklerde

cümle dışı unsuru, bazen de bağlama unsuru olarak kullanıldığını görüyoruz.2(10), 2(36), 3(38), 3(54), 29(7), 38(7) gibi cümlelerde ise, sıfat

tamlamalarında tamlanan unsuru olarak isim görevinde bulunur.

4

5

6

7

8

9

10

11

12

13

14

SONUÇ

- Bilgisayar destekli veri tabanlarıyla (derlemlerle), bir kelimenin veyadeyimin farklı bağlamlardaki farklı anlamları kolayca bulunur.

- Çok küçük, yani sadece 27.000 kelimeden oluşan bu örnek derlemde“çağır-” fiilinin dört (4), “gene” kelimesinin üç (3), “nasıl” kelimesinin dört(4), “ne” kelimesinin dört (4), “niçin” kelimesinin iki (2) ve “sonra”kelimesinin üç (3) farklı anlamı ve kullanışları vardır. Şüphesiz ki dahabüyük veri tabanlarında daha çok anlam ve görevler ortaya çıkacaktır.

- Bilgisayar destekli ağız sözlük çalışmalarıyla, hazırlanan ağız sözlükleridaha doğru, tamam, kapsamlı, yeterli ve kullanışlı olacaktır.

- Dolayısıyla, şu anda yürütülmekte olan ve gelecekte hazırlanacak olanfarklı ağızların sözlükleri mutlaka ve mutlaka bilgisayar destekli veritabanlarının hazırlanması ve bunların uygun bir şekilde kullanılmasıylayapılması mecburidir.

Kaynakça

ANC: http://americannationalcorpus.orgBNC: http://www.natcorp.ox.ac.ukKucera, H. & Francis, W. N. (1967), Computational Analysis of Present-Day

American English, Brown University Press.METU Turkish Corpus: http://www.ii.metu.edu.tr/~corpus/corpus.htmlMETU-Sabanci Turkish Treebank: http://www.ii.metu.edu.tr/~corpus/-

treebank.htmlOflazer, K.; Say, B.; Hakkani-Tur, D. Zeynep & Tur, G. (2003), Building a

Turkish Treebank, in “Treebanks: Building and Using Parsed Corpora”(Abeille, A., ed., 2003), Volume 20 of Text, Speech and LanguageTechnology, Kluwer Academic Publishers, Dordrecht.

Oflazer, Kemal; Atalay, Nart & Say, Bilge (2003), The Annotation Process inthe Turkish Treebank, in “Proceedings of the 4th InternationalWorkshop on Linguistically Interpreted Corpora (LINC)”.

Project Gutenberg: http://www.gutenberg.orgSvensén, Bo (1993), Practical Lexicography, OUP.XAIRA: http://www.oucs.ox.ac.uk/rts/xaira

15


Recommended