TÜİK Mikro Veri Seti Kullanacaklara Tavsiyeler

Türkiye İstatistik Kurumu tarafından hazırlanan mikro veri setleri birçok araştırmacı için başlıca veri kaynaklarıdır. Ben de birkaç veri setini kullandım. Bu yazımızda mikro veri setlerini kullanacaklara çeşitli tavsiyeler vermek istiyorum. Okumayı kolaylaştırması açısından alt başlıklar halinde paylaşıyorum.

TÜİK Mikro Veri Seti

  • TÜİK tarafından hazırlanan tüketim harcamaları, gelir çalışmaları vb. araştırmalarda mikro düzeyde veriler kullanılmaktadır. Bu veriler bireyler ve hane halkları ile yapılan anketlerden gelmektedir. TÜİK yaptığı araştırmaların tamamını olmasa da önemli bir kısmını mikro veri setleri ile paylaşmaktadır. Konu ile ilgili veri setlerini TÜİK sayfasından inceleyebilirsiniz. Burada iki adet veri seti bulunmaktadır. A grubu mikro veriler, B grubu mikro veriler. A grubu mikro verileri TÜİK veri merkezlerine gidip kullanabiliyorsunuz, B grubu verileri ise internet üzerinden size gönderiyorlar, o şekilde sahip olabiliyorsunuz. B grubu İş gücü, Bütçe, Gelir gibi çeşitli alanlarda oluyor. Örneğin iş gücü anketi bireylerin iş gücü durumları ile ilgili, bütçe anketi ise hanelerin tüketim harcamaları ile ilgili detaylı mikro verileri içeriyor.

Temin Süreci

  • Bu veriler normalde ücretli bir şekilde paylaşılıyor. Ancak bir akademik çalışma yapacaksanız ve benim gibi genelde ortada bir projeniz yoksa (yani araştırmanız için bir gelir kaynağınız yoksa) o zaman veri setlerini ücretsiz temin edebiliyorsunuz. Yapmanız gereken TÜİK talep sisteminden veri setini talep etmeniz ve ardından elde edeceğiniz çıktıyı bölüm başkanına imzalatıp TÜİK’e iletmenizdir. Eğer TÜİK tarafından veri talebiniz uygun bulunursa, size e-posta yoluyla veri setini nasıl temin edebileceğiniz söylenecektir.

Analiz Programı

  • Veri setini temin ettiğinizde çok yüksek ihtimal dosyalarınız Excel .csv uzantılı oluyor (bazı durumlarsa SAS programının uzantıları da olabiliyor). Bu dosyalarınızı Excel ile açabilirsiniz. Ancak farklı yılların dosyalarının birleştirilmesi, dosyaların düzenlenmesi ve analizler için Excel programını kullanmak mümkün olmayacaktır. O yüzden bir analiz programına ihtiyaç duyacaksınız. Benim gibi ekonomi alanında çalışanlara (aslında diğer alanların da kullanabileceği) iki program tavsiyem var. Eğer paranız (proje bütçeniz) var ise Stata programını, para yok veya ben para vermek istemiyorum diyorsanız R programını kullanabilirsiniz.

Ana Do File

  • Veri setlerini analizden önce hazırlamak için ana bir kod dosyası (Stata’daki adıyla do file) hazırlamanız gerekiyor. Bu dosya farklı yıllardaki dosyaların açılmasından tutun, içerideki değişken düzeltmelerine kadar bütün hikayenin döndüğü konuları içerecektir. Ana do file olmasının bir diğer avantajı yeni yıllara ait verileri elde ettiğinizde tek yapmanız gereken önceki yaptıklarınızı kopyalamak ve yeni yıla göre uyarlamak oluyor. Ben genelde “dosya-hazirlama” adıyla bir do file hazırlıyor ve bu dosya üzerinden veri setimi oluşturuyorum.

Değişken Kodlamaları

  • Veri setlerini temin ettiğinizde size bir kılavuz da geliyor. Bu kılavuz içerisinde değişkenlerin neyi ifade ettiğini ve içerisinin nasıl kodlandığını öğreniyoruz. Örneğin veri setiniz içerisinde S8246 adıyla bir değişkenimiz var. Kılavuz dosyasına gidip bu değişkenin örneğin eğitim olduğunu öğreniyoruz. Ardından isimlerini kendimize uygun bir şekilde değiştiriyoruz (rename S8246 egitim gibi). Ancak burada dikkat etmeniz gereken iki nokta var. S8246 değişkeni her yıl aynı değişkeni ifade etmeyebilir. Örneğin 2014 yılında bu değişken eğitimi ifade ederken, 2018 yılında bu değişken çocuk sayısını ifade edebilir. O yüzden yılar arası değişken isimlerindeki değişime dikkat etmek ve kod yazımını (bir önceki yıldan bir sonraki yıla kopyalarken) dikkatli olmak lazım. İkinci ve bir o kadar önemli bir nokta, değişkenin adının aynı olmasına rağmen içerik numaralandırılmasının veya kodlanmasının zaman içerisinde değişmesidir. TÜİK veri setlerinde bu duruma oldukça sık rastlanabiliyor. Örneğin 2014 yılında eğitim değişkeninin içeriğinde 1 ilkokulu, 2 ortaokulu, 3 liseyi ifade etsin. Bir bakıyorsunuz, 2018 yılında 1 ana sınıfı, 2 ilkokulu, 3 ortaokulu, 4 liseyi ifade edebiliyor. Böylelikle değişken içeriğinin de bu kodlama değişimine bağlı olarak düzeltilmesi ve her yıl için aynı şeyi ifade ettiğinden emin olunması gerekiyor (Stata diliyle recode hikayesi).

6 Sıfır

  • Üst kısımdaki zaman içerisindeki değişken kodlamasının değişmesine benzer bir diğer konu, ülke içerisinde meydana gelen bir olaya bağlı değişken içeriğinin değişmesidir. Örneğin Türkiye’de 2004 yılında paradan altı sıfırın atılması. Eğer 2003-2018 yılları arası bir veri setine sahipseniz, 2003 yılındaki veri setinizde gelir değişkeninde fazladan bir altı sıfırınız bulunacaktır. Böylelikle 2003 yılındaki gelir verilerini bir milyona böleceğiz. Basit bir sorun gibi görünse de bu gibi değişikliklerin ihmal edilmesi özellikle analizlerde büyük problemlere yol açabilmektedir. 

İşe Yaramaz Değişkenler

  • TÜİK veri setleri değişken çeşitliliği açısından oldukça zengin. Ancak bu zenginlik özellikle araştırmanın başlarından sizin gözünüzü korkutup, kod planına sadece işinize yarayacak değişkenleri almanıza neden olabilir. Örneğin çalışmanız gelirin tüketim üzerindeki etkisi olsun. Ben çocuğun cinsiyetini nasıl olsa kullanmayacağım, o yüzden kod planımda çocuğun cinsiyetini ihmal edeyim derseniz, ilerde canınız sıkılabilir. Çünkü araştırmanın başında hangi değişkenin işe yarayıp yaramayacağını net olarak bilmek mümkün değil. O yüzden tavsiyem değişkenlerin tamamını kod planına eklemek ve düzeltmelerini işin başında yapmaktır. Tabi ki bazen bu durum gerçekten de gereksiz olabilir. Gıda tüketimlerinin etkisinde insanların jakuzisinin olması değişkenine pek ihtiyaç duyacağımızı zannetmiyorum. Ama yine de belli olmaz, karar sizin.

Genel Dizin

  • Ben normalde şu şekilde bir dizinle çalışıyordum: “use “C:\Users\Alper\Dropbox\devam-eden-arastirmalar\goc-istihdam\data\2004.dta”, clear”. Bu kod Alper’in Dropbox dosyasında devam eden araştırma dosyasında göç istihdam dosyasında data dosyasında 2004 adından bir Stata dosyasını açmaya yarıyor. Ancak bu tarz bir gösterim sorunlu. Çünkü dosyaları farklı makineye taşıyabiliyorsunuz, veya dergi ile diğer yazarlarla paylaşmak durumunda kalıyorsunuz. O yüzden kod planınızda kodlarınız dizinlerden bağımsız olması lazım. Üstteki kod  yerine “use ../data/2004.dta, clear” gibi bir kod kullanmak (dizin yerine baştaki iki noktaya dikkat edin), ilerde işlerinizi oldukça kolaylaştıracaktır.

Anlaşılabilir Değişken İsimleri

  • Örneğin üst kısımda verdiğimiz S8246 adlı değişkenin ismini değiştireceksiniz. Yeni değişkeninizin anlaşılabilir olmasına dikkat edin. S8246’yı “eg” diye değiştirmek yerine “egitim” şekilde değiştirmek ilerde kodlarınızı yeniden düzenlerken size ve kodlarınızı inceleyen diğer araştırmacıları büyük faydaları olacaktır. Bazen araştırmacılar değişken isimlerini kısaltacağım diye anlaşılmaz bir yeniden tanımlama yapıyorlar. Evet, kısa değişken ismi kullanmak önemlidir, ama en azından bu değişkenlerin anlaşılabilir olması lazım.

Örnekleme Katsayıları

  • TÜİK tarafından hazırlanan mikro veri setlerinde genellikle faktör adı verilen bir değişken bulunmaktadır. Bu değişken örnekleme katsayısıdır. Türkiye temsiliyetini sağlamak amacıyla bu örnekleme değişkenini analizlerinizde kullanmak zorunda kalabilirsiniz. Ancak özellikle adrese dayalı kayıt sistemi ile birlikte önceki yıllar ile 2014 sonrası arasında örnekleme katsayılarında önemli farklılıklar (tanımlama farklılıkları) olabiliyor. O yüzden bu farklılıklara dikkat etmekte fayda var. Zaten veri setleri elinize geldiğinde TÜİK tarafından hazırlanan bir internet sayfası bulacaksınız, orada bu uyarılar muhtemelen size veriliyor olacaktır. O yüzden size gelen veri setinin açıklamalarını dikkatlice okumak gerekiyor.

TÜİK Çalışanları

  • TÜİK veri setlerini kullanırken anlamadığınız noktaları doğrudan TÜİK’te ilgili veriyi düzenleyen, derleyen ve toplayan birime sorabiliyorsunuz. Size önemli düzeyde yardımları dokunacaktır. Yeri gelmişken söyleyeyim, TÜİK çalışanları çok yardımsever ve anlayışlılar. Benim gibi bir çok araştırmacıya hızlı bir şekilde ve sabırla yardımcı oluyorlar. Kendilerine buradan teşekkürlerimi sunuyorum. 
Bu yazı Araştırma Teknikleri kategorisine gönderilmiş. Kalıcı bağlantıyı yer imlerinize ekleyin.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir