Veri bilimi, her geçen gün gelişen ve hızla büyüyen alanlardan biridir. Ve bu giderek daha fazla veri bilimcisine ihtiyaç duyulmasına neden olmaktadır. Ekim 2022 itibariyle bu ihtiyacın azalmak bir tarafa giderek daha da artacağına inanıyorum.
Neyse ki, veri bilimcisi olmak bir üniversite vs. derecesi gerektirmiyor. Yeni şeyler öğrenmeye açık olduğunuz ve çaba ve zaman ayırmaya istekli olduğunuz sürece, bir veri bilimcisi olabilirsiniz. Bunu gerçekten istiyorsanız elbette.
Şimdi bu noktada sorulması gereken asıl soru; nereden başlamalısınız?
“Başlamak belki her şeyden daha zor olandır, ama içten ve samimi olursanız, her şey yoluna girecektir.” Vincent Van Gogh
İnternet; veri biliminin ve makine öğreniminin temelleri, derin öğrenme, doğal dil işleme, ses tanıma, yani veri biliminin ilgilendigi tüm alanlar hakkında bir şeyler öğrenebileceğiniz platformlarla ve öğreticilerle doludur.
Fakat,
Yeni başlayanlar için, tüm bu hususlarda önlerine çıkabilecek bilgiler çok fazla olabilir ve bu daha başlamadan vazgeçmelerine de neden olabilir. Bu noktada onlara yardımcı olabilecek asıl şey; bir veri bilimcisi olmak için öğrenilmesi gerekenleri sırasıyla ve açıkça ortaya koyabilen yapılandırılmış bir yol haritasına sahip olmaktır.
Bu makalede, veri bilimi öğrenme yolculuğunuz boyunca öğrenilmesi gereken kavramların başından sonuna kadar sizlere rehberlik edecek 10 adımlık bir yol haritası sunacağım.
Adımlar
Adım №1: Programlama
Veri bilimi alanında, teknik anlamda yeniyseniz, en güzeli ilk adım olarak programlama ile başlamak olacaktır. Şu anda, veri biliminde en çok kullanılan ilk iki programlama dili Python ve R’dir.
R: İstatistiksel hesaplama için kullanılan bir programlama dilidir. İstatistiksel yazılım ve veri analizi geliştirmek için yaygın olarak kullanılmaktadır.
Python: Yüksek seviyeli, genel amaçlı bir programlama dilidir. Python, basit programlamadan kuantum hesaplamaya kadar birçok uygulamada ve alanda yaygın olarak kullanılmaktadır.
Python yeni başlayanlar için uygun bir programlama dili olduğundan, onu veri bilimiyle ve gelecekte belki daha bir çok alanda kendini geliştirmek isteyenler için harika bir adım olarak görüyorum. Python’un popülaritesi nedeniyle, hedeflediğiniz alandan bağımsız olarak, öğrenmek için birçok kaynak bulunmaktadır.
En sevdiğim Python öğrenme kaynaklarından bazıları; CodeAcademy, Google Classes, Learn Python the Hard Way.
Ancak, R ile başlamaya karar verirseniz, hem Coursera hem de edX’in ücretsiz olarak denetleyebileceğiniz harika kursları var.
Bazılarınız nasıl programlanacağını zaten biliyor olabilir ve başka bir teknik alandan da veri bilimine geçiş yapabilirsiniz. Bu durumda, bu adımı atlayabilir ve yolculuğun bir sonraki adımına geçebilirsiniz…
Adım №2: Veritabanları
Veri biliminin kalbi veridir. Veri bilimini, verileri kullanarak adeta bir hikaye anlatma sanatı olarak da düşünebilirsiniz.
Bir veri bilimi projesi üzerinde çalıştığınızda, geçerli bir projeyi analiz etmek, görselleştirmek ve oluşturmak için her zaman verilere ihtiyacınız olacaktır. Bu veriler genellikle bazı veritabanlarında saklanır.
Bir veri bilimcisi olarak öne çıkmanın önemli bir adımı, veritabanları ile etkili bir şekilde etkileşim ve iletişim kurmaktır. Basit bir veritabanı tasarlayabilecek bir seviyeye gelirseniz, bu sizi bir sonraki seviyeye taşıyacaktır.
Bir veritabanı ile iletişim kurmak için, onun dilini konuşmanız gerekir, ki bu da SQL’dir.
SQL, Yapılandırılmış Sorgu Dili anlamına gelir ve bir veritabanı ile iletişim kurmak için kullanılır.
SQL öğrenmek için en sevdiğim kaynaklar: CodeAcademy, Khan Academy ve etkileşimli öğrenme SQLCourse.
Adım №3: Matematik
Veri biliminin özü matematiktir. Veri bilimindeki farklı kavramların nasıl işlediğini anlamak için, bunların arkasındaki matematiğe ilişkin temel bir anlayışa sahip olmanız şarttır.
Matematiğin, veri biliminde kariyer yapmak isteyenleri destekleyebilecek bir şey olduğunu biliyorum.
Fakat,
Veri bilimini anlamak için olasılık teorisi, istatistik ve doğrusal cebirin temellerini anlamanız gerekir. Ancak, kariyerinizde kullanacağınız çoğu araç, matematiğin direk kendisini projelerinizde uygulamanızı ortadan kaldıracaktır.
Öyleyse, nasıl çalıştığını, nasıl ve ne zaman kullanılacağını anlamanız gerekir.
Matematiğin sizi veri bilimi dünyasını keşfetmekten korkutarak alıkoymasına asla izin vermeyin. Buna değer olduğunu söyleyebilirim. Coursera’da matematiğin üstesinden gelmenize yardımcı olabilecek ihtiyacınız olan bazı yararlı materyaller var.
Adım №4: Sürüm Kontrolü
Genel olarak yazılım geliştirmede ve veri biliminde, ustalaşılması veya denenmesi gereken en önemli kavramlardan biri sürüm kontrolüdür.
Bir veri bilimi projesi üzerinde çalıştığınızda, farklı kod dosyaları yazmanız, veri kümelerini keşfetmeniz ve diğer veri bilimcileriyle işbirliği yapmanız gerekecektir.
Koddaki tüm değişiklikler, sürüm kontrolü, yani Git kullanılarak yapılır.
Git, yazılım geliştirme sürecinde kaynak kodundaki değişiklikleri izlemek için kullanılan bir sürüm kontrol sistemidir. Git, bir grup programcı arasındaki çalışmaları koordine etmek veya tek bir programcı tarafından herhangi bir dosya kümesindeki değişiklikleri izlemek için kullanılmak üzere oluşturulmuştur.
Git bir sistem olmasına karşılık, bazı web siteleri, komut satırıyla fazla etkileşime girmenize gerek kalmadan Git’i kolayca kullanmanıza izin verir, ki eninde sonunda GitHub veya GitLab gibi komut satırlarına geçiş yapmanız gerekecektir.
Neyse ki Git’in iç işlevselliğini anlamanıza yardımcı olacak birçok kaynak var; ki benim en iyi tercihlerim: BitBucket Learn Git Tutorials ve Harvard CS50 kursundaki bu ders.
Adım №5: Veri Biliminin Temelleri
Veri bilimi kapsamlı bir terimdir; zira farklı kavramları ve teknolojileri içerir. Ancak büyük veri bilimi denizine derinlemesine dalmadan önce, öncelikle bazı temel bilgilere aşina olmanız gerekir.
Başarılı bir veri bilimcisi olmak için geliştirmeniz ve üzerinde çalışmanız gereken önemli beceriler vardır, örneğin:
Veri kümelerini bulma: Herhangi bir veri bilimi projesini başlatmanın iki yolu vardır; bir proje oluşturmak için kullanmanız gereken bir veri kümeniz vardır zaten. Veya öncelikle bir fikriniz vardır ve bunun için de bir veri kümesi bulmanız gerekiyordur. Veri kümelerini keşfetmek ve projeniz için doğru olanı seçmek, edinilmesi gereken önemli bir beceridir.
Bilim iletişimi: Bir veri bilimcisi olarak, sürecinizi ve bulgularınızı iletmek için genel bir izleyici kitlesiyle iletişim kurmanız gerekecektir. Bu nedenle, iletişim becerilerinizi geliştirmeniz ve karmaşık kavramları basit terimler kullanarak açıklamanız gerekecektir.
Etkili görselleştirme: Bulgularınızı doğrulamanın tek yolu onları görselleştirmektir. Görselleştirme, verilerinizi keşfetmekten tutun sonuçlarınızı sunmaya kadar veri biliminde önemli bir rol oynar. Verilerin etkili bir şekilde görselleştirilmesine aşina olmak, projeniz sırasında size tonlarca zaman ve emek kazandırabilir.
Adım №6: Makine Öğreniminin Temelleri
Şuana kadar, programlama becerilerinizi geliştirme üzerinde çalıştınız, matematiğinizi tazelediniz ve veri tabanlarına daldınız. Artık ilk projelerinizi oluşturmak için şimdiye kadar öğrendiklerinizi uygulayarak işin eğlenceli kısmına başlamaya hazırsınız.
Makine öğreniminin temelleri, başlangıç noktasıdır. Ve bu, Doğrusal ve lojistik regresyon, karar ağaçları, Naive Bayes ve destek vektör makineleri (SVM) gibi temel makine öğrenimi algoritmalarını ve tekniklerini öğrenmeye ve keşfetmeye başladığınız zamandır.
Burada ayrıca verilerinizi ele almak ve uygulamak için farklı Python veya R paketlerini keşfetmeye başlayacaksınız. Örneğin; Sciket-learn, Scipy ve Numpy’yi kullanacaksınız.
Daha doğru konumlara ve sonuçlara sahip olmak için verilerinizi nasıl temizleyeceğinizi öğreneceksiniz. Bu, veri bilimiyle neler yapabileceğinizi deneyimleyeceğiniz ve bu alanın günlük yaşamlarımız üzerindeki etkisini görebileceğiniz bölümdür.
Makine öğreniminin farklı yönlerini öğrenmeye başlamak için en iyi adımlardan biri de “Veri Bilimine Doğru” tarzında başlıklı çeşitli makaleleri okumaktır.
Adım №7: Zaman Serileri ve Model Doğrulama
Makine öğrenimi konusunda daha derinlere dalmanın zamanı geldi sanırım. Verileriniz sabit olmayacaktır elbette; ki bu çoğu zaman, bir şekilde zamanla ilgilidir. Zaman serileri, zamana göre sıralanan veri noktalarıdır.
En yaygın olarak, zaman serileri, zaman içinde eşit aralıklarla birbirini takip eden noktalarda alınan veri dizileridir. Onları ayrık zamanlı veriler yapmanız gerekecek. Zaman serileri, zamanın verilerinizi nasıl değiştirdiğini gösterir. Bu, verilerdeki eğilimler, dönemsellik konusunda içgörü kazanmanıza ve bu, verileriniz ile gelecekteki davranışını tahmin etmenize olanak tanır.
Zaman serileri ile uğraşırken, iki ana bölüm üzerinde çalışmanız gerekecektir:
Zaman serisi verilerinin analizi
Zaman serisi verilerini tahmin etmek
Gelecekteki davranışı tahmin etmek için sadece modeller oluşturmak yeterli değildir; bu modelin doğruluğunu onaylamanız da gerekir. Burada modelleri nasıl verimli bir şekilde oluşturup test edeceğinizi öğreneceksiniz.
Dahası, her proje için hata eşiğini nasıl tahmin edeceğinizi ve modellerinizi kabul edilebilir aralıklar içinde nasıl tutacağınızı öğreneceksiniz.
Adım №8: Sinir Ağları
Sinir ağları (Yapay Sinir Ağları veya YSA), bir bilgisayarın gözlemsel verilerden öğrenmesini sağlayan biyolojik olarak ilham alan bir programlama paradigmasıdır.
YSA’lar, farklı öğrenme görevlerini gerçekleştirmek için insan beyninin mimarisini taklit eden bir yaklaşımdır. Bir YSA, insan beynine benzemesi için, bir insan hücresinin sahip olduğu aynı bileşenleri içerecek şekilde tasarlanmıştır.
Dolayısıyla YSA bir dizi nöron içerir; her nöron, bağlantılar yoluyla diğerine bağlanan bir düğümü temsil eder. Bu bağlantılar biyolojik akson-sinaps-dendrit bağlantılarına karşılık gelir. Ayrıca, bu bağlantıların her biri, bir düğümün diğerinde sahip olduğu gücü belirleyen bir ağırlığa sahiptir.
YSA’yı öğrenmek, el yazısını tanıma, desen tanıma ve yüz tanıma dahil olmak üzere daha geniş bir görev yelpazesinin üstesinden gelmenizi sağlar.
YSA, veri bilimi yolculuğunuzun bir sonraki adımı olan derin öğrenmeye geçiş yapmanız için bilmeniz gereken temel mantığı temsil eder.
Adım №9: Derin Öğrenme
Sinir ağları, derin öğrenmeye güç veren paradigmalardır. Derin öğrenme, sinir ağlarının öğrenme gücünden yararlanan güçlü bir teknikler dizisini temsil eder.
Görüntü tanıma, ses tanıma ve doğal dil işleme dahil olmak üzere çeşitli alanlardaki birçok soruna en iyi çözümleri sunmak için yapay sinir ağlarını ve derin öğrenmeyi kullanabilirsiniz.
Şimdiye kadar, veri biliminin farklı yönlerini ele alan birçok Python paketine aşina olacaksınız. Bu adımda, Keras ve TensorFlow gibi popüler paketleri deneme şansına sahip olacaksınız.
Ayrıca, bu adımda, veri bilimindeki son araştırmaları ve gelişmeleri okuyabilecek ve belki de kendinizinkini geliştirebileceksiniz.
Adım №10: Doğal Dil İşleme (NLP)
Neredeyse sona geldiniz. Zaten bitiş işaretini göreceksiniz haritanızda. Şimdiye kadar basit matematikten karmaşık derin öğrenme kavramlarına kadar birçok teorik ve pratik kavramdan geçtiniz.
Peki sırada ne var?
Veri biliminin en sevdiğim alt alanı, doğal dil işleme (NLP)’dir. Doğal dil işleme, insan dillerini anlamak ve işlemek için bilgisayara “öğretmek” için makine öğreniminin gücünü kullanmanızı sağlayan heyecan verici bir daldır.
Bu, ses tanıma, metin okuma uygulaması, sanal yardımı (Siri ve BERT gibi) ve her türden farklı konuşma botlarını içerecektir.
Sonuç
İşte yolun “sonundayız” artık. Burada bitirelim bence, çünkü teknolojiyle ilgili diğer tüm alanlarda olduğu gibi, bu yolun sonu da yok. Hatta giderek hızla da bu yol genişliyor, uzuyor. Bu makaleyi yazarken bile yeni algoritmalar ve teknikler araştırılıyor.
Dolayısıyla, veri bilimcisi olmak, sürekli bir öğrenme aşamasında olacağınız anlamına gelir. İlerledikçe bilginizi ve tarzınızı geliştireceksiniz. Muhtemelen belirli bir alt alana diğerinden daha fazla ilgi duyacak ve daha da derine inecek ve belki bu alt alanda uzmanlaşacaksınız.
Bu yolculuğa çıkarken bilmeniz gereken en önemli şey; açık fikirli olmanız ve nihai hedeflerinize ulaşmak için yeterince zaman ve çaba harcamanız gerektiğidir.
Commentaires