Data Science

 Data Science

Say Hi, to Data Science 

dos:408e87cd4e31c1643b85d7c1953d893120230828182636.jpeg

Seorang data scientist yang andal tentunya harus memiliki bekal yang cukup banyak dan kuat. Setelah Anda mempelajari dasar-dasar data, di materi ini Anda mulai berkenalan dengan data science. Dengan mempelajari modul ini, diharapkan Anda mampu menguasai ilmu dasar data science dengan paham terkait fundamental data science, fakta-fakta menarik tentang data science, dan mengetahui tren kebutuhan data science. 

Oh ya! Karena pada dasarnya data science adalah ilmu yang bergelut dengan data dan algoritma, Anda juga akan mempelajari dasar-dasar matematika guna memahami penerapan matematika di data science

Selain itu, Anda juga akan dikenalkan dengan CRISP-DM atau Cross Industry Standard Process for Data Mining agar dapat memahami berbagai jenis metodologi yang digunakan pada data science.

Kemudian, Anda akan mengeksplorasi keterampilan yang dapat Anda persiapkan untuk menjadi seorang data scientist andal. 

Wah sangat menarik, ya? Siapkan semangat ekstra pada bagian ini, ya. Yuk, kita langsung ke materi. Click to the right!


Apa itu Data Science

Di sini Anda akan diajak berkenalan dengan data science sesuai topik pembahasan kita, yaitu "Say Hi, to Data Science". Sebenarnya, apa sih data science itu? Mengapa data science begitu penting hingga dijuluki “Sexiest job of the 21st century” oleh Harvard Business Review? Daripada penasaran, simak penjelasannya di bawah ini.

dos:c159adfbd414d6cb2ad247ef513e93d520230828182638.jpeg

Anda pasti sudah tidak asing lagi dengan istilah data science, bukan? Telah menjadi pembicaraan hangat di khalayak publik, baik tren tentang data science maupun lowongan data scientist. Bahkan, mungkin sebenarnya Anda secara tidak sadar menggunakan teknologi data science dalam kehidupan sehari-hari seperti contoh pada gambar di atas. Namun, apakah Anda benar-benar paham arti dari data science?

Amazon mengemukakan bahwa data science adalah wawasan yang sangat berguna untuk kebutuhan bisnis. Ilmu ini merupakan penggabungan prinsip dan praktik dari bidang matematika, statistik, artificial intelligence, dan computer engineering untuk menganalisis data dalam jumlah besar.

Menurut Jose Antonio Ribeiro pada publikasinya di Big Data for Executives and Professionalsdata science adalah kegiatan ilmiah yang mencakup pemahaman bisnis, persiapan data, analisis eksplorasi, pemodelan, aplikasi komputasi, evaluasi wawasan, dan tindakan untuk menghasilkan hasil serta menerapkan pengetahuan statistik, matematika, dan komputasi.

Adapun definisi lain, menurut IBM (International Business Machine) menyebutkan bahwa data science adalah menggabungkan matematika dan statistik, pemrograman, analitik, artificial intelligence, serta machine learning.

Dari ketiga definisi di atas dapat disimpulkan bahwa data science ini meliputi disiplin ilmu matematika, komputasi, dan sebagian strategi bisnis.

Disiplin ilmu ini berfokus pada penggunaan teknik matematika dan algoritma untuk memecahkan masalah bisnis yang paling kompleks secara analitis dan memanfaatkan kumpulan data mentah untuk mengetahui insight (wawasan) yang terdapat dalam data tersebut.

Untuk menjadi ahli di bidang data science, kita harus memiliki keahlian dalam beberapa disiplin ilmu sekaligus. Cukup kompleks, tetapi tetap menarik, bukan? Itulah alasannya keahlian data scientist sangat diminati dan menjadi salah satu keputusan karier terbaik yang dapat Anda putuskan. 

dos-2b6cb78504e69fd0b65f31b8720e612420250214101324.jpeg

Namun, apakah Anda tahu perbedaan mendasar antara data science dan data scientist? Simak penjelasannya di bawah ini.

  • Data Science vs. Data Scientist
    Meskipun memiliki nama yang mirip, tetapi keduanya adalah dua hal yang berbeda. Data science merupakan disiplin ilmu, sedangkan data scientist adalah praktisi dalam bidang data science. Sederhananya, data scientist adalah orang yang mengerjakan data science.
  • Data Scientist vs. Data Engineer
    Data engineer merupakan software engineer yang tugas utamanya adalah menyiapkan data yang dikoleksi dari berbagai sumber informasi dengan membangun sistem data atau infrastruktur agar dapat mudah untuk dianalisis dan mendukung kebutuhan perusahaan. Pada praktiknya, data scientist tidak meng-handle semua pekerjaan tentang data, tetapi terbagi menjadi beberapa bagian.
  • Data Scientist vs. Data Analyst
    Selain bekerja sama dengan data engineer, data scientist juga memiliki tanggung jawab yang tumpang tindih dengan data analyst. Data analyst adalah profesi pekerjaan yang bertugas untuk membaca serta menganalisis data yang ada dari perusahaan. Namun, keahlian seorang data scientist umumnya lebih luas dibandingkan data analyst. Secara komparatif, data science biasanya menggunakan R dan Python sebagai bahasa pemrograman. Nah, untuk mempelajari bahasa pemrograman tersebut, seorang data scientist memerlukan ilmu komputer dan keterampilan sains di luar kemampuan analisis bisnis atau analisis data pada umumnya.

Note: Perbedaan terkait data analyst, data scientist, dan data engineer akan dibahas lebih mendalam lagi di modul lain pada kelas ini. Sostay tune sampai akhir, ya.


Mengapa Data Science Begitu Penting?

Sederhananya, data science membantu organisasi atau perusahaan mendapatkan insight (wawasan) tentang bisnis, tingkat keberhasilan strategi, kinerja anggota tim, dan sebagainya. 

Melalui data yang dikumpulkan, sebuah organisasi mampu memantau kinerja anggotanya dan mengambil langkah manajemen yang diperlukan. Lihat contoh pada tabel berikut.

NoKey Performance IndicatorUnit PengukuranTarget

1

% Pertumbuhan penjualan dibanding tahun sebelumnya.

%

29%

2

Skor kepuasan pelanggan (Customer Satisfaction)

Angka

4.81

3

Jumlah pengembangan produk baru.

Angka

3 produk utama.

4

Rata-rata jumlah penjualan per distribusi.

Rupiah

Rp1.000.000.000

5

Rata-rata jam untuk menyelesaikan komplain pelanggan secara tuntas.

Jam

Maksimal 24 jam

Tabel di atas merupakan contoh data dari Key Performance Indicator sebuah perusahaan. Apabila data tersebut dianalisis dengan benar, perusahaan mampu mengukur kinerja anggota maupun perusahaan itu sendiri. Mendapatkan dan menganalisis data-data tersebut merupakan bagian dari proses data science di perusahaan. Alasan tersebut yang menjadikan data scientist diincar banyak perusahaan karena membantu mereka dalam membuat keputusan dan menjaga performance perusahaan di dunia industri.


Fakta Menarik Data Science

World Data Science Initiative mengemukakan beberapa alasan data science begitu dibutuhkan di dunia industri, di antaranya karena data yang semakin melimpah, kekurangan ahli yang mampu mengelola data menjadikan data scientist amat dibutuhkan. Kemudian, diperlukan keahlian yang beragam sebab selain memiliki pengetahuan tentang pemrograman, harus mahir juga dalam menerapkan alat-alat seperti Spark, Hadoop, NoSQL, dll.

Namun, apakah terlintas di benak Anda bagaimana data science bisa berkembang hingga saat ini? Mengapa kebutuhan akan mengelola data semakin membeludak? Agar lebih paham, mari kita simak penjelasan evolusi data science di bawah ini.

Evolusi Data Science di Dunia

dos:0b38c9d7e16ffc9a5222766aaeb53b1020230828182638.jpeg

Tahukah Anda? Sebenarnya, data science dan praktiknya telah berkembang sejak lama. Dalam beberapa tahun terakhir, popularitasnya semakin pesat karena inovasi dalam pengumpulan data, berkembangnya teknologi, dan produksi data yang massive di seluruh dunia. 

  • Tahun 1962: John W. Tukey membuat artikel yang terkenal dengan judul “Masa Depan Analisis Data”, ia meramalkan munculnya bidang baru yang tak terelakkan hampir dua dekade sebelum lahirnya komputer atau PC (Personal Computer). Saat Tukey meramalkan dan mengapresiasi yang sekarang kita sebut “Data Science”, ia tidak sendiri. Peter Naur, seorang insinyur komputer asal Denmark yang memiliki buku “Concise Survey of Computer Methods”, juga mendefinisikan data science pertama, yakni “Ilmu yang berurusan dengan data, ketika ditetapkan, didelegasikan ke bidang dan ilmu lain”.
  • Tahun 1977: Teori dan prediksi dari Tukey dan Naur menjadi lebih konkret dengan adanya The International Association for Statistical Computing (IASC). Awalnya, definisi “didelegasikan ke bidang dan ilmu lain” menjadi “informasi dan pengetahuan”.
  • Tahun 1980 - 1990: Pada tahun ini, data science mulai mengambil langkah signifikan dengan munculnya Knowledge Discovery in Databases (KDD) pertama dan pendirian International Federation of Classification Societies (IFCS). KDD dan IFCS termasuk yang pertama berfokus pada mendidik dan melatih para profesional dalam teori dan metodologi ilmu data.
  • Tahun 1994BusinessWeek, majalah bisnis terkemuka di Amerika, menerbitkan cerita tentang fenomena baru “Database Marketing”. Majalah tersebut menerbitkan proses bisnis yang mengumpulkan dan memanfaatkan big data untuk mempelajari lebih lanjut tentang pelanggan, persaingan, atau teknik periklanan.  
  • Tahun 1990an - awal 2000an: Tahun ini terlihat jelas bahwa data science telah muncul sebagai bidang yang diakui. Beberapa jurnal akademik data science mulai beredar. Pendukung data science seperti Jeff Wu dan William S. Cleveland terus membantu mengembangkan kebutuhan dan potensi data science.
  • Tahun 2000an: Teknologi membuat batu loncatan dengan menyediakan akses yang universal seperti internet, komunikasi, dan pengumpulan data.
  • Tahun 2005Big data mulai memiliki peran. Perusahaan besar seperti Google dan Facebook mengungkap data dalam jumlah besar sehingga memerlukan teknologi baru yang mampu memprosesnya. Tantangan tersebut dijawab Hadoop dan kemudian Spark serta Cassandra dalam debut big data.
  • Tahun 2014: Semakin pentingnya data dan banyak organisasi/perusahaan yang berminat dalam menemukan pola serta membuat keputusan bisnis yang lebih baik, permintaan data scientist mulai terlihat pertumbuhannya di berbagai belahan dunia.
    dos-189dd5d44d23f5cf82a8a374360e49a420250214102552.jpeg
  • Tahun 2015Machine Learning, Deep Learningdan Artificial Intelligence (AI) resmi memasuki ranah data science.
  • Tahun 2018: Peraturan baru di lapangan menjadi salah satu aspek terbesar dalam evolusi data science.
  • Tahun 2020an: Terdapat terobosan baru pada AI dan machine learning sehingga permintaan yang semakin meningkat untuk profesional yang berkualifikasi di big data.

Dampak Data Science di Dunia

Pada dasarnya, sebuah bisnis mempekerjakan data scientist untuk mengumpulkan, membersihkan, mengatur, dan menganalisis kumpulan data yang besar untuk memecahkan masalah yang terjadi pada organisasi atau perusahaan hingga mendapatkan insight (wawasan) untuk ditindaklanjuti. Namun, apakah sebenarnya Anda tahu dampak nyata dari adanya data science?

dos:f676fabbadb3e8c081285bccf4ffab4920230829101748.jpeg

Simak penjelasan berikut.

  1. Promosi pelestarian lingkungan
    Tahukah Anda? Selain digunakan untuk membuat sebuah keputusan yang baik untuk organisasi atau perusahaan, data science memiliki peran penting dalam keberhasilan pengelolaan krisis iklim global, lho. PBB mengembangkan 17 tujuan pembangunan berkelanjutan atau Sustainable Development Goals (SDGs) untuk mengukur dan melacak bagaimana negara menyesuaikan faktor lingkungan, sosial, dan ekonomi untuk memperlambat perubahan iklim.
    dos:1ff5c2497566cf7c6351e7bf9644d2c420230829101747.jpeg
    Contohnya, para ilmuwan di The Ocean Cleanup menggunakan data science untuk meneliti zona plastik lepas pantai terbesar di lautan. Mereka mengumpulkan data menggunakan metode komputasi dan matematis, menganalisis jutaan titik data untuk mengidentifikasi jenis limbah yang ada, dan memperkirakan total sampah plastik.
  1. Kemajuan bidang kesehatan
    Selama pandemi COVID-19, layanan kesehatan dan lembaga pemerintah menggunakan data analyst untuk melacak kasus, memproyeksikan penyebaran infeksi, menginformasikan keputusan kebijakan kesehatan, dan meningkatkan hasil layanan kesehatan.dos:9f0b119644de9a3ea57adebbd5acd1e620230829101747.jpeg
    Contohnya, Johnson & Johnson (J&J) mempekerjakan pakar data science untuk membuat dasbor pengawasan global yang memperkirakan titik persebaran yang memberi tahu pemerintah tentang cara penyakit itu menyebar.
  1. Pemberdayaan negara berkembang
    Setiap tahun, Bank Dunia menilai negara-negara dalam skala 1-100. Skala 1 mewakili kurangnya data statistik penting dan kapasitas analisis, sedangkan skala 100 mewakili kapasitas statistik negara maju. Selama pandemi, 80% kantor statistik nasional di negara berpenghasilan rendah hingga menengah memerlukan dukungan tambahan untuk melakukan pengumpulan dan analisis data penting.

    Misalnya, di Nigeria, data scientist menilai keakuratan, kelengkapan, konsistensi, dan kendala data untuk mengungkap cara memperbaiki proses pemilu dalam kebijakan pendaftaran memilih. Proyek tersebut mendemonstrasikan cara data scientist dapat memberdayakan pemerintah dan masyarakat untuk membangun sistem yang lebih baik menggunakan data.
  1. Peningkatan customer insight
    Salah satu dampak paling menguntungkan yang dimiliki data science terhadap bisnis adalah mengevaluasi, memprediksi, dan memberikan rekomendasi yang akurat dan dipersonalisasi kepada pelanggan.
    dos:93c88fefd81083b235b6f559d2858c9d20230829101746.jpeg
    Contohnya adalah Netflix. Siapa yang tidak kenal dengan platform penyedia layanan streaming terbesar di dunia? Perusahaan tersebut menggunakan data analytics dan machine learning untuk mengumpulkan insight secara real-time tentang kebiasaan penggunanya dalam menampilkan film dan acara TV berdasarkan minat para penggunanya.
  1. Mengembangkan pemimpin yang lebih cerdas
    Data scientist dan pemimpin bisnis telah bekerja sama untuk lebih memahami cara sebuah data dapat menjadi jembatan untuk menginformasikan strategi organisasi yang lebih baik, menginformasikan keputusan, dan mencapai hasil yang lebih baik.
    dos:f02c2a7bb79743b6f41d7411c1d1c5a620230829101747.jpeg
    Contoh pada kasus ini adalah Nancy Green, CEO dari Old Navy, ia menggunakan analisis prediktif untuk mengelola rantai pasokan (Supply Chain) agar lebih baik. CEO dari retailer pakaian tersebut berkata, “Kami melihat peluang besar di depan dengan menggunakan analisis prediktif untuk memperkirakan pasokan guna memenuhi permintaan pelanggan dengan lebih baik.”

Wah… Sungguh menarik, ya? Setelah mengetahui sekilas informasi tentang data science hingga dampak data science di dunia, Anda akan mempelajari hubungan antara data science dan matematika pada materi berikutnya. So, tunggu apa lagi? Mari kita menuju materi selanjutnya. See you there.

Data Science dan Matematika

Sebelum kita mempelajari hubungan data science dengan matematika, mari kita pahami dasar-dasar dari matematika dan kalkulus terlebih dahulu, lalu barulah mempelajari korelasi antara data science dan matematika. 

Dengan mempelajari materi ini, diharapkan Anda mampu memahami konsep dari data science yang seyogyanya tidak luput dari matematika. Perlu digarisbawahi bahwa pada materi ini akan lebih matematis dan memerlukan pemahaman terkait kalkulus sebelumnya. Tak perlu panik karena di akhir nanti Anda akan diberikan sebuah referensi buku yang dapat dipelajari secara mandiri. Sudah siap? Simak penjelasannya di bawah ini dengan saksama. Jangan lupa tarik nafas dan semangat!


Matematika Esensial Untuk Data Science

“Without mathematics, there’s nothing you can do. Everything around you is mathematics. Everything around you is numbers.”

-Shakuntala Devi, Indian writer and mental calculator-

First thing first, seperti kutipan kata di atas bahwa tanpa matematika tidak ada yang dapat Anda lakukan. Segala sesuatu di sekitar Anda adalah matematika. Segala sesuatu di sekitar Anda adalah angka.

Matematika adalah landasan dari setiap disiplin ilmu pengetahuan kontemporer. Hampir semua teknik ilmu data modern, termasuk machine learning dan deep learning memiliki dasar matematika yang mendalam.

Meskipun Anda berada dari latar belakang yang berbeda, pengetahuan tentang matematika esensial ini sangat penting bagi para pemula yang ingin mendalami data science. Selain itu, matematika juga tidak kalah penting perannya untuk sebuah perusahaan karena di antaranya dapat memecahkan masalah dan berinovasi lebih cepat, mengoptimalkan kerja, dan secara efektif menerapkan data yang kompleks terhadap tantangan bisnis.

Mari jelajahi berbagai jenis konsep matematika yang digunakan dalam data science sehingga Anda akan mendapatkan insight (wawasan) baru tentang hal tersebut di bidang data science.


Dasar Matematika

dos:d2b1f5fdbf95dd4566c1d45dbf6ab97a20230829102233.jpeg

Sebelum melangkah ke yang lebih besar, tentu Anda harus memiliki dasar pemahaman yang kuat. Pada materi ini, Anda akan berkenalan dan belajar terkait beberapa materi di bidang matematika yang mencakup hal-hal dasar seperti variabel, fungsi, penjumlahan, persamaan, dan grafik yang tersusun dari materi berikut.

  • Algoritma, eksponensial, fungsi polinomial, dan bilangan relasional.
  • Geometri dasar dan teorema, identitas trigonometri.
  • Bilangan riil dan kompleks.
  • Deret, penjumlahan, dan pertidaksamaan.
  • Grafik dan plotting, koordinat kartesius dan polar, serta irisan kerucut.

Namun, pada materi ini Anda hanya akan mempelajari beberapa hal-hal umum yang menjadi dasar dalam pemahaman matematika di antaranya variabel, fungsi, dan penjumlahan. Sudah tidak sabar? Yuk, mari simak penjelasannya di bawah ini.

Variabel

Menurut Australian Bureau of Statisticsvariabel adalah karakteristik, angka, atau kuantitas apa pun yang dapat diukur atau dihitung. Variabel juga dapat disebut item data. Usia, jenis kelamin, pendapatan dan pengeluaran bisnis, serta negara kelahiran merupakan contoh variabel dan masih banyak lagi contoh-contoh lainnya.

Secara total, ada tiga jenis variabel di bidang data science yang tercantum di bawah ini.

  • Numerikal
    Apakah Anda masih ingat dengan jenis-jenis data? Sama seperti sebelumnya, numerikal merupakan bagian dari data kuantitatif, jenis data ini terbagi menjadi dua sub-kategori, yaitu kontinu dan diskrit.
    KontinuDiskrit
    Berhubungan dengan kuantitas kontinu atau pecahan.
    dos:8e02d32f3dba989d6bada657698de19a20230829103226.png

    Contoh:

    1. Barito Selatan, Kalimantan Tengah merupakan daerah dengan suhu terpanas, yaitu mencapai 35.8 ℃.

    2. Total waktu yang dihabiskan untuk menonton tari kecak adalah 120.25 menit.

    Kategori variabel ini hanya berisi kuantitas diskrit, yaitu bilangan bulat; pecahan tidak diperbolehkan.  
    dos:4a5418a6e3b05688186ffb6df7c2845820230829103437.png

    Contoh:

    1. Mentari telah menjelajahi 10 kota di Indonesia.

    2. Mentari memiliki 5 peliharaan kucing di rumahnya.

  • Kategorikal
    Masih ingatkah Anda dengan data kategorikal yang sudah pernah kita bahas sebelumnya? Jadi, kategorikal merupakan jenis data kualitatif. Jenis data ini terbagi menjadi dua sub-kategori, yaitu nominal dan ordinal.
    NominalOrdinal
    Variabel yang tidak memiliki urutan yang terkait dengannya.
    dos:9783e6ea4dbb258980866157ec172d5420230829103710.png

    Contoh:

    Pulau Jawa, Pulau Papua, Pulau Kalimantan, merupakan nama-nama pulau di Indonesia yang tidak perlu urutan dalam penyebutannya.

    Variabel dengan urutan yang saling terkait dengannya.
    dos:789fb6290370bcacdb090bd502849f3420230829103729.png

    Contoh: 

    Bukittinggi menempati posisi pertama sebagai kota terindah di Indonesia.

  • DateTime
    Kategori variabel ini berkaitan dengan aspek tanggal & waktu. Kategori ini dapat berisi jenis nilai seperti berikut.
    • Hanya memiliki tanggal.
    • Hanya memiliki waktu.
    • Memiliki keduanya.

      Kategori

      Contoh

      Hanya memiliki tanggal

      Tanggal lahir: 29 Mei 1945

      Hanya memiliki waktu

      Waktu boarding pesawat Supartiwi Air tujuan Jakarta-Maluku adalah pukul 08.00 WIB

      Memiliki keduanya

      Waktu pesanan: 07-07-2023 06:06

Untuk melatih pemahaman dan kemampuan Anda terkait materi variabel, berikut merupakan latihan variabel yang dapat Anda coba secara mandiri, lalu bandingkan hasilnya dengan jawaban yang telah tersedia. Good luck!
Latihan Variabel
Jawaban Latihan Variabel

Fungsi

Ekspresi yang mendefinisikan hubungan antara dua atau lebih variabel. Sebagian besar data science difokuskan untuk menemukan hubungan antara variabel dependen dan independen. Sederhananya, variabel independen adalah variabel bebas (x) dan variabel dependen adalah variabel terikat (y) yang dipengaruhi oleh variabel bebas.

Perhatikan analogi berikut.

dos:e573c48b194c28cf764dff2a505a180120230829102227.jpeg

Gambar di atas menunjukan hubungan antara variabel X sebagai variabel bebas dan variabel Y sebagai variabel terikat. Dari gambar di atas dapat dibaca sebagai berikut.

Peningkatan jumlah wisatawan yang datang ke Kota Solo (Y) dapat dipengaruhi oleh peningkatan kualitas wisata di Kota Solo (X).

Seperti definisinya bahwa variabel Y akan berubah apabila terdapat nilai atau perubahan dari variabel X.

Bagaimana apabila diterapkan langsung pada sebuah contoh sederhana dari fungsi linier? Perhatian contoh sederhana berikut.

y = 2x + 1

Perhatikan tabel di bawah ini.

Nilai (x)Fungsi (2x + 1)Hasil (y)[x,y]

0

2(0) + 1

y = 1

[0,1]

1

2(1) + 1

y = 3

[1,3]

2

2(2) + 1

y = 5

[2,5]

3

2(3) + 1

y = 7

[3,7]

Tabel di atas terbagi menjadi tiga kolom yaitu kolom nilai x yang merupakan variabel bebas (X), kemudian terdapat kolom fungsi yang menjadi soal yang ditanyakan, dan terdapat kolom hasil yang merupakan variabel terikat (Y).

Masih seperti contoh sebelumnya bahwa variabel Y akan berubah seiring dengan adanya nilai dari variabel X. Sebelum membaca tabel di atas, perlu disclaimer bahwa nilai x merupakan sebuah pengandaian sehingga apabila Anda tidak memasukkan angka dengan nilai tersebut; maka bukan sebuah kesalahan. Tabel di atas dapat dibaca seperti berikut.

  • Apabila nilai x = 0 dan dimasukkan ke dalam fungsi, maka nilai y adalah 1.
  • Apabila nilai x = 1 dan dimasukkan ke dalam fungsi, maka nilai y adalah 3.
  • Apabila nilai x = 2 dan dimasukkan ke dalam fungsi, maka nilai y adalah 5.
  • Apabila nilai x = 3 dan dimasukkan ke dalam fungsi, maka nilai y adalah 7.

Lalu, bagaimana jadinya jika fungsi tersebut digambarkan menjadi grafik?

dos:ec9f58e89ce3d4a6d812d3f4d6bee1a520230829102224.jpeg

Sudah paham 'kan sekarang? 

Untuk mengukur pemahaman Anda terkait materi fungsi yang telah disampaikan, Anda dapat mencoba latihan berikut secara mandiri. Good luck! 
Latihan Fungsi
Jawaban Latihan Fungsi

Penjumlahan

Penjumlahan umumnya dinyatakan sebagai sigma (Σ). Nah, agar Anda dapat lebih memahami terkait pembahasan penjumlahan, perhatikan contoh di bawah ini.

dos:cf697382f6967c7d16cf433663aa50ae20230829102231.jpeg

Persamaan di atas dapat dibaca sebagai berikut.

i=1 menunjukkan batas bawah (lower limit) atau angka pertama yang akan digunakan; m=5 menunjukkan batas atas (upper limit) atau batas angka paling besar; dan 2i merupakan fungsi yang akan dihitung.

Mudah, bukan? 

Seperti biasa, untuk mengukur pemahaman Anda, yuk lengkapi latihan berikut dan lihat jawaban Anda. Good Luck!
Latihan Penjumlahan
Jawaban Latihan Penjumlahan


Kalkulus

Sebagian besar bidang data science tentunya memerlukan pemahaman tentang prinsip dasar kalkulus dan pengaruhnya terhadap model machine learning. Namun, perlu digarisbawahi bahwa kalkulus pada data science tidak seperti kalkulus pada kelas matematika di sekolah atau perguruan tinggi. Umumnya, beberapa konsep kalkulus yang dapat digunakan data scientist adalah multivariate calculus (Kalkulus multivariabel) dan gradient descent (penurunan gradien).

  1. Multivariate calculus
    Multivariate calculus adalah bidang kalkulus yang melibatkan banyak variabel. Jika output dari fungsi Anda z, bergantung pada satu variabel input (x), maka Anda dapat mendeklarasikannya sebagai berikut.
    z = f(x)

    Selanjutnya, jika output dari fungsi Anda z, bergantung pada beberapa input (x dan y), maka Anda dapat mendeklarasikannya sebagai berikut.

    z = f(x,y)

    Variabel-variabel tersebut (x dan y) adalah input dari fungsi, oleh karena itu dapat memengaruhi hasil output. Perlu diketahui bahwa sebagian besar algoritma machine learning dilatih pada banyak fitur (variabel) sehingga pemahaman tentang cara kerja multivariate calculus sangat penting untuk para pemula.

    Berikut merupakan fungsi multivariate calculus pada machine learning.

    • Dalam algoritma support vector (support vector algorithm), multivariate calculus digunakan untuk menemukan margin maksimal.

    • Masalah pengoptimalan (optimization problems) bergantung pada multivariate calculus.

  1. Gradient descent
    Gradient descent digunakan untuk menemukan minimal atau maksimal dari suatu fungsi. Fungsi tersebut bisa menjadi cost function dari algoritma machine learning. Prinsip dari gradient descent apabila dibuat analoginya adalah Anda seperti melemparkan bola dari permukaan tanah ke atas (kurva naik atau titik tertinggi) maka bola itu akan kembali lagi ke bawah (kurva turun atau titik minimum).
    dos:8e5d07ae7c9627ff513a30ca97b46cf120230829110151.pngGradient descent (penurunan gradien) menemukan laju perubahan variabel dan menyesuaikan untuk bergerak menuju titik minimum.

Turunan

Dalam matematika, derivatif atau turunan adalah laju perubahan fungsi terhadap variabel. Turunan berasal dari garis kemiringan yang bersinggungan dengan grafik fungsi.

Perhatikan gambar berikut.

dos:cf9427e6c20d52118d0631d2d802273b20230829102231.jpeg

Grafik fungsi ditandai berwarna hitam dan garis tangen (garis singgung) adalah yang berwarna merah. Kemiringan dari garis tangen sama dengan turunan fungsi pada titik tersebut.

Untuk mengetahui lebih lanjut penerapan fungsi untuk menjadi sebuah grafik, mari kita mulai dengan contoh fungsi sederhana. Seperti sebelumnya, perlu disclaimer bahwa nilai x merupakan sebuah pengandaian sehingga apabila Anda tidak memasukkan angka dengan nilai tersebut; maka bukan sebuah kesalahan.

f(x) = x2

Seberapa curamkah grafik yang digambarkan apabila x = 2? Mari hitung terlebih dahulu menggunakan tabel agar Anda lebih paham.

Nilai (x)Fungsi = x2Hasil (f(x))[x,y]

-2.1

f(-2.1) = -2.12

f(x) = 4.41

[(-2.1),4.41]


-2

f(-2) = -22

f(x) = 4

[-2,4]

-1

f(-1) = -12

f(x) = 1

[-1,1]

0

f(0) = 02

f(x) = 0

[0,0]

1

f(1) = 12

f(x) = 1

[1,1]


2

f(2) = 22

f(x) = 4

[2,4]


2.1

f(2.1) = 2.12

f(x) = 4.41

[2.1,4.41]

Pada dasarnya cara membaca tabel di atas sama seperti contoh pada kasus sebelumnya, yaitu:

  • Apabila nilai x = -1 dan dimasukkan ke dalam fungsi, maka nilai y adalah 1.
  • Apabila nilai x = 0 dan dimasukkan ke dalam fungsi, maka nilai y adalah 0.
  • Apabila nilai x = 1 dan dimasukkan ke dalam fungsi, maka nilai y adalah 1.
  • dst.

Umumnya, sebuah kurva suatu fungsi dapat digambar dengan menganalisis beberapa konsep turunan, yaitu fungsi naik atau turun, titik optimum (maksimum atau minimum), titik stasioner, dan titik belok. Seperti yang dijelaskan pada gradient descent di atas bahwa prinsip dari fungsi tersebut adalah mencari laju perubahan variabel yang tertera seperti gambar di bawah ini.

dos:aefe093a23e7b2dc9fbf635fa610317120230829102227.jpeg

Dari grafik di atas dapat dilihat bahwa kurva naik berada di titik maksimal 4.41 dan kurva turun berada di titik minimum 0. Setelah mendapatkan nilai f(x), Anda dapat menghitung kemiringan dari nilai maksimum dengan cepat menggunakan persamaan berikut.

dos:3657680eca4a0f6ae76972f03ee8cfd020230829102227.jpeg

Adapun cara menentukan turunan dengan cepat, yaitu menggunakan rumus yang sering ditulis sebagai berikut.

dos:8ce263202333bceb7f9f5b413c0ebc5320230829112326.png

Dari persamaan di atas dapat diartikan bahwa turunan y terhadap x juga dapat didefinisikan sebagai perubahan y terhadap perubahan x. Apabila Anda ingin menggunakan cara yang sederhana, perhatikan contoh soal fungsi berikut.

f(x) = x2

Fungsi f(x) sebagai nilai y, dan x sebagai dx. Apabila kita masukkan y = f(x) atau y = x2, hasilnya akan seperti berikut.

dos:fb15aafaf1144f8f372e22a3486624f820230829102227.jpeg

Maka dari itu, hasil dari turunan fungsi di atas dapat dituliskan seperti di bawah ini. 

dos:97a1baf02b1cc1052fc737a4108e589c20230829102227.jpeg

Atau dapat ditulis seperti ini.

f’(x) = 4

Lalu, bagaimana kegunaan turunan dalam data science?

Turunan atau derivatif digunakan oleh machine learning untuk memecahkan masalah pengoptimalan. Algoritma pengoptimalan seperti gradient descent menggunakan turunan untuk memutuskan bertambah atau berkurangnya parameter training.

Untuk melatih pemahaman dan kemampuan Anda terkait materi turunan, berikut merupakan latihan variabel yang dapat Anda coba secara mandiri, lalu bandingkan hasilnya dengan jawaban yang telah tersedia. Good luck!
Latihan Turunan
Jawaban Latihan Turunan

Integral

Apabila sebelumnya turunan merupakan suatu perhitungan terhadap perubahan nilai fungsi karena perubahan nilai input, maka secara sederhananya integral merupakan kebalikan dari operasi turunan. 

Fungsi dari adanya integral adalah untuk mengetahui cara integral mencari luas di bawah kurva.

Mari kita gunakan contoh sederhana seperti di bawah ini dengan batasan x = 0 dan x = 1

f(x) = 2x

Seperti biasa, mari kita hitung dalam bentuk tabel agar Anda lebih paham.

Nilai (X)Fungsi (2x)Hasil (f(x))[x,y]

0

f(0)  = 2(0)

f(x) = 0

[0,0]

1

f(1) = 2(1)

f(x) = 2

[1,2]

Untuk membaca tabel di atas masih sama dengan contoh yang sebelumnya, yaitu:

  • Apabila nilai x = 0 dan dimasukkan ke dalam fungsi, maka nilai y adalah 0.
  • Apabila nilai x = 1 dan dimasukkan ke dalam fungsi, maka nilai y adalah 2.

Apabila digambarkan menjadi sebuah kurva, maka di bawah ini merupakan hasil integral dari fungsi di atas.

dos:f836fed214cee28b4357b313226faeaa20230829102228.jpeg

Karena luas daerah di atas tidak dapat dihitung secara langsung, maka dari itu luas area di bawah kurva perlu dibagi menjadi beberapa bagian seperti pada gambar di bawah ini.

dos:dbff6ae24cbffbd20910e0cee1268d0b20230829102228.jpeg

Luas area tersebut hampir mendekati luas dari total 6 persegi panjang. Jika jumlah persegi panjang tersebut terus diperbanyak hingga mendekati tak terhingga, luas dari seluruh persegi panjang akan sama dengan luas daerah R. Dengan kata lain, luas dari area R sama dengan luas dari seluruh persegi panjang yang banyaknya tak terhingga. 

Gambar di bawah ini merupakan contoh apabila Anda membagi integral menjadi bagian yang lebih banyak. Semakin banyak persegi panjang yang dibuat, semakin akurat pula luas dari bawah kurva tersebut.

dos:54f276398dd17b9c0332161769c884ae20230829102228.jpeg

Namun, pada modul ini, kita hanya akan membahas integral sederhana. Dari persamaan fungsi di atas, batas bawah x=a dan batas atas x=b dapat ditentukan dengan mengintegralkan fungsi tersebut pada interval a ≤ x ≤ b.

dos:58188effdc849cdbee125f4b9f859f2420230829102229.jpeg

Untuk mengetahui luas daerah tersebut, kita cukup menghitung integral dengan fungsinya adalah f(x) = x2 dan batas pengintegralan antara 0 dan 1.

dos:a52d12629601096b2a24d946ca5ed5ee20230829102229.jpeg

Bagaimana kesan yang Anda dapatkan dari materi integral? Saya yakin Anda sudah memahaminya. Apabila Anda masih membutuhkan penjelasan lebih lanjut, mari kita berdiskusi di forum diskusi.


Statistika

Jika berbicara tentang statistika, Anda mungkin menyangka istilah tersebut sama dengan statistik, padahal keduanya adalah hal yang berbeda. Simak perbedaannya dalam tabel berikut.

StatistikStatistika

Sebuah kumpulan data, angka, atau informasi.

Ilmu yang mempelajari data atau angka tersebut dikumpulkan, diolah, dan dianalisis untuk menghasilkan sebuah informasi yang bisa digunakan dalam pengambilan keputusan.

Sejauh ini, statistika adalah bagian penting dari matematika yang perlu Anda kuasai untuk data science. Statistika adalah cabang matematika yang mengumpulkan data dan menganalisis kumpulan data besar untuk menginterpretasikan wawasan yang bermakna. Data scientist menggunakan statistika sebagai berikut.

  • Mengumpulkan (collect), meninjau (review), menganalisis (analyze), dan mendapatkan wawasan dari data (insight from data).
  • Mengidentifikasi dan menganalisis pola data menjadi insight (wawasan) bisnis yang dapat ditindaklanjuti.
  • Menjawab pertanyaan dengan membuat eksperimen, menganalisis, dan menafsirkan kumpulan data.
  • Memahami machine learning dan model prediksi (predictive model).

Pada kelas ini, Anda akan berkenalan dengan statistika deskriptif dan inferensial. Pernah mendengar kah sebelumnya? Jika belum, yuk kita langsung ke materinya.

Statistika Deskriptif

Statistika deskriptif adalah metode yang meringkas kumpulan data tertentu, dapat berupa representasi dari seluruh populasi atau sampel dari suatu populasi. Statistika deskriptif membantu menjelaskan dan memahami fitur kumpulan data tertentu dengan memberikan ringkasan singkat tentang sampel dan ukuran data.Statistika deskriptif terbagi menjadi dua ukuran, yaitu ukuran tendensi sentral dan ukuran variabilitas. 

  • Tendensi sentral: Berfokus pada nilai rata-rata, median, dan modus.
  • Variabilitas: Fokus pada penyebaran data seperti range, varians,  standar deviasi, variabel minimum, dan maksimum, kurtosis, dan skewness.

Berikut penjelasan lebih lengkapnya.

Tendensi sentral
Seperti yang dijelaskan bahwa tendensi sentral lebih berfokus pada nilai rata-rata, median, dan modus. Bayangkan Anda memiliki beberapa data di bawah ini.

3, 5, 6, 1, 9, 2, 4, 7, 8, 1

Mari kita hitung tendensi sentralnya.

  • Mean (nilai rata-rata)
    Mean adalah rata-rata dari kumpulan data. Nilai ini didapat dengan menjumlahkan semua angka dalam kumpulan data dan membaginya dengan jumlah kumpulan data tersebut.
    dos:e54cd779a0bc80c658e28214e3e9fef220230829113211.pngKeterangan:
    dos:7193acc674c1ece201e671829f03c2a320230829102230.jpeg
    Dari rumus di atas, kita dapat menghitung data yang sudah diberikan.
    dos:f996e81d0fef4516a0374ef6e54fb58820230829140208.pngDari perhitungan tersebut didapat nilai rata-rata dari kumpulan data di atas adalah 4.6.

  • Median (nilai tengah)
    Median adalah nilai tengah dari kumpulan data yang diurutkan dari yang terkecil hingga yang terbesar. Untuk menentukan median, terdapat dua cara: untuk kumpulan data berupa ganjil atau genap.

    Apabila set data berjumlah ganjil, rumus yang digunakan seperti berikut.
    dos:f989b933070b4b7a9a13d0261005c57b20230829140106.pngNamun, jika set data berjumlah genap, rumus yang digunakan seperti berikut.
    dos:0da4b955507dfa833ae48849f90fbe0f20230829135813.pngKeterangan:
    Me = median
    n = jumlah pengamatan
    X = suku ke-

    Mari kita aplikasikan pada contoh data di bawah ini.
    3, 5, 6, 1, 9, 2, 4, 7, 8, 1

    Catatan! Sebelum menghitung median, hal pertama yang perlu dilakukan adalah mengurutkan nilai dari yang terkecil sehingga hasilnya akan seperti berikut.

    1, 1, 2, 3, 4, 5, 6, 7, 8, 9

    Karena data di atas berjumlah 10 (genap), Anda dapat menyelesaikannya menggunakan rumus median dengan jumlah data genap.
    dos:83ba6c10341936b814f8b223d1b56c7820230829155604.pngDi sini, suku ke-5 adalah 4 dan suku ke-6 adalah 5 sehingga median dari contoh data tersebut adalah 4.5.

  • Modus (nilai paling banyak muncul)
    Modus adalah angka yang paling sering muncul dalam kumpulan data. Dari contoh data "3, 5, 6, 1, 9, 2, 4, 7, 8, 1", sudah jelas bahwa modusnya adalah angka 1 karena ia yang paling sering muncul di antara yang lain.

    Catatan! Apabila Anda menemukan lebih dari satu modus yang sama dalam satu data, Anda perlu menuliskan seluruh nilai modus tersebut. Contoh:
    1, 1, 2, 3, 4, 5, 5, 6, 7, 8, 9
    Dari data di atas terdapat dua modus yaitu bernilai 1 dan 5. Jadi, dapat disimpulkan bahwa modus di atas bernilai 1 dan 5.

Variabilitas
Variabilitas menjelaskan seberapa jauh titik data terpisah satu sama lain dan dari pusat distribusi karena contoh dari variabilitas sangat beragam. Pada kelas ini, Anda hanya akan dikenalkan secara singkat beberapa jenis variabilitas seperti range, varians, dan standar deviasi.

  • Range: jangkauan suatu nilai.
  • Varians: penyebaran angka dalam kumpulan data
  • Standar deviasi: ukuran penyebaran dalam kumpulan data.

Mari kita telaah range, varians, dan standar deviasi menggunakan contoh data di bawah ini.

18, 41, 59, 90, 92

Pertama, mari kita hitung nilai range (r) dari data tersebut. Untuk menentukan range, kita dapat menggunakan rumus seperti berikut.

dos:e3fc65f8cbdaf0d85aa48b4e1259615720230829150257.png

Kita lanjut ke perhitungan varians. Sebelum menentukan varians, Anda perlu menghitung simpangan rata-rata terlebih dahulu menggunakan rumus berikut.

dos:eaf9ba6d873cdcf2056be9bbc7402aeb20230829102230.jpeg

Keterangan:

  • SR = Simpangan rata-rata
  • X = data ke-
  • dos:7a902670bfabbbb992e853a1154a6ad720230829162251.png = nilai rata-rata data
  • n = banyak data

Karena pada rumus simpangan rata-rata di atas perlu menghitung nilai rata-rata dari data, hitunglah nilainya terlebih dahulu.

dos:a3f11cc982f536c26b001d2112f1bea120230829161303.png

Setelah mendapatkan nilai rata-rata maka Anda dapat menghitung simpangan rata-rata dengan rumus berikut.

dos:e387a6e932b16cd36b44b2bb89fc7b2d20230829173039.png

Catatan: Tanda absolut (|...|) menunjukkan nilai apa pun yang dioperasikan dalam perhitungannya pasti bernilai positif.

Setelah mendapatkan nilai simpangan rata-rata, maka Anda dapat menghitung nilai varians dengan rumus berikut.

dos:73777c982d81533ed2ca469a1c8dec5720230829102230.jpeg

Keterangan:

  • S2 = Nilai varians
  • X = data ke-
  • dos:f76c1854998f2f53a9d4c294c63318dc20230829173508.png= nilai rata-rata data
  • n = banyak data

Anda dapat langsung memasukkan nilai-nilai di atas pada rumus berikut.

dos-f7a7f4b3521e6b394b00a8b21135358320250213135830.png

Terakhir, kita akan menghitung standar deviasi (S) menggunakan rumus berikut.

dos:555d0a413379c01732f3bddd9005aaee20230829175341.png

Jadi, dari perhitungan di atas, kita dapat menyimpulkan bahwa nilai akhirnya adalah sebagai berikut.

  • Range (r) = 74
  • Varians = 1012.5
  • Standar Deviasi (S) = 31.81

Apabila Anda merasa belum puas akan pembahasan di atas, silakan coba latihan berikut untuk mengasah kemampuan Anda, ya.

Untuk mengukur pemahaman Anda terkait materi statistika yang telah disampaikan, Anda dapat mencoba latihan berikut secara mandiri. Good luck! 
Latihan Statistika Deskriptif

Jawaban Latihan Statistika Deskriptif

Hmm… Cukup panjang ya pembahasan terkait statistika deskriptif. Kami yakin Anda pasti memiliki semangat juang yang hebat sehingga ingin menyelesaikan kelas ini, bukan?

Inferensial (Inference)

Statistika inferensial merupakan teknik analisis data yang digunakan untuk menentukan kesamaan antara hasil yang diperoleh dari suatu sampel dengan hasil yang akan didapat pada populasi secara keseluruhan. Dengan demikian, statistika inferensial membantu peneliti untuk mencari tahu apakah hasil yang diperoleh dari suatu sampel dapat digeneralisasi pada populasi.

Terdapat banyak sekali contoh aplikasi dan penerapan statistika inferensial dalam kehidupan. Namun, secara umum, statistika inferensial yang sering digunakan, yaitu:

  1. Analisis Regresi
    Digunakan untuk memprediksi hubungan antara variabel independen dengan variabel dependen. Sebagai contoh, Anda merupakan data scientist yang ingin mengetahui faktor yang memengaruhi minat wisatawan berlibur ke Bandung. Nah, Anda dapat menguji hal tersebut menggunakan variabel seperti keindahan, sarana dan prasarana, keindahan, sumber objek wisata, dll.
  1. Pengujian Hipotesis
    Pengujian ini merupakan pengujian statistika ketika kita ingin mengetahui kebenaran dari sebuah asumsi. Contohnya, wanita cenderung lebih suka warna merah muda dibandingkan warna hitam. Benarkah demikian?

    Nah, untuk membuktikan hal tersebut, maka Anda bisa mengambil sebagian sampel dan melakukan pengujian terhadap sampel yang telah diambil. Terdapat beberapa metode testing yang umum digunakan seperti Z-test, T-test, dll.


Aljabar Linier

Aljabar linier adalah salah satu keterampilan matematika yang banyak digunakan, di antaranya pada sebagian besar machine learning dapat diekspresikan dalam bentuk matriks dan pada deep learning untuk membuat artificial neural network (jaringan syaraf tiruan). 

Pada dasarnya, data scientist bekerja dengan cara memanipulasi dan menganalisis data mentah melalui matriks, baris, dan kolom angka atau titik data. Aljabar linier merupakan komponen inti dari pre-processing data sehingga ia digunakan untuk mengatur data mentah sehingga dapat dibaca dan dipahami oleh mesin.

Minimal, seorang data scientist harus mengetahui vektor dan matriks, serta cara untuk menerapkan prinsip aljabar linier untuk menyelesaikan masalah data. Yuk, simak penjelasannya di bawah ini.

Vektor

Sederhananya, vektor adalah besaran yang memiliki nilai dan arah. Vektor merupakan hal umum yang digunakan dalam machine learning untuk merepresentasikan data dengan cara yang paling optimal dan terorganisir. Tentunya, vektor memiliki beberapa dimensi dengan tujuan tertentu. Namun, pada dasarnya, vektor memiliki dua dimensi yang mana hanya positif dan negatif untuk menunjukan sebuah arah. 

Pada pembelajaran ini, Anda akan dikenalkan dengan konsep dasar dari vektor yaitu dua dimensi dan tiga dimensi untuk menjelaskan bagaimana cara vektor bekerja.

Vektor Dua Dimensi
Sederhananya, vektor adalah panah dalam ruang dengan arah dan panjang tertentu yang sering kali mewakili sepotong data.

dos:18d679aff1f5b5c7f36b0dd866e0b57f20230829102231.jpeg

Secara matematis, vektor dua dimensi dideklarasikan seperti berikut.

dos:48cb7302754179877a1631354de5439e20230829102231.jpeg

Perhatikan gambar berikut.

dos:767f9a271ed8c9f2eb54fc3172330e4420230829102231.jpeg

Katakanlah pada suatu hari Anda sedang mengukur tanah. Ukuran luas rumah 10 meter persegi dengan harga Rp10.000.000. Dari kasus di atas, kita dapat menyatakannya sebagai vektor [10, 10000000], melangkah 10 meter secara horizontal dan 10000000 langkah secara vertikal.

Vektor Tiga Dimensi
Selain vektor dua dimensi, ada pula vektor tiga dimensi seperti berikut.

dos:219642ba57c0707954fc35a92f66879620230829102234.jpeg

Dengan penulisan matematis, vektor tiga dimensi dideklarasikan seperti yang tertera di bawah.

dos:0cc22b8316895415a1b99dfd5d8fcf5920230829102233.jpeg

Menambahkan dan Mengombinasikan Vektor
Dari vektor dua dimensi dan tiga dimensi yang telah Anda pelajari di atas, selanjutnya Anda akan mempelajari cara menjumlahkan dua atau lebih vektor. Perhatikan contoh berikut.

dos:64fdf29305bd24ca84390094ec73257220231026144638.png

Adakah yang dapat menebak hasil dari penjumlahan dua vektor tersebut? Mari kita hitung sampai tiga. Satu … Dua … Tigaaa…

Untuk mengetahui jawabannya, simak penjelasan di bawah ini.

dos:7196775c552e78ac9cb2a2467af5419a20230829102234.jpeg

Ketika terdapat dua jenis vektor, maka cara matematis berhitungnya adalah seperti yang tertera pada gambar di atas.

Apabila digambarkan dengan vektor, hasilnya akan seperti gambar di bawah ini.

dos:76f45fda52c7a3eddee884ab07677f5320230829102234.jpeg

Bagaimana terkait penjelasan vektor? Cukup mudah dipahami, bukan? Apabila Anda merasa terdapat materi yang masih membingungkan, jangan lupa singgah di forum diskusi untuk melaporkannya, ya! See you there. 

Tahukah Anda?
Mengapa Anda harus belajar vektor? Mengapa vektor sangat penting di data science? Pada dasarnya, saat menggunakan statistik dan machine learning, data sering diimpor dan diubah menjadi vektor numerik sehingga Anda dapat bekerja dengannya. 

dos:6b40d147420ff909072ba6e7934df0fa20230829102234.jpeg

Simulator penerbangan adalah salah satu hasil implementasi dari adanya vektor dan aljabar linear untuk pemodelan.

Matriks

Setelah sebelumnya membahas vektor, sekarang kita akan mempelajari terkait matriks, yaitu vektor yang dibawa ke tingkat berikutnya. Ya, betul! Anda masih akan bergelut dengan vektor. 

Perlu Anda ketahui bahwa matriks adalah struktur data dasar yang digunakan untuk menyimpan data dan menyelesaikan sistem persamaan linier. Perlu Anda ketahui bahwa matriks sangat berguna, lho. Ia dapat menyimpan kumpulan persamaan, posisi artikel dari waktu ke waktu, catatan keuangan, dan masih banyak hal lainnya. Dalam data science, matriks terkadang disebut tabel data yang terdiri dari baris dan kolom atau baris matriks dan kolom matriks. Matriks dapat berupa bilangan real, kompleks, bahkan boolean.

Tabel di bawah ini merupakan salah satu implementasi dari matriks.

NoNama PenumpangTujuanTotal BagasiSuhu BadanStatus Check-In

1

Mentari Sahaja

Bandara I Gusti Ngurah Rai

20 kg

36℃

YES

2

Bintang Purnama

Bandara I Gusti Ngurah Rai

12 kg

32℃

NO






Total penumpang Supartiwi Air

100 penumpang

Secara sadar maupun tidak sadar, mungkin sebenarnya Anda telah bergelut dengan matriks di kehidupan sehari-hari. Mulai dari nilai rapot saat sekolah, pembagian daftar nama saat study tour, atau bahkan melihat daftar nama yang lolos saat seleksi masuk kerja. Benar, nggak?

Lalu, apa sebenarnya perbedaan antara vektor dan matriks? Mudahnya vektor adalah representasi dari satu dimensi array, dan matriks adalah representasi dari beberapa dimensi array. 

Bagaimana terkait pembahasan vektor dan matriks? Anda pasti sudah paham, bukan? 

Metodologi Data Science

Hal lain yang perlu menjadi dasar pengetahuan dalam belajar data science adalah terkait metodologi data science. Pernahkah Anda mendengar CRISP-DM?

dos:1db98e9b7344bd82a39d36767e19c11a20230829181112.jpeg

CRISP-DM atau Cross Industry Standard Process for Data Mining adalah proses model yang berfungsi sebagai dasar untuk proses data science. Proses model CRISP-DM memberikan gambaran tentang siklus hidup proyek data mining yang terdapat pada big data.

Sekilas info, data mining berarti proses pengumpulan informasi penting dari data dalam jumlah yang besar. 

CRISP-DM memiliki enam tahapan yaitu Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, dan Deployment. Mari kita breakdown satu per satu.

  1. Business Understanding
    Tahap ini merupakan pemahaman mendalam tentang kebutuhan pelanggan. Kegiatan yang dilakukan pada tahap ini adalah menentukan tujuan bisnis, menilai situasi ketersediaan sumber daya, menentukan tujuan pengumpulan data, dan menghasilkan rencana proyek.
  2. Data Understanding
    Tahap ini mendorong fokus untuk mengidentifikasi, mengumpulkan, dan menganalisis kumpulan data yang dapat membantu Anda mencapai tujuan proyek. Kegiatan pada tahap ini adalah mengumpulkan data awal, menjelaskan data, menjelajahi data, dan memverifikasi kualitas data.
  3. Data Preparation
    Fase ini sering disebut “data mining”, yaitu menyiapkan kumpulan data akhir untuk pemodelan. Kegiatan pada fase ini di antaranya memilih data atau menentukan set data yang akan digunakan, membersihkan data, membangun data atau mendapatkan atribut baru yang akan membantu pemrosesan, mengintegrasikan data, dan yang terakhir adalah memformat data.
  4. Modeling
    Secara garis besar, pada tahap ini Anda akan membuat dan menilai berbagai model berdasarkan beberapa teknik pemodelan yang berbeda. Terdapat empat tugas di tahapan ini, antara lain memilih teknik pemodelan, menghasilkan desain pengujian, membangun model, dan menilai model.
  5. Evaluation
    Fase evaluasi ini melihat lebih luas model yang paling sesuai dengan bisnis dan yang harus dilakukan selanjutnya. Terdapat tiga kegiatan yang mewakili fase ini, yaitu mengevaluasi hasil, melakukan peninjauan, dan menentukan langkah berikutnya.
  6. Deployment
    Ini merupakan tahap terakhir dari proses CRISP-DM. Perencanaan untuk deployment dimulai dari fase business understanding dan harus menggabungkan tidak hanya menghasilkan nilai model, tetapi juga cara mengonversi skor keputusan serta metode untuk menggabungkan keputusan tersebut.

Keterampilan Data Scientist

dos:e04fc2e11aa6a736d2b10446a06ba03f20230829181512.jpeg

Menjadi seorang data scientist tentu bukan hanya keterampilan teknis yang diperlukan, melainkan juga perlu adanya keseimbangan antara soft skill dan hard skill guna menunjang karier Anda di masa depan. Pada pembahasan kali ini, Anda akan mengeksplorasi keterampilan yang dibutuhkan agar menjadi seorang data scientist andal. Simak penjelasannya dengan saksama, ya.


Keterampilan Interpersonal

Menurut Investopedia, keterampilan interpersonal adalah kemampuan yang dimiliki seseorang dalam melakukan komunikasi maupun interaksi dengan orang lain. Mari kita breakdown satu per satu lima hal esensial terkait keterampilan interpersonal yang harus dimiliki oleh seorang data scientist.

  1. Komunikasi Efektif
    Bagi seorang data scientist, komunikasi lisan atau tertulis sangatlah perlu diperhatikan. Bukan hanya untuk menunjang kualitas pekerjaan Anda, tetapi juga sebagai cara dalam berinteraksi dengan tim, klien, dan para senior.

    Mengembangkan keterampilan komunikasi yang baik sudah jelas akan membantu Anda dalam membagikan ide-ide yang kompleks dengan jelas agar semua orang mampu memahaminya dengan baik. Selain itu, Anda juga akan lebih mudah ketika bertemu dengan klien yang memiliki kebutuhan berbeda atau belum pernah melihat pekerjaan serupa sebelumnya.

    Hal lain yang terpenting dari memiliki komunikasi efektif adalah saat melakukan presentasi lisan. Kendati seorang data scientist kerap menggunakan slide presentasi sebagai penunjang dalam menjelaskan data, tetapi skill komunikasi tetap penting agar Anda mampu menyampaikan informasi dan poin-poin penting lebih komprehensif sehingga dapat meningkatkan pemahaman audiens.

  1. Pengetahuan
    Mungkin orang awam akan menganggap bahwa teknologi AI seperti ChatGPT atau Gemini sangatlah canggih atau bahkan seperti sulap karena seolah-olah ajaib dapat dengan cepat mengeluarkan sebuah jawaban. Pada kenyataannya, hal tersebut tidak luput dari peran seorang data scientist yang memiliki pengetahuan untuk mengumpulkan dan mengolah data yang tepat. Tanpa adanya keterampilan tersebut, akan sulit untuk mengidentifikasi metode yang tepat untuk menyelesaikan masalah.

  1. Memiliki Pemahaman Bisnis
    Memiliki pemahaman yang baik terhadap bisnis adalah poin plus bagi seorang data scientist. Mengapa demikian? Ini memungkinkan Anda untuk memahami cara berbagai segmen dan proses dalam bisnis bekerja, serta dapat memahami masalah yang mungkin dihadapi perusahaan. Setelah Anda memiliki pemahaman tentang hal yang ingin dicapai oleh perusahaan, akan lebih mudah untuk menerjemahkan masalah bisnis dan memilih solusi yang paling tepat.

    Tidak dapat dipungkiri bahwa nanti Anda akan menemukan sebuah perusahaan yang ingin membangun hal kompleks hanya dengan satu orang data scientist. Namun, sebelum menyelesaikan persoalan tersebut, bisa jadi sebenarnya peran data analyst pun sudah cukup. Maka dari itu, sebelum benar-benar menyelesaikan persoalan, pastikan bahwa pekerjaan tersebut termasuk dalam scope pekerjaan Anda.

  1. Kerja Sama
    Poin keempat yang perlu dimiliki oleh seorang data scientist adalah mampu bekerja sama dengan orang lain. Seperti yang kita tahu bahwa kerja sama tim adalah kunci keberhasilan untuk semua bidang. Dengan memiliki kemampuan kerja sama yang bagus, secara tidak langsung hal tersebut akan membantu Anda mencapai tujuan bersama.

  1. Penyelesaian Masalah (Problem Solving)
    Hal esensial terakhir yang perlu dimiliki oleh seorang data scientist adalah problem solving. Pada poin nomor dua telah disebutkan bahwa seorang data scientist wajib punya pengetahuan untuk mengidentifikasi suatu masalah dan relevan dengan tujuan bisnis. Tidak cukup sampai di situ, setelah melaksanakan identifikasi terhadap suatu masalah, maka tugas data scientist yang lain adalah mampu menyelesaikan masalah hingga mencapai tujuan bisnis organisasi atau perusahaan.


Keterampilan Teknis

Setelah mengetahui dan menguasai keterampilan interpersonal untuk menjadi data scientist, Anda akan diajak berkenalan dengan keterampilan teknis yang diperlukan. 

dos:dd1adf7cca0f975b777c5d546ce8170020230829181512.jpeg

Berikut penjabaran detailnya.

  1. Statistik dan probabilitas
    Untuk dapat menulis model algoritma machine learningdata scientist perlu mempelajari statistika dan probabilitas terlebih dahulu. Dalam machine learning, penting untuk menggunakan konsep analisis statistik seperti regresi linier. Hal itulah yang menjadi alasan bahwa langkah pertama dalam mempelajari data science adalah memiliki ketertarikan terhadap statistika dan probabilitas.

    Selain harus bisa mengumpulkan, menafsirkan, mengatur, dan menyajikan data; seorang data scientist juga wajib memahami konsep rata-rata (average), median, modus, varians, dan standar deviasi.

  1. Pengolahan data (data wrangling dan database management)
    Setelah menguasai statistika dan probabilitas, langkah selanjutnya adalah mengolah data. Perlu digarisbawahi bahwa kemampuan pengolahan data ini sudah harus diiringi dengan kemampuan data mining yang telah dibahas sebelumnya.

    Arti dari pengolahan data di sini adalah proses data wrangling, yaitu pembersihan dan pengorganisasian kumpulan data yang kompleks agar lebih mudah diakses dan dianalisis. Dengan kata lain, kita memanipulasi data untuk mengategorikannya berdasarkan pola dan tren untuk membuat keputusan berdasarkan data.

    Tahapan ini juga berkaitan dengan pemahaman database management atau manajemen basis data yang berfungsi untuk mengekstrak data dari sumber yang berbeda dan mengubahnya menjadi format yang sesuai untuk kueri dan analisis, lalu memasukkan data tersebut ke data warehouse system.

  1. Pemrograman
    Setelah menguasai statistika dan probabilitas dan mampu mengolah data, langkah ketiga adalah memiliki ketertarikan terhadap pemrograman. Bahasa pemrograman yang sering digunakan pada data science umumnya adalah Python, R, SAS, dan SQL.

    Skill pemrograman diperlukan untuk menyortir, menganalisis, dan mengelola data dalam jumlah besar (big data). Sebagai data scientist yang baru memulai kariernya, Anda harus mengetahui konsep dasar data science dan mulai membiasakan diri dengan cara menggunakan Python.

  1. Machine learning
    Perbedaan antara data science dengan disiplin ilmu data lainnya adalah terdapat machine learning di dalamnya. Menggabungkan beberapa disiplin ilmu dan teknik dapat membantu meningkatkan keahlian menjadi seorang data scientist sebab memudahkan Anda untuk mengumpulkan dan menyintesis data serta mampu memprediksi kumpulan data tersebut untuk masa mendatang. Kita akan membahas lebih mendalam lagi terkait machine learning di modul lain pada kelas ini. So… stay tune terus, ya.

  1. Analisis data
    Setelah semua data dikumpulkan dan diolah, Anda wajib memiliki ketajaman dalam menganalisis data. Pasalnya, hasil dari analisis tersebut akan digunakan untuk membuat sebuah keputusan.

    Selain perlu mengetahui cara menganalisis, mengatur, dan mengategorikan data; Anda juga perlu membangun keterampilan dalam visualisasi data. Menjadi seorang data scientist tentu perlu memiliki kemampuan dalam membuat chart atau grafik penting. Tenang dulu, materi terkait analisis data akan kita bahas pada modul berikutnya. Jia you! (baca: ciayo!)

  1. Cloud Computing
    Setelah semua rangkaian selesai, hal yang perlu diperhatikan adalah keterampilan penggunaan platform cloud computing. Sebagai data scientist, kemungkinan besar Anda perlu menggunakan cloud untuk membantu dalam proses analisis dan visualisasi data yang tersimpan di lingkungan cloud computing.

Setelah mengetahui seluruh keterampilan umum data scientist, kira-kira Anda sudah menguasai nomor berapa saja?

Rangkuman Fundamental Data Science

Amazon mengemukakan bahwa data science adalah wawasan yang sangat berguna untuk kebutuhan bisnis. Ilmu ini merupakan penggabungan prinsip dan praktik dari bidang matematika, statistik, artificial intelligence, dan computer engineering untuk menganalisis data dalam jumlah besar.

Menurut Jose Antonio Ribeiro pada publikasinya di Big Data for Executives and Professionalsdata science adalah kegiatan ilmiah yang mencakup pemahaman bisnis, persiapan data, analisis eksplorasi, pemodelan, aplikasi komputasi, evaluasi wawasan, dan tindakan untuk menghasilkan hasil serta  menerapkan pengetahuan statistik, matematika, dan komputasi.

Adapun definisi lain, menurut IBM (International Business Machine) menyebutkan bahwa data science adalah menggabungkan matematika dan statistik, pemrograman, analitik, artificial intelligence, dan machine learning.


Data Science vs. Data Scientist vs. Data Engineering

Data ScienceData ScientistData EngineeringData Analyst

Data Science merupakan disiplin ilmu.

Data scientist adalah praktisi dalam bidang data science.

Data engineer merupakan software engineer yang tugas utamanya adalah menyiapkan data yang dikoleksi dari berbagai sumber informasi dengan membangun sistem data atau infrastruktur agar dapat mudah untuk dianalisa dan mendukung kebutuhan perusahaan.

Data analyst adalah profesi pekerjaan yang bertugas untuk membaca serta menganalisis data yang ada dari perusahaan.


Mengapa Data Science Begitu Penting?

Sederhananya data science membantu organisasi atau perusahaan mendapatkan insight (wawasan) tentang bisnis mereka sendiri, tingkat keberhasilan strategi mereka, kinerja anggotanya, dan sebagainya. 


Dampak Data Science di Dunia

  1. Promosi pelestarian lingkungan. Tahukah Anda? Selain digunakan untuk membuat sebuah keputusan yang baik untuk organisasi atau perusahaan, data science memiliki peran penting dalam keberhasilan pengelolaan krisis iklim global, lho. PBB mengembangkan 17 tujuan pembangunan berkelanjutan atau Sustainable Development Goals (SDGs) untuk mengukur dan melacak bagaimana negara menyesuaikan faktor lingkungan, sosial, dan ekonomi untuk memperlambat perubahan iklim.
  2. Kemajuan bidang kesehatan. Selama pandemi COVID-19, layanan kesehatan dan lembaga pemerintah menggunakan data analyst untuk melacak kasus, memroyeksikan penyebaran infeksi, menginformasikan keputusan kebijakan kesehatan, dan meningkatkan hasil layanan kesehatan.
  3. Pemberdayaan negara berkembang. Setiap tahun, Bank Dunia menilai negara-negara dalam skala 1-100. Nilai 1 mewakili kurangnya data statistik penting dan kapasitas analisis, dan 100 mewakili kapasitas statistik negara maju. Selama pandemi, 80% kantor statistik nasional di negara berpenghasilan rendah hingga menengah memerlukan dukungan tambahan untuk melakukan pengumpulan dan analisis data penting.
  4. Peningkatan customer insight. Salah satu dampak paling menguntungkan yang dimiliki data science terhadap bisnis adalah mengevaluasi, memprediksi, dan memberikan rekomendasi yang akurat dan dipersonalisasi kepada pelanggan.
  5. Mengembangkan pemimpin yang lebih cerdasData scientist dan pemimpin bisnis telah bekerja sama untuk lebih memahami cara sebuah data dapat menjadi jembatan untuk menginformasikan strategi organisasi yang lebih baik, menginformasikan keputusan, dan mencapai hasil yang lebih baik.


Kalkulus

Sebagian besar bidang data science tentunya memerlukan pemahaman tentang prinsip dasar kalkulus dan pengaruhnya terhadap model machine learning. Namun, perlu digaris bawahi bahwa kalkulus pada data science tidak seperti kalkulus pada kelas matematika di sekolah atau perguruan tinggi. Berikut merupakan beberapa konsep kalkulus yang mungkin bisa digunakan data scientist.

  • Penurunan gradient (Gradient descent). Pengoptimalan algoritma yang melatih model machine learning dari waktu ke waktu dan menjadi lebih akurat.
  • Kalkulus multivariabel (Multivariate Calculus). Machine learning menggunakan kalkulus multivariabel untuk membangun model prediktif.


Statistika

Sejauh ini, statistik adalah matematika terpenting yang perlu Anda ketahui untuk data science. Statistik adalah cabang matematika yang mengumpulkan data dan menganalisis kumpulan data besar untuk menginterpretasikan wawasan yang bermakna. Data scientist menggunakan statistik, sebagai berikut.

  • Kumpulkan (collect), tinjau (review), analisis (analyze), wawasan dari data (insight from data).
  • Identifikasi dan analisis pola data menjadi insight (wawasan) bisnis yang dapat ditindaklanjuti.
  • Jawab pertanyaan dengan membuat eksperimen, menganalisis, dan menafsirkan kumpulan data.
  • Memahami machine learning dan model prediksi (predictive model).


Aljabar Linier

Aljabar Linier adalah salah satu keterampilan matematika yang banyak digunakan dalam beberapa bagian, diantaranya pada sebagian besar machine learning dapat diekspresikan dalam bentuk matriks, kemudian pada deep learning ketika membuat artificial neural network (jaringan syaraf tiruan). Data Scientist memanipulasi dan menganalisis data mentah melalui matriks, baris, dan kolom angka atau titik data.


Metodologi Data Science

dos:5fad38de9fcb13fae14eca0a2193348320230829182407.png

CRISP-DM memiliki enam tahapan yaitu Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, dan Deployment.

  1. Business Understanding. Tahap ini merupakan pemahaman mendalam tentang kebutuhan pelanggan. Kegiatan yang dilakukan pada tahap ini adalah menentukan tujuan bisnis, menilai situasi ketersediaan sumber daya, tentukan tujuan pengumpulan data, dan menghasilkan rencana proyek.
  2. Data Understanding. Tahap pemahaman data yaitu mendorong fokus untuk mengidentifikasi, mengumpulkan, dan menganalisis kumpulan data yang dapat membantu Anda mencapai tujuan proyek. Kegiatan pada tahap ini adalah mengumpulkan data awal, menjelaskan data, jelajahi data, dan verifikasi kualitas data.
  3. Data Preparation. Fase ini sering disebut “data wrangling”, yaitu menyiapkan kumpulan data akhir untuk pemodelan. Kegiatan pada fase ini diantaranya memilih data yaitu menetukan set data yang akan digunakan, lalu bersihkan data, bangun data atau dengan kata lain mendapatkan atribut baru yang akan membantu, lalu integrasikan data, dan yang terakhir format data.
  4. Modeling. Secara garis besar pada tahap ini Anda akan membuat dan menilai berbagai model berdasarkan beberapa teknik pemodelan yang berbeda. Pada tahap ini terdapat empat tugas, yaitu memilih teknik pemodelan, menghasilkan desain pengujian, membangun model, dan yang terakhir menilai model.
  5. Evaluation. Fase evaluasi ini melihat lebih luas model yang paling sesuai dengan bisnis dan yang harus dilakukan selanjutnya. Terdapat tiga kegiatan yang mewakili fase evaluasi, yaitu evaluasi hasil, proses peninjauan, dan tentukan langkah selanjutnya.
  6. Deployment. Merupakan tahap terakhir dan tahap yang paling dihargai dari proses CRISP-DM. Perencanaan untuk deployment dimulai dari fase business understanding dan harus menggabungkan tidak hanya untuk menghasilkan nilai model, tetapi juga cara mengonversi skor keputusan, dan cara untuk menggabungkan keputusan tersebut.


Keterampilan Data Scientist

Menjadi seorang data scientist tentu bukan hanya keterampilan teknis yang diperlukan tetapi perlu adanya keseimbangan antara softskill dan hardskill untuk menunjang karier Anda di masa depan. Pada pembahasan kali ini, Anda akan mengeksplorasi keterampilan yang dibutuhkan agar menjadi seorang data scientist yang Andal

Keterampilan Interpersonal

  1. Komunikasi Efektif
  2. Pengetahuan
  3. Memiliki Pemahaman Bisnis
  4. Kerja Sama
  5. Penyelesaian Masalah (Problem Solving)

Keterampilan Teknis

  1. Statistik dan Probabilitas
  2. Mengolah Data (Data wrangling dan database management)
  3. Pemrograman
  4. Machine Learning
  5. Analisis Data (Data Analyst)
  6. Cloud Computing

Bersambung ke: 

Comments

Popular posts from this blog

Ceritakan cerita saya:

Aplikasi/Gaming/Koding: NKHM Nusantara: