Rangkuman Kelas The Power of Data
- Get link
- X
- Other Apps
Rangkuman Kelas
The Power of Data
Berdasarkan Kamus Besar Bahasa Indonesia data adalah keterangan yang benar dan nyata; keterangan atau bahan nyata yang dapat dijadikan dasar kajian; informasi dalam bentuk yang dapat diproses oleh komputer, seperti representasi digital dari teks, angka, gambar grafis, atau suara.
Menurut Kamus Cambridge, data adalah informasi, terutama fakta atau angka, dikumpulkan untuk diperiksa dan dipertimbangkan, serta digunakan untuk membantu pengambilan keputusan atau informasi dalam bentuk elektronik yang dapat disimpan dan digunakan oleh komputer.
Dan yang terakhir, menurut ahli yaitu Drs. Jhon J. Longkutoy mengatakan bahwa Data adalah suatu istilah majemuk dari fakta yang mengandung arti yang dihubungkan dengan kenyataan, simbol, gambar, angka, huruf yang menunjukan suatu ide, objek, kondisi atau situasi dan lainnya.
Data Kuantitatif
Kuantitatif atau kuantitas memiliki arti jumlah atau banyak. Menurut Australian Bureau of Statistics, kuantitatif adalah nilai data yang berupa hitungan atau angka di mana setiap kumpulan data memiliki nilai numerik yang unik. Data ini adalah informasi terukur yang dapat digunakan peneliti untuk perhitungan matematis dan analisis statistik untuk membuat keputusan kehidupan nyata berdasarkan data tersebut.
Data Kualitatif
Menurut sumber Australian Bureau of Statistics, menyebutkan bahwa data kualitatif adalah ukuran jenis dan dapat diwakilkan oleh nama, simbol, atau kode angka. Data kualitatif juga adalah data tentang variabel kategori.
Ciri data kualitatif dapat diamati dan direkam, serta tipe data ini bersifat non-numerik. Data kualitatif dapat dikumpulkan melalui metode observasi, wawancara one on one, melakukan study group, dan metode sejenis lainnya.
Data Numerik
Data numerik adalah data berwujud angka yang bisa didapat dari sebuah pengukuran.
Misal, ukuran tinggi badan, berat badan, dan usia. Selain itu, data ini juga bisa diperoleh dari sebuah perhitungan, misalnya jumlah orang yang hadir di pesta pernikahan atau jumlah penduduk Indonesia. Nah, data numerik ini terbagi menjadi dua bagian yaitu data kontinu dan diskrit.
- Data Kontinu
Data kontinu dapat direpresentasikan dalam berbagai nilai numerik, seperti bilangan desimal, bulat, dan lain-lain. - Data Diskrit
Data diskrit merupakan data numerik yang hanya bisa direpresentasikan dengan bilangan bulat dan tidak dapat dibagi ke dalam unit yang lebih kecil.
Data Kategorikal
Data kategorikal merupakan data yang dapat dikelompokkan dan terbagi berdasarkan karakteristik atau ciri khasnya masing-masing. Dari data kategorikal, ada dua pembagian, yaitu nominal dan ordinal. Mari kita bahas satu per satu di bawah ini, ya.
- Data Nominal
Data nominal adalah jenis pengelompokan data yang tidak memiliki keterkaitan dengan data lainnya dan tidak memiliki arti khusus. Jadi, data ini dapat dibedakan tanpa harus mengurutkan atau dibandingkan dengan data lainnya. - Data Ordinal
Berlawanan dari kata nominal, data ordinal adalah jenis pengelompokan data yang memiliki urutan, atau harus disusun secara berurutan dengan mekanisme peringkat.
Menentukan Keputusan dengan Data
- Data
Data adalah fakta atau pengamatan yang terpisah dan objektif, tidak terorganisir dan tidak diproses, serta tidak menyampaikan makna tertentu. Item data adalah deskripsi dasar dan tercatat dari hal-hal, peristiwa, kegiatan, dan transaksi.
- Informasi
Informasi adalah data yang memberi nilai tambah pada pemahaman suatu subjek. Adapun definisi lainnya bahwa data informasi adalah data yang telah dibentuk menjadi bentuk yang lebih berarti dan berguna bagi manusia.
- Pengetahuan (Knowledge)
Pengetahuan adalah kombinasi dari data dan informasi yang ditambahkan pendapat ahli, keterampilan, dan pengalaman, sehingga menghasilkan aset berharga yang dapat digunakan untuk membantu pengambilan keputusan. Pengetahuan adalah data atau informasi yang telah diatur dan diproses untuk menyampaikan pemahaman, pengalaman, akumulasi pembelajaran, dan keahlian.
- Kebijaksanaan (Wisdom)
Kebijaksanaan adalah akumulasi pengetahuan yang memungkinkan Anda memahami cara menerapkan konsep dari satu domain ke situasi atau masalah baru. Adapun pengertian lain yaitu kebijaksanaan adalah kemampuan untuk bertindak kritis atau praktis dalam situasi tertentu.
Data-Driven Decision Making (Data dan Keputusan)
Data-Driven Decision Making atau pengambilan keputusan berbasis data didefinisikan sebagai penggunaan fakta, metrik, dan data untuk memandu keputusan bisnis yang selaras dengan tujuan, sasaran, dan inisiatif perusahaan.
Big Data in Action
Menurut The Gartner IT Glossary, Big data adalah aset informasi bervolume tinggi (high-volume), berkecepatan tinggi (high-velocity), dan/atau beragam tinggi (high-variety) yang menuntut bentuk pemrosesan informasi yang hemat biaya dan inovatif yang memungkinkan peningkatan wawasan, pengambilan keputusan, dan otomatisasi proses.
Menurut Kompas, Big data merupakan konsep pengelompokan atau pengumpulan data dalam skala besar, yang terdiri dari berbagai macam jenis data, meliputi data terstruktur, semi terstruktur, dan tidak terstruktur dengan konsep karakter mendasar meliputi Three V yaitu volume, variety, dan velocity.
Serta menurut Oracle, Big data adalah data yang memiliki data variasi yang lebih banyak, berada dalam volume yang meningkat, dan berada di kecepatan yang lebih tinggi. Atau dikenal juga sebagai 3V (Variety, Volumes, Velocity).
Volume, Velocity, Variety
Karakteristik Big Data adalah sifat-sifat, keistimewaan atau ciri-ciri yang mencerminkan bahwa data tersebut adalah data yang dikategorikan sebagai big data. Pada dasarnya karakteristik Big Data terbagi menjadi tiga, yaitu volume, velocity, dan variety.
- Volume. Jumlah data yang dihasilkan dari banyak transaksi serva volume data yang disimpan. Contohnya, seperti penggunaan history browser, pencatatan transaksi pada e-commerce, data ktp atau data penduduk Indonesia, data pelanggan pada perbankan dan masih banyak lagi. Ukuran big data biasanya menggunakan skala Terabytes (1000 Gigabytes) dan ukuran Petabytes (1.000.000 Gigabytes)
- Variety. Variasi tipe dan variasi sifat dari data, apakah data tersebut bersifat terstruktur, semi terstruktur, ataupun tidak terstruktur.
- Velocity. Kecepatan dalam men-generate data, mengakses data serta memproses data. Big data platform dan big data analytics software tentu harus dapat memroses banyak data secepat mungkin ketika ada permintaan, contohnya adalah yang terdapat pada search engine Google. Ketika Anda ingin mencari suatu hal di Google maka permintaan tersebut langsung diproses dan ditampilkan pada halaman Google.
Small Data vs. Big Data
| Fitur | Small Data | Big Data |
|---|---|---|
Variasi | Data biasanya terstruktur dan seragam. | Data seringkali tidak terstruktur dan heterogen. |
Fakta | Data umumnya berkualitas tinggi dan dapat diandalkan. | Kualitas dan keandalan data dapat sangat bervariasi. |
Teknologi | Tradisional | Modern |
Volume | Data dalam kisaran puluhan atau ratusan Gigabyte. | Ukuran data lebih dari Terabyte. |
Basis Data | SQL | NoSQL |
Bahasa Pemrograman | SQL | Python, R, Java, SQL |
Posisi (Job) | Data Analyst, Database Administrators, dan Data Engineer | Data Scientist, Data Analyst, Database Administrators, dan Data Engineer. |
Fundamental Data Science
Amazon mengemukakan bahwa data science adalah wawasan yang sangat berguna untuk kebutuhan bisnis. Ilmu ini merupakan penggabungan prinsip dan praktik dari bidang matematika, statistik, artificial intelligence, dan computer engineering untuk menganalisis data dalam jumlah besar.
Menurut Jose Antonio Ribeiro pada publikasinya di Big Data for Executives and Professionals, data science adalah kegiatan ilmiah yang mencakup pemahaman bisnis, persiapan data, analisis eksplorasi, pemodelan, aplikasi komputasi, evaluasi wawasan, dan tindakan untuk menghasilkan hasil serta menerapkan pengetahuan statistik, matematika, dan komputasi.
Adapun definisi lain, menurut IBM (International Business Machine) menyebutkan bahwa data science adalah menggabungkan matematika dan statistik, pemrograman, analitik, artificial intelligence, dan machine learning.
Data Science vs. Data Scientist vs. Data Engineering
| Data Science | Data Scientist | Data Engineering | Data Analyst |
|---|---|---|---|
Data Science merupakan disiplin ilmu. | Data scientist adalah praktisi dalam bidang data science. | Data engineer merupakan software engineer yang tugas utamanya adalah menyiapkan data yang dikoleksi dari berbagai sumber informasi dengan membangun sistem data atau infrastruktur agar dapat mudah untuk dianalisa dan mendukung kebutuhan perusahaan. | Data analyst adalah profesi pekerjaan yang bertugas untuk membaca serta menganalisis data yang ada dari perusahaan. |
Mengapa Data Science Begitu Penting?
Sederhananya data science membantu organisasi atau perusahaan mendapatkan insight (wawasan) tentang bisnis mereka sendiri, tingkat keberhasilan strategi mereka, kinerja anggotanya, dan sebagainya.
Dampak Data Science di Dunia
- Promosi pelestarian lingkungan. Tahukah Anda? Selain digunakan untuk membuat sebuah keputusan yang baik untuk organisasi atau perusahaan, data science memiliki peran penting dalam keberhasilan pengelolaan krisis iklim global, lho. PBB mengembangkan 17 tujuan pembangunan berkelanjutan atau Sustainable Development Goals (SDGs) untuk mengukur dan melacak bagaimana negara menyesuaikan faktor lingkungan, sosial, dan ekonomi untuk memperlambat perubahan iklim.
- Kemajuan bidang kesehatan. Selama pandemi COVID-19, layanan kesehatan dan lembaga pemerintah menggunakan data analyst untuk melacak kasus, memroyeksikan penyebaran infeksi, menginformasikan keputusan kebijakan kesehatan, dan meningkatkan hasil layanan kesehatan.
- Pemberdayaan negara berkembang. Setiap tahun, Bank Dunia menilai negara-negara dalam skala 1-100. Nilai 1 mewakili kurangnya data statistik penting dan kapasitas analisis, dan 100 mewakili kapasitas statistik negara maju. Selama pandemi, 80% kantor statistik nasional di negara berpenghasilan rendah hingga menengah memerlukan dukungan tambahan untuk melakukan pengumpulan dan analisis data penting.
- Peningkatan customer insight. Salah satu dampak paling menguntungkan yang dimiliki data science terhadap bisnis adalah mengevaluasi, memprediksi, dan memberikan rekomendasi yang akurat dan dipersonalisasi kepada pelanggan.
- Mengembangkan pemimpin yang lebih cerdas. Data scientist dan pemimpin bisnis telah bekerja sama untuk lebih memahami cara sebuah data dapat menjadi jembatan untuk menginformasikan strategi organisasi yang lebih baik, menginformasikan keputusan, dan mencapai hasil yang lebih baik.
Kalkulus
Sebagian besar bidang data science tentunya memerlukan pemahaman tentang prinsip dasar kalkulus dan pengaruhnya terhadap model machine learning. Namun, perlu digaris bawahi bahwa kalkulus pada data science tidak seperti kalkulus pada kelas matematika di sekolah atau perguruan tinggi. Berikut merupakan beberapa konsep kalkulus yang mungkin bisa digunakan data scientist.
- Penurunan gradient (Gradient descent). Pengoptimalan algoritma yang melatih model machine learning dari waktu ke waktu dan menjadi lebih akurat.
- Kalkulus multivariabel (Multivariate Calculus). Machine learning menggunakan kalkulus multivariabel untuk membangun model prediktif.
Statistika
Sejauh ini, statistik adalah matematika terpenting yang perlu Anda ketahui untuk data science. Statistik adalah cabang matematika yang mengumpulkan data dan menganalisis kumpulan data besar untuk menginterpretasikan wawasan yang bermakna. Data scientist menggunakan statistik, sebagai berikut.
- Kumpulkan (collect), tinjau (review), analisis (analyze), wawasan dari data (insight from data).
- Identifikasi dan analisis pola data menjadi insight (wawasan) bisnis yang dapat ditindaklanjuti.
- Jawab pertanyaan dengan membuat eksperimen, menganalisis, dan menafsirkan kumpulan data.
- Memahami machine learning dan model prediksi (predictive model).
Aljabar Linier
Aljabar Linier adalah salah satu keterampilan matematika yang banyak digunakan dalam beberapa bagian, diantaranya pada sebagian besar machine learning dapat diekspresikan dalam bentuk matriks, kemudian pada deep learning ketika membuat artificial neural network (jaringan syaraf tiruan). Data Scientist memanipulasi dan menganalisis data mentah melalui matriks, baris, dan kolom angka atau titik data.
Metodologi Data Science
CRISP-DM memiliki enam tahapan yaitu Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, dan Deployment.
- Business Understanding. Tahap ini merupakan pemahaman mendalam tentang kebutuhan pelanggan. Kegiatan yang dilakukan pada tahap ini adalah menentukan tujuan bisnis, menilai situasi ketersediaan sumber daya, tentukan tujuan pengumpulan data, dan menghasilkan rencana proyek.
- Data Understanding. Tahap pemahaman data yaitu mendorong fokus untuk mengidentifikasi, mengumpulkan, dan menganalisis kumpulan daa yang dapat membantu Anda mencapai tujuan proyek. Kegiatan pada tahap ini adalah mengumpulkan data awal, menjelaskan data, jelajahi data, dan verifikasi kualitas data.
- Data Preparation. Fase ini sering disebut “data munging”, yaitu menyiapkan kumpulan data akhir untuk pemodelan. Kegiatan pada fase ini diantaranya memilih data yaitu menetukan set data yang akan digunakan, lalu bersihkan data, bangun data atau dengan kata lain mendapatkan atribut baru yang akan membantu, lalu integrasikan data, dan yang terakhir format data.
- Modeling. Secara garis besar pada tahap ini Anda akan membuat dan menilai berbagai model berdasarkan beberapa teknik pemodelan yang berbeda. Pada tahap ini terdapat empat tugas, yaitu memilih teknik pemodelan, menghasilkan desain pengujian, membangun model, dan yang terakhir menilai model.
- Evaluation. Fase evaluasi ini melihat lebih luas model yang paling sesuai dengan bisnis dan yang harus dilakukan selanjutnya. Terdapat tiga kegiatan yang mewakili fase evaluasi, yaitu evaluasi hasil, proses peninjauan, dan tentukan langkah selanjutnya.
- Deployment. Merupakan tahap terakhir dan tahap yang paling dihargai dari proses CRISP-DM. Perencanaan untuk deployment dimulai dari fase business understanding dan harus menggabungkan tidak hanya untuk menghasilkan nilai model, tetapi juga cara mengonversi skor keputusan, dan cara untuk menggabungkan keputusan tersebut.
Keterampilan Data Scientist
Menjadi seorang data scientist tentu bukan hanya keterampilan teknis yang diperlukan tetapi perlu adanya keseimbangan antara softskill dan hardskill untuk menunjang karier Anda di masa depan. Pada pembahasan kali ini, Anda akan mengeksplorasi keterampilan yang dibutuhkan agar menjadi seorang data scientist yang Andal
Keterampilan Interpersonal
- Komunikasi Efektif
- Pengetahuan
- Memiliki Pemahaman Bisnis
- Kerja Sama
- Penyelesaian Masalah (Problem Solving)
Keterampilan Teknis
- Statistik dan Probabilitas
- Mengolah Data (Data wrangling dan database management)
- Pemrograman
- Machine Learning
- Analisis Data (Data Analyst)
- Cloud Computing
Menjelajahi Analisis Data
Analisis data adalah proses menyelidiki, membersihkan, mengubah, dan memodelkan data dengan tujuan menemukan informasi yang berguna, menginformasikan kesimpulan, dan mendukung pengambilan keputusan, dan masih banyak lagi.
Mengumpulkan Data
Setelah mengajukan pertanyaan efektif menggunakan SMART Questions, yang harus Anda lakukan selanjutnya adalah mengumpulkan data. Data-data yang telah didapatkan baik dari kuesioner atau wawancara atau sumber lainnya, perlu dikumpulkan terlebih dahulu tujuannya adalah ketika Anda memerlukan data-data yang dibutuhkan untuk menjawab semua pertanyaan atau masalah bisnis yang akan dihadapi sudah siap.
Menyiapkan Data untuk Dianalisis
Tahap ini bisa juga disebut sebagai assessing data dengan kata lain penilaian terhadap data tersebut. Proses ini dilakukan untuk menilai kualitas dan struktur dari sebuah data. Selain itu, proses ini juga bertujuan untuk mengidentifikasi berbagai masalah yang terdapat dalam data, seperti missing value, understand value, dll.
Mari Kita Bersihkan!
Data kotor adalah data yang tidak lengkap, salah, atau tidak relevan dengan masalah yang ingin diselesaikan. Berikut merupakan tipe-tipe data kotor.
Mari kita breakdown satu persatu agar Anda semakin paham.
- Duplicate data
Duplicate data adalah catatan data apa pun yang muncul lebih dari satu kali. Hal tersebut bisa jadi diakibatkan oleh entri data, impor, atau migrasi data secara manual. Apabila tetap dijalankan, maka perhitungan atau prediksi tidak akan akurat, atau akan bingung selama pengambilan data.
- Outdated data
Setiap data yang sudah tua harus diganti dengan informasi yang lebih baru dan lebih akurat. Hal tersebut disebabkan oleh peran atau perusahaan yang berganti atau bisa jadi software dan sistem yang telah usang. Apabila tetap dijalankan, maka wawasan, pengambilan keputusan, dan analisis tidak akan akurat.
- Incomplete data
Incomplete berarti tidak komplit adalah kondisi ketika data apa pun yang tidak memiliki bidang penting. Hal tersebut disebabkan oleh pengumpulan data yang tidak benar atau entri data yang salah. Apabila tetap dijalankan, maka akan penurunan produktivitas, wawasan yang tidak akurat, atau ketidakmampuan untuk menyelesaikan layanan penting.
- Incorrect/inaccurate data
Jumlah data yang banyak bisa jadi data tersebut adalah tidak akurat. Ketidakakuratan data bisa disebabkan oleh kesalahan manusia (human error), informasi palsu, atau data tiruan. Apabila hal tersebut tetap dijalankan, wawasan atau pengambilan keputusan yang tidak akurat berdasarkan informasi buruk bisa jadi akan mengakibatkan hilangnya pendapatan.
- Inconsistent data
Data apapun yang menggunakan format berbeda untuk mewakili hal yang sama. Ketidakkonsistenan data bisa saja disebabkan oleh data disimpan secara tidak benar atau kesalahan menyisipkan selama transfer data. Apabila hal tersebut tetap dijalankan, maka poin data yang kontradiktif menyebabkan kebingungan atau ketidakmampuan untuk mengklasifikasikan atau mengelompokkan pelanggan.
Mengapa Membersihkan Data Begitu Penting?
Fungsi pembersihan data adalah
- mengidentifikasi pola-pola penting
- menghubungkan informasi terkait, dan
- menarik kesimpulan yang bermanfaat.
Oleh karena itu, mengapa pembersihan data begitu diperlukan? Jawabannya sangat sederhana yaitu agar menghasilkan kualitas data pada analisis.
Cara Membersihkan Data
Secara umum, proses pembersihan data dapat dibagi ke dalam tiga tahapan, yaitu define, code, dan test.
- Define. Pada tahap ini, kita akan membuat rancangan tahapan serta metode pembersihan data berdasarkan masalah yang ditemukan dalam proses assessing data. Hal ini dapat dijadikan sebagai dokumentasi untuk memastikan orang lain memahami setiap tahapan dalam pembersihan data yang akan kita lakukan.
- Code. Setelah membuat rancangan pembersihan data, tahap selanjutnya ialah mengonversi hal tersebut menjadi sebuah kode program yang dapat dijalankan.
- Test. Setelah menjalankan kode program untuk membersihkan data, kita perlu memeriksa kembali data yang telah dibersihkan tersebut. Hal ini untuk memastikan proses pembersihan data dilakukan sesuai ekspektasi kita.
Mengeksplorasi Data
Tujuan analisis adalah untuk mengidentifikasi tren dan hubungan dalam data sehingga Anda dapat menjawab pertanyaan yang Anda ajukan secara akurat. Sebelum melakukan eksplorasi data, apakah yang dimaksud dengan tren?
Tren merupakan sebuah analisis dengan membandingkan data dari waktu ke waktu untuk melihat hasil yang konsisten.
Di bawah ini merupakan empat fase analisis pada umumnya, yaitu
- mengatur data.
- memformat dan menyesuaikan data.
- mendapatkan insights dari orang lain.
- mengubah data dengan mengamati hubungan antara titik data dan membuat perhitungan.
Menyusun Pertanyaan Efektif
- Specific
Pertanyaan efektif tentu harus bersifat spesifik, artinya sebuah pertanyaan analisis harus merujuk pada topik tertentu. Pertanyaan spesifik mampu membantu Anda dalam mendapatkan jawaban yang spesifik. Oleh karena itu, apabila sebuah pertanyaan masih bersifat general dengan memperhatikan hal yang harus dihindari di atas, maka coba lebih mengerucut lagi pada satu topik tertentu. - Measurable
Selain spesifik yang perlu diperhatikan adalah sebuah pertanyaan mesti terukur (measurable). Jawaban dari hal ini akan menjadi sebuah tolak ukur Anda dalam mendapatkan jawaban yang meaningful insights. - Action-oriented
Kategori ini bermaksud bahwa pertanyaan yang diajukan harus mampu memberikan informasi yang dapat membantu Anda dalam membuat sebuah action-plan. - Relevant
Poin keempat ini memiliki arti bahwa pertanyaan yang diajukan harus berbobot dan memiliki arti untuk menyelesaikan sebuah permasalahan. - Time-bound
Poin terakhir yaitu pertanyaan yang diajukan mesti bersifat time-bound atau memiliki relevansi terhadap waktu saat ini.
Jenis-jenis Data yang Dihindari
- Misleading
Masalah pertama dalam visualisasi data yang buruk ialah misleading information yang mampu mengakibatkan kesalahan dalam pengambilan kesimpulan dari sebuah data. Berikut contoh visualisasi data yang bisa mengakibatkan misleading information. - Hides
Selain misleading information, masalah lain yang umum dijumpai dalam visualisasi data yang buruk ialah menyembunyikan informasi tertentu. Berikut contoh visualisasi data yang menyembunyikan informasi penting dari sebuah data. - Distract
Masalah lain yang mungkin terjadi ialah distraksi. Visualisasi data yang buruk sering kali tidak menyertakan komponen visual yang seharusnya tidak dibutuhkan dan malah mengganggu proses pengambilan kesimpulan dari sebuah visualisasi data. Berikut merupakan contoh visualisasi data yang memuat komponen visual yang tidak dibutuhkan.
Prinsip-Prinsip dalam Memvisualisasikan Data
- Position. Elemen ini akan membantu kita merepresentasikan titik data menggunakan sumbu tertentu (seperti sumbu X, Y, dan Z) sebagai acuan.
- Size. Ukuran (panjang atau lebar) merupakan elemen visual yang umumnya kita gunakan untuk membedakan serta membandingkan nilai dari kategori atau titik data tertentu.
- Shape. Bentuk merupakan salah satu elemen visual yang dapat digunakan untuk membedakan kategori atau titik data tertentu.
- Color. Selain bentuk, warna juga merupakan pilihan elemen visual lain yang dapat digunakan untuk membedakan kategori atau titik data tertentu. Ketika menggunakan elemen ini, kita harus ingat bahwa tidak semua orang memiliki kemampuan untuk membedakan warna dengan baik.
- Texture. Penambahan tekstur atau pola tertentu bisa menjadi alternatif lain dalam membedakan kategori atau titik data tertentu.
- Angle. Pada beberapa pilihan bentuk visualisasi data, sudut merupakan salah satu elemen visual yang digunakan untuk merepresentasikan nilai dari suatu data.
Bercerita dengan Data
Berikut merupakan tiga hal yang perlu Anda siapkan sebelum bercerita dengan data.
- Libatkan audiens. Ketika Anda menganalisis sebuah data, maka libatkan audiens untuk melihat hasil dari analisis tersebut. Karena hal tersebut adalah cara yang jauh lebih menarik untuk berbagi data.
- Buat visual yang menarik. Anda ingin menunjukkan kisah data Anda, bukan hanya menceritakannya. Visual harus membawa audiens Anda dalam perjalanan tentang bagaimana data berubah dari waktu ke waktu.
- Ceritakan kisah dengan cara yang menarik. Tahap terakhir ini adalah menceritakan kisah tersebut dalam narasi yang menarik.
Teknologi dan Perangkat Pendukung Data Science
Menurut Amazon Web Service (AWS) basis data adalah koleksi data sistematis yang disimpan secara elektronik. Ini dapat berisi semua jenis data, seperti kata, angka, gambar, video, dan file. Anda dapat menggunakan perangkat lunak (software) yang disebut Database Management System (DBMS) atau sistem manajemen basis data.
Ada pula menurut sumber lain, yaitu Oracle menyatakan bahwa basis data adalah kumpulan terorganisasi dari informasi terstruktur, atau data, biasanya disimpan secara elektronik dalam sistem komputer. Basis data biasanya dikendalikan oleh Database Management System (DBMS) atau sistem manajemen basis data. Nah, data dan DBMS beserta aplikasi yang terkait dengannya disebut sebagai sistem basis data atau juga bisa disebut basis data saja.
Tipe-Tipe Basis Data
- Basis Data Relasional (Database Relational)
- Basis Data Orientasi Objek (OOD - Object-oriented Databases)
- Basis Data Terdistribusi (Distributed Databases)
- Gudang Data (Data Warehouse)
- Basis Data NoSQL
- Basis Data Grafik (Graph Databases)
Data, Basis Data, Dataset
Menurut Kamus Besar Bahasa Indonesia, data adalah informasi, fakta, dari keterangan yang benar dan nyata mengenai suatu objek atau kejadian yang bisa dicatat atau disimpan.
| Basis Data | Dataset |
|---|---|
Basis data adalah kumpulan data yang diatur dan disimpan dengan cara yang memungkinkan akses dan pengambilan yang mudah. Selain itu, ia juga dapat menyimpan berbagai macam tipe data, termasuk teks, nomor, gambar, dan tipe data lainnya. | Dataset adalah kumpulan data diatur dalam format tertentu, seperti spreadsheet, CSV, atau basis data. Umumnya, digunakan untuk keperluan spesifik. |
Memiliki banyak kumpulan data dan dapat digunakan untuk aplikasi yang berbeda. | Dapat menjadi bagian dari data yang diambil dari basis data yang lebih besar. Bisa juga, dataset diambil dari sumber lain yang mendukung formatnya. |
Contoh tools: BigQuery, MySQL Clients, DB Browser SQL, dll. | Contoh tools: Google Sheets, Excel, Situs Public Datasets, dll. |
SQL (Structured Query Language)
Pada bagian ini Anda akan dikenalkan dengan dua jenis himpunan yang terdapat pada SQL, yaitu DDL dan DML. Simak penjelasannya di bawah ini.
Data Definition Language
DDL merupakan subperintah pada SQL yang dimanfaatkan guna membangun kerangka basis data. Tabel di bawah merupakan pernyataan statements yang utama dari DDL.
CREATE SCHEMA | ALTER DOMAIN | DROP SCHEMA |
CREATE DOMAIN | DROP DOMAIN | |
CREATE TABLE | ALTER TABLE | DROP TABLE |
CREATE VIEW | DROP VIEW |
Data Manipulation Language
DML merupakan subperintah pada SQL yang dimanfaatkan dalam manipulasi basis data yang sudah dibuat. Pada dasarnya, dalam DML terdapat empat perintah berikut beserta fungsinya.
| Data Manipulation Language | Fungsi |
|---|---|
INSERT | Digunakan untuk memasukkan data baru dalam tabel. Perintah ini dapat dijalankan saat basis data dan tabel telah selesai dibuat. |
SELECT | Digunakan untuk mengambil, lalu menampilkan data dari tabel atau sejumlah tabel dengan memanfaatkan relasi. |
UPDATE | Digunakan untuk memperbarui data dalam tabel. |
DELETE | Digunakan untuk menghapus data dari tabel. |
NoSQL (Not Only SQL)
NoSQL atau disebut juga sebagai “not only SQL” , “non-SQL”, adalah pendekatan untuk desain basis data yang memungkinkan penyimpanan dan kueri data di luar struktur tradisional yang ditemukan dalam basis data relasional.
Basis data NoSQL umumnya diklasifikasikan ke dalam empat kategori utama, di antaranya
- Document Databases
Basis data ini menyimpan data sebagai dokumen semi-terstruktur, seperti JSON atau XML, dan dapat dikueri menggunakan bahasa kueri berorientasi dokumen.
- Key-value Stores
Basis data ini menyimpan data sebagai key-value pairs dan dioptimalkan untuk operasi baca atau tulis yang sederhana dan cepat.
- Column-family stores
Basis data ini menyimpan data sebagai keluarga kolom, yaitu kumpulan kolom yang diperlakukan sebagai satu kesatuan. Mereka dioptimalkan untuk kueri data dalam jumlah besar yang cepat dan efisien.
- Graph Databases
Sempat dibahas pada materi sebelumnya, bahwa basis data ini menyimpan data sebagai node dan edge, serta dirancang untuk menangani hubungan kompleks antar data.
Database on Premise vs. Cloud
Basis Data on Premise
On-premise adalah jenis server berupa software yang dijalankan secara internal oleh tim IT perusahaan. Tim IT tersebut bertugas dalam menjalankan aplikasi server, memasang sistem operasi, dan meletakkan server di sebuah gedung.
Basis Data on Cloud
Berbeda dengan on-premise, cloud server alias cloud computing merupakan layanan infrastruktur berupa penyimpanan basis data, server, jaringan, dan software berbasis internet. Layanan ini tidak disediakan oleh tim IT perusahaan, tetapi melalui pihak ketiga yang merupakan penyedia layanan cloud.
Tools Pengolahan Data
Di bawah ini merupakan tools pengolahan data yang umumnya sering digunakan.
- Excel
- Google Sheets
- SPSS (Statistical Package for the Social Sciences)
Tools Visualisasi Data
Di bawah ini merupakan tools visualisasi data yang umumnya sering digunakan.
- Tableau
- Metabase
- Looker Studio
Bahasa Pemrograman
Berkelana dengan Python
Python adalah bahasa pemrograman yang banyak digunakan dalam aplikasi web, pengembangan perangkat lunak, ilmu data, dan machine learning (ML).
Berkenalan dengan R
Kemudahan dalam penggunaannya serta mudahnya akses dukungan komunitas, membuat R menjadi salah satu bahasa pemrograman paling populer di dunia. R memiliki aturan atau sintaks yang berbeda dengan bahasa pemrograman lain yang membuatnya memiliki ciri khusus tersendiri.
Teknologi Machine Learning
Machine learning adalah ilmu pengembangan algoritma yang memanfaatkan konsep matematis dan statistik dalam menjalankan tugas tertentu tanpa instruksi eksplisit. Pada prosesnya, machine learning akan berusaha mengenal pola yang terdapat dalam sebuah data serta menggunakannya untuk menghasilkan prediksi.
Secara garis besar, kita dapat mengelompokkan machine learning ke dalam tiga kategori yaitu seperti berikut.
- Supervised learning.
- Unsupervised learning.
- Reinforcement learning.
Rangkuman Machine Learning untuk Data Science
Menurut AWS (Amazon Web Services) bahwa machine learning adalah ilmu pengembangan algoritma dan model secara statistik yang digunakan sistem komputer untuk menjalankan tugas tanpa instruksi eksplisit dan mengandalkan pola serta inferensi sebagai gantinya.
Sederhananya, machine learning adalah ilmu pengembangan algoritma yang memanfaatkan konsep matematis dan statistik dalam menjalankan tugas tertentu tanpa instruksi eksplisit. Pada prosesnya, machine learning akan berusaha mengenal pola yang terdapat dalam sebuah data serta menggunakannya untuk menghasilkan prediksi.
Scope Machine Learning
- Artificial Intelligence (AI)
Terlihat jelas pada gambar di atas bahwa eksistensi AI dimulai dari tahun 1950-an. AI menjadi langkah awal lahirnya machine learning dan deep learning di masa sekarang. Namun, sebenarnya apa sih istilah AI itu sendiri? AI adalah bidang ilmu komputer yang dikhususkan untuk memecahkan masalah kognitif yang umumnya terkait dengan kecerdasan manusia, seperti pembelajaran, pemecahan masalah, dan pengenalan pola. - Machine Learning (ML)
Keberadaan machine learning sekitar tahun 1980an yang berarti terjadi gap selama 30 tahun setelah konsep AI dikenal. Lalu, apa yang dilakukan oleh ML? Pada dasarnya ML adalah subset AI yang membuat sistem agar mampu mengadaptasi kemampuan manusia untuk belajar. - Deep Learning (DL)
Terhitung masih belia, ketika kelas ini ditulis, DL baru menginjak 13 tahun karena ia lahir sekitar tahun 2010-an. Namun, algoritma Artificial Neural Network yang merupakan bagian dari deep learning telah dikenal sejak lama, lho. Kira-kira apa definisi dari deep learning, ya? Deep learning adalah metode dalam AI yang mengajarkan komputer untuk memproses data dengan cara yang terinspirasi otak manusia. Model deep learning dapat mengenali pola kompleks dalam gambar, teks, suara, dan data lain untuk menghasilkan wawasan dan prediksi yang akurat.
Faktor Popularitas Machine Learning
- Mature Field
Bidang machine learning telah banyak mengalami perubahan dan perkembangan selama beberapa dekade terakhir. Awalnya, machine learning tumbuh dari bidang artificial intelligence dan merupakan kumpulan metode yang dipelajari dari data atau pengalaman sebelumnya. Seiring berkembangnya zaman, machine learning berfokus pada metode statistik dan probabilitas yang dipadupadankan dengan data dan pengalaman yang telah dipelajari sebelumnya.
- Abundant Data
Jumlah data yang tersimpan setiap harinya semakin bertambah. Keberadaan machine learning menjadi penyelamat untuk keberlimpahan data tersebut karena mampu membantu mengolah data yang besar dan kompleks menjadi sebuah informasi yang bermakna untuk mendorong pengambilan keputusan.
- Abundant Computation
Machine learning populer karena sumberdaya komputasi yang berlimpah dan murah. Hal ini memungkinkan kita mengolah data yang berjumlah sangat besar dan melakukan eksperimen dengan algoritma machine learning yang lebih kompleks.
Pentingnya Machine Learning
Data adalah sumber kehidupan dari semua bidang terlebih lagi untuk sebuah bisnis. Keputusan berdasarkan data semakin membuat perbedaan antara mengikuti persaingan atau tertinggal lebih jauh. Keberadaan machine learning ini menjadi kunci untuk membuka nilai data perusahaan dan customer serta membuat keputusan yang membuat perusahaan tetap terdepan dalam persaingan. Terlebih lagi, machine learning dianggap begitu penting karena memberikan perusahaan sebuah pandangan tentang tren perilaku pelanggan (Customer Behaviour) dan pola operasional bisnis, serta mendukung pengembangan produk baru. Di bawah ini merupakan hasil dari penerapan machine learning di industri.
- Google Translate
- Gmail
- Google Photos
Peran Machine Learning di Data Science
Di bawah ini merupakan perbedaan antara machine learning dan data science yang perlu Anda ketahui.
| Machine Learning | Data Science |
|---|---|
Machine learning adalah bidang artificial intelligence (AI) yang memungkinkan software belajar dari data untuk mengidentifikasi pola dan membuat prediksi secara otomatis dengan campur tangan manusia yang minimal. | Data Science adalah semua tentang proses dan sistem untuk mengekstrak insight dari data terstruktur dan semi terstruktur. |
Machine learning memanfaatkan pengalaman masa lalu untuk mempelajari tentang data. | Data Science berurusan dengan data, baik masa lalu maupun real-time. |
Machine learning terdiri dari tiga jenis: Supervised learning, Unsupervised learning, dan Reinforcement learning. | Data gathering, manipulasi, data cleaning, dll adalah operasi data science. |
Alur Kerja Machine Learning Dalam Data Science
Alur machine learning dalam data science umumnya terbagi menjadi 9 tahap seperti yang tertera pada gambar di bawah ini.
- Memahami masalah bisnis
Untuk membangun model bisnis yang sukses, sangat penting untuk memahami masalah bisnis yang dihadapi klien. Misalnya, destinasi wisata di Bali yang tidak merata, sehingga perlu peninjauan khusus terkait peningkatan kualitas destinasi wisata yang memiliki rating berada di bawah rata-rata.
- Pengumpulan data
Setelah memahami pernyataan masalah, Anda harus mengumpulkan data yang relevan. Sesuai masalah bisnis, data dikategorikan berdasarkan data terstruktur, tidak terstruktur, dan semi-terstruktur dari basis data apa pun di seluruh sistem.
- Persiapan data
Langkah pertama persiapan data adalah melakukan pembersihan data. Ini adalah langkah yang penting untuk dilakukan. Dalam persiapan data, Anda menghilangkan duplikat dan nilai null, tipe data yang tidak konsisten, entri yang tidak valid, data yang hilang, dan pemformatan yang tidak tepat.
- Exploratory Data Analysis (EDA)
Exploratory Data Analysis memungkinkan Anda untuk mengungkap wawasan berharga yang akan berguna di fase berikutnya dari siklus hidup data science.
- Rekayasa fitur (Fitur Engineering)
Rekayasa fitur adalah salah satu langkah penting dalam proyek data science. Ini membantu dalam membuat fitur baru, mengubah dan menskalakan fitur. Dalam domain ini, keahlian memainkan peran kunci (key role) dalam menghasilkan wawasan baru dari langkah eksplorasi data.
- Model Pelatihan
Dalam pelatihan model, terdapat tahap menyesuaikan data pelatihan; di sinilah proses “belajar” dimulai. Pada tahap ini kita melatih model machine learning menggunakan data latih.
- Model evaluasi
Setelah pelatihan model selesai, saatnya untuk mengevaluasi kinerjanya. Jadi, mengevaluasi model pada kumpulan data baru akan memberi Anda gambaran tentang bagaimana kinerja model Anda di data mendatang.
- Penyetelan Hyperparameter
Setelah model dilatih dan dievaluasi, kinerja model dapat ditingkatkan lagi dengan menyetel hyperparameternya. Penyesuaian hyperparameter model penting untuk meningkatkan kinerja model secara keseluruhan.
- Membuat prediksi dan siap diterapkan
Ini adalah tahap akhir dari machine learning. Di sini, model digunakan untuk menjawab setiap pertanyaan Anda berdasarkan hasil pelatihannya. Setelah membuat prediksi yang akurat, model machine learning diterapkan ke dalam produksi.
Tipe-tipe Machine Learning
Secara umum, model machine learning dapat dibedakan berdasarkan penggunaannya, seperti supervised, unsupervised, dan reinforcement. Ketiganya merupakan istilah yang digunakan untuk memisahkan model dalam fungsi tertentu. Ingin tahu lebih lanjut? Yuk, kita simak materi berikutnya.
Supervised Learning
Machine learning supervised adalah pendekatan machine learning yang ditentukan oleh penggunaan kumpulan data yang berlabel.
Berikut merupakan fungsi dari supervised machine learning.
- Mengklasifikasikan berbagai jenis file, seperti gambar, dokumen, atau kata-kata tertulis.
- Memprediksi nilai dari data kontinu.
- Meramal tren dan hasil masa depan melalui pola pembelajaran dalam data penelitian.
Unsupervised Learning
Bertolak belakang dengan supervised machine learning, tipe ini adalah pelatihan model pada data tidak berlabel.
Berikut merupakan fungsi dari unsupervised machine learning.
- Mengklasifikasikan dataset pada kesamaan antara fitur atau segmen pada data.
- Memahami hubungan antara berbagai titik data
- Melakukan analisis data awal.
Reinforcement Learning
Reinforcement machine learning adalah salah satu dari tiga paradigma machine learning disamping supervised dan unsupervised.
Algoritma Machine Learning Tradisional
Di bawah ini merupakan bagian dari machine learning tradisional, yaitu Linear Regression dan Logistic Regression.
Linear regression vs. Logistic regression
| Linear Regression | Logistic Regression |
|---|---|
Regresi linier digunakan untuk memprediksi variabel dependen kontinu menggunakan sekumpulan variabel independen tertentu. | Regresi logistik digunakan untuk memprediksi variabel dependen kategoris menggunakan seperangkat variabel independen yang diberikan. |
Regresi linier digunakan untuk menyelesaikan masalah regresi. | Digunakan untuk memecahkan masalah klasifikasi. |
Memprediksi nilai variabel kontinu. | Memprediksi nilai variabel kategoris. |
Fit line (garis lurus). | Menggunakan s-curve. |
Keluaran berupa nilai kontinu, seperti harga, umur, dll. | Keluaran berupa nilai kategoris. seperti 0 atau 1, Ya atau tidak, dll. |
Algoritma Deep Learning
Di bawah ini merupakan serba-serbi deep learning yang perlu Anda ketahui mulai dari definisi deep learning hingga berkenalan dengan neural network.
Berkenalan dengan Deep Learning
Deep learning adalah metode dalam artificial intelligence yang mengajarkan komputer untuk memproses data layaknya otak manusia ketika berpikir. Model deep learning dapat mengenali pola kompleks dalam gambar, teks, suara, dan data lain untuk menghasilkan wawasan serta prediksi akurat.
Mengapa Perlu Deep Learning
Dengan adanya deep learning ini sangat bermanfaat bagi para data scientist yang bertugas mengumpulkan, menganalisis, dan menafsirkan data dalam jumlah besar. Dan juga membuat proses apapun menjadi lebih cepat dan lebih mudah.
- Asisten digital (chat bot),
- Deteksi penipuan (fraud detection),
- Pengenalan wajah otomatis (face recognition), dst.
Neural Network
Neural network adalah metode dalam artificial intelligence yang mengajarkan komputer untuk memproses data yang terinspirasi dari cara kerja otak manusia. Neural network adalah tipe proses machine learning yang termasuk dalam deep learning. Dalam prosesnya, ia menggunakan simpul atau neuron yang saling terhubung dalam struktur berlapis yang menyerupai otak manusia.
Last but not least, pada modul berikutnya Anda akan mempelajari cara untuk menembus lowongan pekerjaan mulai dari mencari peluang data scientist, membuat CV, dan sebagainya. So, tunggu apa lagi? Yuk! Kita langsung ke modul berikutnya.
Rangkuman Mulailah Mencari Peluang: Eksplorasi Hingga Membuat Portofolio
Dilansir dari LinkedIn Jobs on the Rise 2023 berikut merupakan tiga pekerjaan yang paling diminati.
- Content Planner. Merencanakan konten, bertanggung jawab untuk merencanakan dan mengelola konten secara keseluruhan, sesuai dengan strategi pemasaran yang ditentukan.
- Keterampilan: Copywriting, Content Strategi, Social Media Marketing.
- Tingkat pendidikan: 85.11 % untuk sarjana dan 10.64% gelar master.
- Data Science Specialist. Mengumpulkan dan menganalisis data dalam jumlah besar, lalu mengubahnya menjadi wawasan yang berguna untuk keputusan bisnis.
- Keterampilan: Data science, python (bahasa pemrograman), machine learning
- Tingkat pendidikan: 77.63% untuk sarjana dan 15.79% gelar master.
- Talent Acquisition Specialist. Spesialis akuisisi bakat bertanggung jawab untuk mencari, mengidentifikasi, dan merekrut karyawan baru sesuai peran dan kebutuhan bisnis.
- Keterampilan: Perekrutan, wawancara, employer branding.
- Tingkat pendidikan: 85.71% untuk sarjana dan 9.52 gelar master.
Deskripsi
Syarat
Data Analyst
Data Analyst bertanggung jawab untuk mengambil kesimpulan serta melakukan visualisasinya.
Profesi ini mengharuskan seseorang untuk bisa berhadapan langsung dengan banyak data.
Selain itu, seorang data analyst juga dituntut dapat mencari berbagai insight untuk memajukan bisnis maupun perusahaan.
Memiliki skill excel, Google Analytics, SQL, Tableau.
Data Scientist
Data Scientist bertanggung jawab untuk menganalisis dan menafsirkan berbagai kumpulan data dalam jumlah besar atau kompleks. Hal tersebut dimulai dari pengumpulan, pengolahan serta analisis dalam jumlah besar.
Tidak jarang seorang Data Scientist perlu membuat model machine learning untuk menyelesaikan permasalah bisnis.
C/C++, Python, Perl, Java serta SQL.
Data Engineer
Data Engineer bertanggung jawab dalam pembuatan desain arsitektur manajemen serta memelihara atau memonitor berbagai infrastruktur data yang ada di sebuah perusahaan. Selain itu, ia juga bertugas memastikan keakuratan dan fleksibilitas data yang telah didapatkan melalui berbagai sumber.
Menguasai SQL, Warehouse, Data lake, ETL tools.
Di bawah ini merupakan beberapa manfaat yang bisa Anda dapatkan apabila menyertakan portofolio Anda pada CV (Curriculum Vitae).
- Menunjukan kredibilitas diri Anda
Seperti yang telah disebutkan bahwa portofolio adalah rangkuman atau kumpulan hasil karya maka dengan menyertakannya pada CV, Anda akan menunjukkan kredibilitas diri kepada para perekrut bahwa Anda memiliki kualitas yang mumpuni.
- Bukti hasil kerja Anda
Selain untuk menunjukkan kredibilitas, portofolio juga sebuah bukti hasil kerja Anda. Semua hasil karya Anda dapat disertakan di dalam portofolio, asalkan Anda dapat mempertanggungjawabkannya.
- Membuka kemungkinan mendapatkan banyak klien
Biasanya, untuk meyakinkan klien akan etos kerja kita, mereka akan meminta portofolio Anda. Apabila portofolio tersebut cocok dengan kategori atau requirement yang diinginkan klien, kemungkinan portofolio Anda akan mendapatkan banyak klien.
- Anti-mainstream
Nah, salah satu cara agar perekrut tertarik dan mudah mengingat Anda adalah menjadi yang anti-mainstream. Salah satu upaya agar menjadi seseorang yang anti-mainstream adalah memiliki portofolio yang menarik. Actually, portofolio dalam bentuk word atau slide sebetulnya sudah cukup, hanya saja apabila ingin lebih dilihat memiliki effort yang besar, maka Anda dapat membuat portofolio based on website (yang akan dijelaskan pada submodul berikutnya).
Adapun contoh portofolio lain yang dapat Anda simak dari bidang lain selain data science, diantaranya
- Data Analysis
Agar memiliki sedikit gambaran terkait portofolio data analytics, berikut merupakan website yang dapat Anda eksplor untuk mengetahui bentuk portofolio data analysis.
Portofolio Claudia Ten Hoope
Atau Anda dapat mengeksplorasi portofolio data analysis dari medium Data Science Indonesia seperti yang tertera di bawah ini.
Dari kedua website di atas, Anda akan melihat cara penulis mulai dari membuat latar belakang analisis tersebut, kemudian sumber-sumber yang digunakan, cara menganalisis, hingga sebuah kesimpulan. Dari contoh-contoh di atas, Anda akan mendapatkan sebuah insights yang dapat digunakan dalam menyusun portofolio nantinya.
- Data Engineering
Seperti yang telah disebutkan sebelumnya bahwa jenis-jenis portofolio bisa berbeda-beda tergantung bidang yang Anda geluti. Pada video yang tertera pada medium tersebut menunjukkan cara membuat portofolio data engineering yang dikemas secara menarik oleh Luis Proc.
Video tersebut menjelaskan cara membuat proyek data engineering dengan studi kasus YouTube Data Analysis. Mulai dari pre-process hingga hasil akhir membuat dashboard. Apabila Anda tertarik untuk mengeksplorasi data engineering lebih lanjut telah banyak sumber yang dapat Anda pelajari mulai dari Google, Youtube, Medium, hingga Twitter menyediakan berbagai macam informasi yang bermanfaat.
- Get link
- X
- Other Apps





Comments
Post a Comment