Follow us:-
  • By dickysamuel
  • 21 October 2023
  • No Comments

Pengantar Data Science

Pengertian Data Science

Sebelum mengenal lebih dalam mengenai Data Science, kita harus mengetahui terlebih dahulu apa itu Data Science. Data Science berasal dari kata “Data” (informasi yang terkumpul) dan “Science” (ilmu terkumpul). Data Science atau sering disebut juga Sains Data merupakan suatu disiplin ilmiah yang berfokus pada pengumpulan, pengolahan, analisis, dan interpretasi data untuk mengidentifikasi pola, tren, dan wawasan yang berharga. Tujuan utamanya adalah mengungkap informasi yang dapat digunakan untuk pengambilan keputusan dan pemecahan masalah dalam berbagai konteks.

Data science menggabungkan elemen dari berbagai bidang, termasuk statistik, ilmu komputer, matematika, dan pengetahuan domain khusus, serta menggunakan berbagai alat dan teknik, termasuk machine learning, analisis statistik, dan pemrosesan bahasa alami. Dengan kemajuan teknologi dan ketersediaan data yang semakin melimpah, data science telah menjadi alat yang sangat berharga dalam bisnis, penelitian, dan banyak bidang lainnya untuk mengoptimalkan operasi, memprediksi tren, dan membuat keputusan berdasarkan bukti yang kuat.

Secara sederhana, Data Science merupakan proses penggalian wawasan dari data hal ini melibatkan mengumpulkan data, membersihkannya, menganalisisnya, dan menggunakan wawasan yang ditemukan untuk mengambil keputusan atau memecahkan masalah. Data science membantu kita memahami dunia sekitar kita dengan cara yang lebih baik melalui penggunaan teknik komputasi dan statistik pada data.

Pengertian Data Science Menurut Para Ahli
Berikut merupakan pengertian Data Science menurut para ahli :

·       William S. Cleveland (Ahli Statistik) : Data Science adalah cabang statistic yang berfokus pada penggunaan teknologi komputer dan pemahaman statistic untuk mengekstrasi pengetahuan dari data.

·       Drew Conway (Ilmuan Data) : Data Science adalah perpaduan antara pemahaman domain, pemahaman matematika/statistic, dan keterampilan teknologi komputer

·       Thomas H. Davenport dan DJ Patil : Data Science adalah kompetensi untuk mengambil data yang tidak terstruktur atau terstruktu dan mengubahnya menjadi wawasan, produk, atau keputusan.

·       Andrew NG : Data Science adalah seni yang menggabungkan ekstrasi data, statistic, dan pemahamn domain untuk menyelesaikan masalah dunia nyata.

Dari beberapa pengertian Data Science menurut para ahli dapat disimpulkan bahwa disiplin ini melibatkan berbagai aspek, termasuk pemahaman data, pemrograman, analisis statistik, dan pengetahuan domain untuk menghasilkan informasi yang bernilai dari data.

Pengertian Data Scientist
Seorang data scientist adalah seorang profesional yang memiliki keahlian dalam mengumpulkan, mengelola, menganalisis, dan menafsirkan data untuk menghasilkan wawasan yang berharga dan mendukung pengambilan keputusan. Tugas utama seorang data scientist meliputi Pengumpulan data, Pembersihan data, Analisis data, Pemodelan data, Visualisasi data, Pengambilan keputusan, dan Kemampuan komunikasi. Dapat dikatakan bahwa Data Scientist adalah seorang atau tim yang berada dibalik semua pekerjaan maupun kegiatan yang meliputi semua tentang Data Science.

Data scientist biasanya memiliki latar belakang dalam matematika, statistik, ilmu komputer, atau bidang terkait, dan mereka bekerja di berbagai industri, termasuk teknologi, keuangan, kesehatan, dan lainnya. Peran mereka menjadi semakin penting dalam era digital karena data menjadi aset berharga bagi banyak organisasi untuk mengambil keputusan yang cerdas.

Tujuan Data Science
Tujuan utama dari data science adalah untuk mengumpulkan, menganalisis, dan menginterpretasikan data dengan tujuan mendapatkan wawasan yang berharga, mengidentifikasi pola, serta membuat keputusan yang didasarkan pada bukti-bukti yang kuat. Melalui penggunaan teknik statistik, pemodelan data, dan kecerdasan buatan, data science membantu organisasi dalam memahami tren pasar, memperbaiki efisiensi operasional, dan mengoptimalkan pengambilan keputusan. Selain itu, data science juga dapat digunakan untuk memecahkan berbagai masalah kompleks, seperti peramalan, analisis risiko, dan pemahaman perilaku pelanggan, sehingga menjadi alat yang sangat berharga dalam era informasi yang semakin berkembang pesat.

Pilar Data Science
Data Science dapat digunakan untuk berbagai ilmu. Namun, terdapat tiga pilar penting yang mendukungnya, yaitu

·       Bisnis

Seorang data scientist yang mengolah data berdasarkan ilmu data science harus bisa mengolah data menjadi informasi yang bisa dipahami untuk membantu perancangan strategi guna menyelesaikan masalah bisnis.

Untuk bisa melakukan ini, keahlian data science pun harus disertai pemahaman bisnis sehingga penyelesaian yang diusulkan berdasarkan data mungkin untuk dilakukan sebuah bisnis untuk mencapai tujuannya.

·       Matematika dan statistika

Data science sangat membutuhkan ilmu matematika, karena data harus diolah secara kuantitatif. Banyak permasalahan dalam bisnis yang dapat diselesaikan dengan membuat model analitik dengan dasar matematika.Untuk membuatnya, dibutuhkan pemahaman matematika yang mendalam. Contohnya, algoritma untuk merancang machine learning sebagai salah satu aplikasi ilmu data science sangat lekat dengan matematika.

·       Teknologi

Tentu saja, data science tidak bisa lepas dari teknologi dan kreativitas serta kecerdasan dalam menggunakan keahlian teknis untuk menyelesaikan suatu permasalahan.

Data science adalah keilmuan yang menggunakan data dalam jumlah besar dan algoritma yang rumit, sehingga butuh keahlian ilmu komputer yang mendalam. Seorang data scientist perlu menguasai bahasa pemrograman seperti SQL, Phyton, R, SAS, Java, Scala, Julia, dan masih banyak lagi. Seorang data scientist harus mampu berpikir layaknya algoritma dalam memecahkan permasalahan yang paling sulit sekalipun.

 

Alat-alat dalam Data Science
Di dalam Data Science terdapat alat-alat yang digunakan secara umum yaitu sebagai berikut :

·       Big Data
Big Data adalah alat pertama yang harus kita bahas. Seorang data scientist baru dapat membantu memprediksi produk yang akan dijual, memprediksi waktu dan alasan pelanggannya mengganti operator, sampai memahami seberapa paik pelanggan mereka mengemudi, penyebaran unit, dan lain sebagainya bagi perusahaan produk, telekomunikasi, sampai asuransi mobil, hanya jika Big Data digunakan.

·       Machine Learning
Machine Learning adalah alat kedua. Alat ini punya sifat interdisipliner serta menggunakan teknik dari bidang statistik, ilmu komputer, serta Artificial Intelligence. Komponen utama dari Machine Learning adalah algoritma yang secara otomatis bisa belajar dari pengalaman untuk memperbaiki kinerjanya. Dalam berbagai bidang, algoritma sendiri memang digunakan.

·       Data Mining
Data Mining sebagai alat selanjutnya yang dibahas, merupakan penerapan algoritma khusus untuk mengekstraksi pola suatu kumpulan data. Data Mining ini erat hubungannya dengan Machine Learning dalam hal mengekstrak pola informatif yang tersimpan dalam kumpulan data.

·       Deep Learning
Selanjutnya, terdapat alat Deep Learning. Bukan sekadar “belajar dengan dalam atau serius” seperti yang bisa kita lakukan kala akan menempuh ujian, istilah baru yang sering digunakan dan dibicarakan ini mengacu pada proses penerapan teknologi Deep Neural Network yang merupakan arsitektur jaringan saraf dan lapisan tersembunyi demi memecahkan masalah.

·       Artificial Intelligence
Alat data science yang terakhir ialah Artificial Intelligence. Istilah yang umum disebut AI itu merupakan bidang ilmu komputer yang menekankan penciptaan mesin cerdas yang dapat bereaksi dan bekerja layaknya manusia. Adapun, AI punya komponen inti berupa pemrograman komputer untuk sifat tertentu, misalnya penalaran, pengetahuan, persepsi, pemecahan masalah, pembelajaran, perencanaan, dan lain sebagainya.

 

Proses Data Science
Menurut Towards Data Science, untuk menjelaskan proses dari Data Science merupakan hal yang tidak mudah. Namun, proses tersebut dapat dirangkum menjadi lima poin (OSEMN) yaitu sebagai berikut,

·       Obtain
Langkah pertama untuk memulai sebuah proyek data science adalah obtain, yaitu mendapatkan atau mengumpulkan data. Data dikumpulkan dari sumber-sumber data. Kemudian digunakan kemampuan teknis seperti MySQL untuk memroses datanya. Jika menggunakan Python atau R, kamu bisa langsung membaca data dari sumbernya secara langsung ke program data science yang digunakan. Untuk mengambil data dari sumber, dibutuhkan kemahiran bermacam-macam sesuai dengan tipe dan ukuran file yang didapatkan.

·       Scrub
Setelah data dikumpulkan, hal selanjutnya yang harus dilakukan dalam tahap proses data science adalah scrubbing data. Scrubbing data adalah proses pembersihan atau filter data. Jika ada data yang tidak penting atau tidak relevan, harus disingkirkan.Pada tahap ini, dilakukan juga standardisasi format data.Dari format bermacam-macam di tahap pertama, seluruh data dikonversi ke satu format yang sama. Setelah itu, jika ada data yang kurang atau hilang, harus dilakukan penyesuaian agar dapat diproses. Proses scrubbing juga meliputi penyatuan dan pemisahan kategori data tergantung kebutuhan. Pada dasarnya, tahap scrubbing merupakan proses mengatur, merapikan data, serta membuang apa pun yang tidak diperlukan, dan mengganti data yang hilang serta menstandardisasi seluruh formatnya.

·       Explore
Pada tahap ini, penggalian dan pemeriksaan data dilakukan. Pertama-tama, semua data harus diperiksa propertinya, karena tipe data yang berbeda memerlukan perlakuan yang berbeda pula. Kemudian, statistik deskriptif harus dihitung untuk dapat mengekstrak fitur dan menguji variabel yang signifikan. Terakhir, visualisasi data digunakan untuk mengidentifikasi pola dan tren signifikan dalam data yang sudah kamu dapatkan. Dengan begitu, bisa diperoleh gambaran yang lebih jelas dengan grafik agar pentingnya data dapat lebih dipahami.

·       Model
Setelah memastikan tahap scrub dan explore sudah dilakukan maksimal, maka kamu dapat lanjut ke tahap data science selanjutnya, yaitu model. Pada tahap ini, dibuat model data untuk mencapai tujuan yang diinginkan. Pada tahap ini, digunakan regresi dan prediksi untuk memperkirakan nilai di waktu mendatang serta melakukan klasifikasi dan pengelompokan grup nilai dari data. 

·       Interpret
Tahap terakhir dalam proses data science adalah interpretasi data.Interpretasi data adalah proses penting di mana dilakukan interpretasi model dan data. Output dari pengolahan data yang diinterpretasi harus bisa dipahami oleh orang-orang awam yang tidak mengerti istilah teknis. Presentasinya bertujuan untuk menjawab persoalan bisnis berdasarkan data yang diperoleh. Pada tahap interpretasi data, kemampuan komunikasi yang baik juga sangat dibutuhkan untuk menyampaikan poin-poin pentingnya secara efektif pada semua orang yang berkepentingan.

Penerapan Data Science dalam kehidupan sehari-hari
Sesungguhnya, Data Science adalah bidang yang bertujuan untuk memberikan insight signifikan dalam ketersediaan data yang banyak. Data Science biasanya terhubung pada berbagai bidang pekerjaan, dengan tujuan untuk melakukan proses perhitungan dan penerjemahan akan data yang hendak disaring. Maka dari itu, ilmu satu ini dapat ditemukan penerapannya pada berbagai sektor industri, mulai dari bidang kesehatan hingga e-commerce untuk keperluan bisnis. Berikut merupakan contoh penerapan Data Science dalam kehidupan sehari-hari :

·       Bidang kesehatan
Salah satu contoh penerapan terbesar data science adalah pada sektor industri kesehatan. Bahkan, menurut laman Built In, ilmu data science pertama kali dikenalkan pada dunia lewat industri kesehatan pada tahun 2008. Pada tahun tersebut, Google menemukan bahwa mereka dapat memetakan wabah flu secara real time dengan melacak data lokasi pada pencarian terkait flu. Peta dari CDC (Centers for Disease Control and Prevention) yang ada dari kasus flu yang didokumentasikan, FluView, diperbarui hanya sekali seminggu. Hasilnya, Google dengan cepat meluncurkan alat pesaing dengan pembaruan berita yang lebih up-to-date, yakni Google Flu Trends.

·       Bidang finansial
Contoh penerapan data science berikutnya adalah untuk keperluan fraud detection pada bidang finansial. Kebanyakan bank dan perusahaan berbasis finance kini menggunakan data science untuk mengklasifikasikan, mengelompokkan, dan menyegmentasikan data yang mungkin menandakan pola penipuan. Hal ini diperlukan guna menghindari terjadinya proses kriminalisasi berkelanjutan di dalam sistem milik perusahaan. Sistem pakar dalam perusahaan finansial juga bisa mengkodekan data yang mampu mendeteksi penipuan dalam bentuk-bentuk yang tak terduga.

·       Bidang olahraga profesional
Siapa sangkah bahwa ternyata data science memiliki imbas yang cukup besar bagi dunia olahraga profesional. Ya, ilmu satu ini ternyata sering digunakan untuk keperluan rekrutmen pemain muda yang berpotensi menjadi bintang. Salah satu contoh penerapannya adalah pada tim baseball Oakland Athletics. Mereka menggunakan statistik dalam gim yang sering diabaikan tim lain untuk memprediksi potensi pemain dan membentuk tim yang kuat dengan harga murah.

·       Bidang e-commerce
Contoh terakhir penerapan data science adalah pada bidang e-commerce untuk berbagai keperluan dynamic pricing. Penetapan harga ini dibentuk oleh suatu perusahaan e-commerce untuk menyegmentasikan pelanggan atau konsumen secara tepat. Dynamic pricing ini juga diperlukan agar setiap kelompok pelanggan dapat ditawari produk dengan harga yang sesuai dengan kebutuhan mereka. Penghitungan dynamic pricing pada suatu perusahaan

Ancaman dan Tantangan dalam Data Science
Dalam bidang Data Science, seperti halnya dalam banyak aspek teknologi dan bisnis, ada beberapa ancaman dan tantangan yang perlu diperhatikan. Berikut adalah beberapa ancaman dalam data science:

·       Privasi dan Keamanan Data
Dalam pengumpulan dan pengolahan data, perlu diperhatikan privasi individu dan keamanan data. Penyalahgunaan atau kebocoran data pribadi dapat merusak reputasi perusahaan dan melanggar peraturan privasi seperti GDPR (General Data Protection Regulation).

·       Bias Data dan Model
Data yang digunakan untuk melatih model machine learning bisa mencerminkan bias yang ada dalam data tersebut. Ini dapat menghasilkan model yang tidak adil atau diskriminatif, terutama dalam konteks keputusan yang memengaruhi individu (seperti perolehan kredit atau peradilan).

·       Kualitas Data yang Buruk
Data yang tidak berkualitas dapat menghasilkan hasil analisis yang tidak akurat dan rekomendasi yang salah. Pembersihan data dan pengelolaan data yang buruk dapat menyebabkan kerugian finansial dan reputasi.

·       Transparansi Model
Model machine learning sering kali kompleks dan sulit untuk dijelaskan. Ini bisa menjadi masalah ketika perlu menjelaskan keputusan yang diambil oleh model tersebut kepada pemangku kepentingan atau lembaga pengaturan.

·       Kekurangan Keahlian
Data science adalah bidang yang membutuhkan keahlian teknis yang kuat. Kekurangan tenaga kerja yang memiliki keterampilan dalam data science dapat menjadi ancaman dalam hal pengembangan dan penerapan teknik analisis data yang lebih canggih.

·       Kesalahan dalam Interpretasi
Salah interpretasi hasil analisis data dapat mengarah pada pengambilan keputusan yang salah. Memahami konteks dan batasan analisis adalah kunci untuk mencegah kesalahan ini.

·       Peraturan dan Kepatuhan
Peraturan yang berubah-ubah dan kompleks, seperti GDPR atau CCPA (California Consumer Privacy Act), dapat menimbulkan tantangan dalam pengumpulan, penyimpanan, dan penggunaan data dalam perusahaan.

·       Keamanan Siber
Ancaman siber terhadap sistem dan data dapat merusak integritas dan ketersediaan data, sehingga perlu ada upaya untuk melindungi data dari serangan siber.

·       Biaya dan Infrastruktur
Investasi yang besar dalam infrastruktur dan teknologi data science bisa menjadi ancaman, terutama untuk perusahaan kecil dan startup yang mungkin memiliki keterbatasan anggaran.

Penting untuk memahami dan mengatasi ancaman-ancaman ini dengan tepat untuk memaksimalkan manfaat data science sambil meminimalkan risiko dan dampak negatifnya. Hal ini melibatkan praktik terbaik dalam pengelolaan data, etika data, keamanan siber, dan kepatuhan peraturan.

Sumber :

1.       https://www.gramedia.com/literasi/data-science-adalah/

2.       https://pacmann.io/blog/pahami-data-science-lebih-dalam-dari-berbagai-ahli

3.       https://glints.com/id/lowongan/data-science adalah/#:~:text=Menurut%20Data%20Robot%2C%20data%20science,pengetahuan%20atau%20informasi%20dari%20data

4.       https://codingstudio.id/blog/data-science-adalah-tujuan-cara-kerja/

5.       https://blog.skillacademy.com/apa-itu-data-scientist

6.       https://dqlab.id/pengertian-data-science-contoh-dan-profesi

 

 

 

 

 

 

 

 

Leave a Reply