Follow us:-
  • By muhamadiqbalhidayat
  • 22 October 2023
  • No Comments

Proyek sains data

 MENGGALI WAWASAN DARI DATA: SEBUAH PROYEK SAINS DATA

“Proyek sains data ini bertujuan untuk menganalisis pola penjualan produk suatu perusahaan selama setahun terakhir. Data penjualan harian, musiman, dan faktor eksternal seperti cuaca, promosi, dan harga digunakan dalam analisis. Hasilnya mengungkapkan bahwa penjualan produk tertentu mengalami peningkatan signifikan selama musim panas, terutama saat cuaca cerah, sementara penjualan produk lainnya cenderung stabil sepanjang tahun. Pemahaman ini memungkinkan perusahaan untuk mengoptimalkan stok dan strategi pemasaran, yang berdampak positif pada pendapatan.”

Analisis Eksplorasi Data:Setelah berhasil mengumpulkan dan mempersiapkan data, langkah berikutnya adalah menjalankan analisis eksplorasi data. Tujuan dari analisis eksplorasi data adalah untuk memahami lebih dalam tentang karakteristik data, mengidentifikasi pola, serta mempersiapkan data untuk pemodelan. Berikut adalah beberapa langkah utama yang kami ambil:

Visualisasi Data: Kami menggunakan berbagai teknik visualisasi, seperti grafik, histogram, dan scatter plot, untuk memvisualisasikan data. Ini membantu kami melihat pola dan hubungan antara variabel-variabel yang ada dalam dataset.

Statistik Deskriptif: Kami menghitung statistik deskriptif, seperti rata-rata, median, deviasi standar, dan lainnya untuk setiap variabel. Ini memberi kami pemahaman yang lebih mendalam tentang distribusi data.

Korelasi: Kami mengevaluasi korelasi antara variabel-variabel untuk melihat apakah ada hubungan yang signifikan di antara mereka. Ini dapat membantu kami mengidentifikasi faktor-faktor yang memengaruhi hasil yang kami amati.

Analisis Tren: Jika data mencakup waktu, kami melihat tren seiring waktu untuk mengidentifikasi pola musiman atau tren jangka panjang yang mungkin ada.

Analisis Outlier: Kami mengevaluasi data untuk mengidentifikasi outlier yang mungkin memengaruhi hasil analisis. Outlier adalah nilai yang signifikan berbeda dari sebagian besar data.

Interpretasi Hasil

Setelah berhasil mengembangkan model sains data, langkah selanjutnya adalah menginterpretasi hasil yang kami peroleh. Ini melibatkan menganalisis output dari model dan mengonversinya menjadi wawasan yang dapat digunakan untuk pengambilan keputusan. Berikut adalah langkah-langkah utama dalam tahap interpretasi hasil:

Analisis Variabel Penting: Kami mengevaluasi variabel mana yang memiliki dampak signifikan pada hasil model. Ini membantu kami memahami faktor-faktor apa yang memengaruhi hasil yang kami amati.

Interpretasi Parameter: Jika kami menggunakan model statistik seperti regresi, kami menginterpretasikan parameter model untuk memahami hubungan antara variabel-variabel independen dan dependen.

Visualisasi Hasil: Kami menggunakan visualisasi seperti grafik atau plot untuk membantu mengkomunikasikan hasil kepada pemangku kepentingan. Ini bisa berupa grafik tren, diagram batang, atau visualisasi lainnya.

Prediksi harga saham
Prediksi pasar saham menjadi bidang yang sangat menarik bagi investor sejak dulu. Setiap hari, perdagangan uang terjadi di bursa saham dan melibatkan berbagai upaya dari para investor untuk dapat membuat keputusan terbaik. Apabila investor berhasil memprediksi pergerakan pasar secara akurat, mereka dapat memperoleh keuntungan yang signifikan. Dengan pemanfaatan machine learning dan Python, seorang investor dapat melakukan prediksi harga saham secara otomatis. Kamu perlu mempersiapkan Python library berikut untuk proyek yang satu ini:

import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
Berikut langkah-langkah yang dapat kamu lakukan untuk mengerjakan proyek prediksi harga saham setelah mengimpor Python libraries:

Tuliskan fungsi persiapan data set agar dapat memasukkannya ke dalam model Linear Regression secara lebih mudah
Baca data yang bersangkutan
Siapkan tiga variabel input untuk menyebutkan kolom yang ingin diprediksi. Variabel berikutnya berdasarkan sejauh mana prediksi data terjadi. Sedangkan, variabel terakhir adalah ukuran dari test set
Saatnya mengaplikasikan machine learning ke dalam perhitungan harga saham. Bagi data dan masukkan ke dalam model Linear Regression Prediksi output kemudian cek harga saham yang muncul

Pengenalan angka dari tulisan tangan

Pengenalan angka dari tulisan tangan Merupakan kemampuan komputer untuk mengenali angka yang berasal dari tulisan tangan manusia. Tugas ini cukup rumit bagi mesin karena setiap tulisan tangan punya ciri khas dan bentuknya masing-masing. Selain itu, tulisan tangan berupa angka juga memiliki karakter dan selera penulisan yang beragam. Kamu akan menggunakan konsep deep learning menggunakan MNIST data set. Perlu kamu ketahui bahwa data set ini populer di kalangan penggemar deep learning dan machine learning.

 

MNIST data set sudah mencakup 60.000 gambar digit dari tulisan tangan mulai angka 0 sampai 9 serta 10.000 data untuk proses testing. Gambar dari digit tulisan tangan akan direpresentasikan sebagai matriks 28×28 dengan setiap sel berisi grayscale pixel value. Prosedur yang dapat kamu lakukan untuk proyek belajar data science ini, antara lain:

Impor libraries dan muat data set yang dibutuhkan. Sebuah library bernama Keras sudah memiliki MNIST data set untuk memudahkan pengerjaan. Pakai metode mnist.load_data() yang mencakup data pelatihan dan data testing disertai pengujian masing-masing.

Mengulang pemrosesan data untuk mempersiapkan neural network sekaligus mengumpankan data gambar secara langsung menuju model. Dimensi dari pelatihan data adalah (60000,28,28). Dibutuhkan satu matriks lagi untuk membentuknya menjadi (60000,28,28,1).

Lanjutkan ke tahap pembuatan model CNN ke dalam proyek data science Python. Model CNN biasanya terdiri dari pooling dan convutional. CNN lebih baik dalam hal klasifikasi gambar karena mampu mempresentasikan data dalam struktur grid. Kompilasi model dilakukan dengan optimasi Adadelta.

Fungsi model.fit() dari library Keras bisa melewati proses pelatihan. Selain itu, kamu juga membutuhkan data validation, epoch, serta batch size. Setelah beberapa waktu pelatihan, kamu dapat menyimpannya dengan definisi model ke dalam file ‘mnist.h5’.

Terdapat 10.000 gambar dalam kumpulan data yang akan digunakan untuk mengevaluasi seberapa baik model tersebut bekerja. MNIST data set bersifat seimbang dan memiliki tingkat akurasi hingga 99%.

Lakukan pembuatan GUI untuk melakukan prediksi angka. Dalam aspek GUI, kamu dapat membuat file baru untuk membangun jendela interaktif. Tujuannya untuk menggambar angka di atas kanvas dan mengenali angka dengan suatu button. Gunakan fungsi predict_digit() yang mengambil gambar sebagai input kemudian menggunakan model terlatih dalam memproduksi digit.

Text summarization

Text summarization merupakan proses untuk membuat ringkasan dokumen tertentu berisi informasi penting seperti aslinya. Tujuannya mendapatkan ringkasan atau poin-poin utama dari suatu dokumen. Proyek yang satu ini menggunakan machine learning pada Python sebagai basis pemrograman terkait. Mengapa menggunakan machine learning untuk menyusun text summarization? Karena kamu akan mengurangi referensi teks ke dalam bentuk yang lebih kecil sembari merangkum makna dan pengetahuan di dalamnya. Awali dengan mengimpor Python libraries berikut:

import nltk

import string

from heapq import nlargest

Dalam proyek ini, kamu tidak perlu menggunakan banyak machine learning. Teks dapat diringkas dengan mudah tanpa menggunakan pelatihan model. Meskipun begitu, kamu tetap membutuhkan beberapa pemrosesan secara alami. Untuk itulah diperlukan NLTK dengan Python library. Lanjutkan dengan beberapa langkah penghapusan tanda baca dan pemrosesan dari teks tersebut. Tandai teks kemudian periksa hasil peringkasan dengan Python. Kode yang muncul akan memberikan ringkasan teks sesuai keinginan ke dalam variabel teks.

  1. Beberapa proyek di atas dapat kamu gunakan untuk belajar data science dalam mengeksekusi praktik kemampuan secara langsung. Ketika sudah punya bekal pengetahuan dan teori yang mendukung praktik data science, manfaatkan waktu pembelajaran yang ada untuk menghasilkan produk-produk penunjang karier sebagai seorang Data Scientist andal di dunia kerja.

Kesimpulan

“Dalam proyek ini, kami berhasil mengumpulkan, membersihkan, dan menganalisis data terkait menggali wawasan data proyek sains data. Hasil analisis menunjukkan bahwa data proyek sains data . Temuan ini memiliki implikasi yang signifikan terhadap pengembangan proyek sains data ini. Selain itu, kami juga menemukan hasil cara memperediksi data/dan memahami sebuah data. Proses pengolahan data dan pemodelan yang kami terapkan berhasil dalam menghasilkan hasil yang dapat diandalkan. Kesimpulan ini memberikan pemahaman yang lebih baik tentang wawasan data proyek sains data dan dapat digunakan sebagai landasan untuk pengambilan keputusan selanjutnya.”

Referensi

https://digitalskola.com/tim-kami

https://eksplorasidata.mipa.ugm.ac.id/author/yunita-ws/

https://digitalskola.com/corporate-training

Elvira Savitri

Customer Relations Officer

 

 

Leave a Reply