Mengupas Tuntas Analitik End-to-End dengan Microsoft Fabric


Mengupas Tuntas Analitik End-to-End dengan Microsoft Fabric



Anda telah mengenal konsep dasar Microsoft Fabric, manfaatnya untuk kolaborasi data modern di perusahaan, berbagai komponen utama yang ditawarkan, hingga bagaimana memulai implementasi serta memaksimalkan produktivitas dengan dukungan Copilot.

  • Microsoft Fabric adalah platform analyticsend-to-end yang mengintegrasikan berbagai layanan data komputerisasi dalam satu lingkungan terpadu, memungkinkan kolaborasi efektif lintas peran di perusahaan.
    • Menyatukan berbagai kemampuan seperti data engineeringdata integrationdata warehousingreal-time intelligencedata science, dan business intelligence.
    • Dilengkapi dengan Copilot, asisten generative AI, untuk meningkatkan produktivitas melalui intelligent code completion, konversi bahasa alami ke SQL, dan pembuatan insight otomatis.
  • OneLakeadalah fondasi penyimpanan terpusat di Microsoft Fabric sehingga dapat melakukan beberapa hal berikut.
    • Mencegah terjadinya data silo dengan mengonsolidasikan data dari berbagai region dan cloud tanpa perlu duplikasi fisik.
    • Mendukung format-format populer: Delta-Parquet (sebagai format default untuk data tabular), CSVParquet, dan JSON.
    • Fitur Shortcuts memudahkan akses data lintas lingkungan tanpa migrasi fisik.
  • Workspacesdi Microsoft Fabric berfungsi sebagai wadah proyek dan kolaborasi sehingga dapat menawarkan beberapa hal berikut.
    • Memudahkan pengelolaan aset data, laporan, dan resource secara terstruktur.
    • Menawarkan pengaturan izin terpisah untuk keamanan dan kolaborasi, mendukung integrasi dengan Git untuk version control.
    • Mendukung pengaturan performa dan biaya lewat manajemen compute resources dan workload konfigurasi.
  • Tata kelola dan administrasi dilakukan melalui Admin portalakan dapat mendukung beberapa hal berikut.
    • Memberikan kontrol penuh terhadap pengaturan akses, keamanan, dan konfigurasi sistem.
    • Mendukung integrasi API dan SDK untuk otomasi tugas serta interoperability dengan sistem perusahaan.
    • Fitur OneLake catalog membantu penemuan dan monitoring aset data dengan dukungan metadata dan sensitivity labels.
  • Transformasi kolaborasi tim datadengan Fabric akan dapat melakukan beberapa hal berikut.
    • Menghapus hambatan silo antar peran seperti data engineerdata analyst, dan data scientist.
    • Memungkinkan kolaborasi efektif dalam satu workspace, mempercepat alur kerja analitik.
    • Mendukung pengguna low-to-no-code dan citizen developers dengan data terkurasi dan template siap pakai.
  • Pengaktifan dan penggunaan Microsoft Fabric:
    • Wajib dilakukan oleh administrator melalui portal Power BI dan dapat diatur untuk seluruh organisasi atau grup tertentu.
    • Konfigurasi workspace sangat fleksibel: dari lisensi, akses ke OneDrive, integrasi Azure Data Lake Gen2, Git, sampai workload Spark.
    • Peran akses mencakup admincontributormember, dan viewer, serta bisa diperinci lagi ke level item.
  • OneLake Catalogsebagai alat pencarian data:
    • Memudahkan eksplorasi dan akses ke sumber data perusahaan.
    • Pengguna hanya dapat melihat item yang telah dibagikan, meningkatkan keamanan dan privasi.
    • Mendukung filter melalui kategori, workspace, domain, dan jenis data.
  • Workloads utama dalam Fabricmeliputi:
    • Data Engineering: Mengelola lakehouses dan membangun aset data.
    • Data Factory: Mengambil, mentransformasi, dan mengorkestrasi data.
    • Data Science: Menganalisis data dan membangun model machine learning.
    • Data Warehouse: Analisis dan integrasi data secara masif dalam warehouse tradisional.
    • Databases: Kueri dan ekstraksi data dengan alat yang beragam.
    • Industry Solutions: Solusi siap pakai untuk kebutuhan spesifik industri.
    • Real-Time Intelligence: Analisis data streaming secara instan.
    • Power BI: Pembuatan laporan dan dashboard interaktif.
  • Produktivitas meningkat dengan Copilot:
    • Intelligent code completion dan saran kode kontekstual di Data Engineering & Data Science.
    • Otomatisasi pembuatan laporan serta natural language query di Power BI dan Data Warehouse.
    • Konversi perintah bahasa alami ke SQL/KQL, mempercepat pengambilan insight bahkan untuk pengguna non-teknis.
    • Aktifkan Copilot melalui pengaturan Tenant di portal Admin.

Rangkuman Menyelami Dunia Data Science dengan Microsoft Fabric

Anda telah mempelajari alur kerja data science, cara melatih model di notebook Microsoft Fabric, pelacakan metric model dengan MLflow serta experiments, dan bagaimana berkolaborasi mengakses data dari berbagai penjuru organisasi. Berikut adalah poin-poin penting yang perlu Anda ingat sebagai bekal memperdalam dunia data science menggunakan Microsoft Fabric.

  • Data sciencemembantu Anda mengambil keputusan berbasis data melalui kombinasi matematika, statistik, dan teknik komputer.
    • Data science digunakan untuk menemukan pola dalam data dan dijadikan insight atau prediksi bagi organisasi.
    • Data science dapat dimanfaatkan untuk membangun model artificial intelligence (AI).
  • Jenis model machine learning yang umum digunakan:
    • Classification: Memprediksi nilai kategorikal, seperti menentukan pelanggan yang akan berhenti berlangganan.
    • Regression: Memprediksi nilai numerik, contohnya memperkirakan harga sebuah produk.
    • Clustering: Mengelompokkan data mirip ke dalam grup tanpa label awal.
    • Forecasting: Memprediksi nilai numerik di masa depan berdasarkan data deret waktu.
  • Alur proses data science secara umum meliputi:
    • Merumuskan masalah: Berkolaborasi dengan pengguna bisnis untuk menentukan tujuan model.
    • Mengumpulkan data: Mengakses dan menyimpan data ke dalam Lakehouse.
    • Mempersiapkan data: Mengeksplorasi, membersihkan, dan mentransformasi data yang akan digunakan oleh model.
    • Melatih model: Memilih algoritma dan parameter, serta melacak setiap eksperimen (experiment) menggunakan MLflow.
    • Menghasilkan insight: Menggunakan batch scoring untuk membuat prediksi yang relevan.
  • Eksplorasi dan pemrosesan data di Microsoft Fabric:
    • Data dapat di-ingest dari berbagai sumber, baik lokal maupun cloud, dan disimpan di Lakehouse.
    • Anda bisa melakukan eksplorasi data dan transformasi menggunakan notebook berbasis Spark dengan bahasa seperti PySpark atau SparkR.
    • Microsoft Fabric menyediakan Data Wrangler, alat visual untuk eksplorasi, pembersihan, dan transformasi data dengan lebih cepat.
      • Data Wrangler menyediakan statistik deskriptif singkat dari data, operasi data cleaning instan, dan export kode otomatis ke notebook.
  • Model training & scoring di Microsoft Fabric:
    • Proses pelatihan model adalah iteratif dan perlu dilacak menggunakan MLflow agar mudah membandingkan dan mereproduksi hasil eksperimen.
    • Konsep experiment: Setiap proses pelatihan dilacak sebagai satu experiment, dan setiap variasi pelatihan adalah run baru dalam experiment tersebut.
    • Anda dapat melacak parametersmetrics, dan artifacts pada setiap run, dan membandingkannya melalui tab user interface Experiments.
    • Setelah model selesai dilatih, artifacts dapat didaftarkan sebagai registered model di Microsoft Fabric, yang otomatis memberi versioning tiap model baru.
  • Menggunakan model untuk menghasilkan prediksi (scoring):
    • Prediksi mudah dilakukan dengan fungsi bawaan PREDICT, terintegrasi dengan MLflow models.
    • Hasil scoring dapat disimpan sebagai tabel di Lakehouse dan divisualisasikan lebih lanjut, misal di Power BI, untuk analisis bisnis.
  • Kolaborasi dan integrasi:
    • Microsoft Fabric memungkinkan manajemen data, notebook, eksperimen, dan model dalam satu workspace sentral.
    • Data dan hasil eksperimen mudah diakses dan dikelola seluruh organisasi, mendukung kolaborasi lintas tim data.
  • Fitur unggulan Microsoft Fabric untuk data science:
    • Lakehouse: Penyimpanan data terpusat untuk structured, semi-structured, dan unstructured data.
    • Notebooks: Untuk eksplorasi data dan pengembangan model.
    • Data Wrangler: Mempercepat eksplorasi dan pembersihan data.
    • Experiments: Melacak dan mengevaluasi percobaan pelatihan model.
    • MLflow integration: Memudahkan tracking dan deployment model.

Rangkuman Menjelajahi Data untuk Data Science dengan Notebooks di Microsoft Fabric

Anda telah mengulas bagaimana memanfaatkan notebook di Microsoft Fabric sebagai alat utama untuk eksplorasi data, memahami distribusi, menangani data hilang, menerapkan berbagai teknik visualisasi dan analisis lanjutan, hingga kolaborasi efektif bersama tim. Berikut adalah ringkasan poin-poin penting yang telah Anda pelajari. 

  • Peran Notebooks dalam Data Science
    • Microsoft Fabric Notebooks menyediakan tempat interaktif untuk menjalankan kode, membuat catatan, dan mengelola workflow data science dalam satu wadah yang mudah kolaboratif.
    • Empat bahasa yang didukung: PySpark (Python)Spark (Scala)Spark SQL, dan SparkR.
    • Penggunaan notebook mendorong eksplorasi, eksperimen cepat, dan memudahkan berbagi insight.
  • Proses Data Science: Fokus pada Eksplorasi Data
    • Eksplorasi data adalah langkah awal dan fondasi dalam proyek data science.
    • Proses utama:
      • Merumuskan masalah bersama tim bisnis.
      • Mengumpulkan dan menyimpan data pada lakehouse.
      • Membaca, membersihkan, dan mengubah data via notebook.
      • Melatih dan mengevaluasi model, serta menghasilkan insight.
    • Materi ini berfokus pada memuat data dan melakukan exploratory data analysis (EDA) menggunakan Python di Microsoft Fabric Notebook.
  • Bekerja dengan Notebooks di Microsoft Fabric
    • Setup mudah: langsung membuat atau mengimpor notebook tanpa konfigurasi rumit.
    • Kapasitas untuk menangani data skala besar dengan dukungan Apache Spark.
    • Mendukung kolaborasi real-time; pengguna dapat melakukan pengeditan bersamaan dan berkomunikasi efisien.
    • Fitur pendukung: IntelliSense untuk pelengkapan kode otomatis, variables explorer untuk melacak variabel, serta kemudahan drag-and-drop untuk mengimpor data atau gambar.
  • Mengelola Library dan Dependency
    • Library dapat diinstal via pengaturan workspace untuk semua pengguna atau secara in-line dengan %pip untuk kebutuhan per notebook.
    • Instalasi in-line hanya berlaku selama sesi notebook berjalan dan akan me-reset interpreter Python.
  • Memuat Data untuk Eksplorasi Data
    • Data yang sudah tersimpan di lakehouse dapat di-load ke notebook dengan kode otomatis atau manual.
    • Mendukung berbagai format file, seperti Parquet, CSV, JSON, serta data dari sumber eksternal seperti Azure Blob Storage.
  • Memahami Distribusi Data
    • Distribusi data membantu memahami pola, potensi bias, dan kualitas dataset Anda.
    • Tiga distribusi umum yang sering ditemukan:
      • Distribusi Normal: simetris, rata-rata sama dengan median.
      • Distribusi Binomial: dua kemungkinan hasil, misalnya ya/tidak, benar/salah.
      • Distribusi Seragam (Uniform): semua nilai sama besar peluangnya.
    • Memastikan distribusi membantu memilih model statistik atau machine learning yang tepat.
  • Menangani Missing Data
    • Missing data adalah masalah umum yang perlu dideteksi dan diatasi.
    • Identifikasi nilai hilang menggunakan fungsi isnull() atau isna() dari pandas.
    • Jenis missing data:
      • MCAR (Missing Completely at Random): sepenuhnya acak.
      • MAR (Missing at Random): terkait variabel lain.
      • MNAR (Missing Not at Random): terkait dengan nilai data itu sendiri.
    • Strategi penanganan:
      • Mengabaikan jika jumlahnya sedikit.
      • Menghapus baris/kolom dengan banyak nilai hilang.
      • Imputasi (mengisi) dengan rata-rata, median, modus, atau teknik lain.
      • Mengubah ketiadaan nilai menjadi fitur baru dalam analisis.
  • Teknik Eksplorasi Data Tingkat Lanjut
    • Analisis Korelasi: Mengukur kekuatan dan arah hubungan linear antarvariabel. Koefisien berkisar -1 hingga 1.
    • Principal Component Analysis (PCA): Reduksi dimensi untuk menyederhanakan data menjadi lebih sedikit variabel utama, tetapi tetap mempertahankan informasi esensial.
  • Memvisualisasikan Data dalam Notebook
    • Visualisasi mengubah data menjadi kisah yang mudah dipahami.
    • Tipe variabel:
      • Kategorikal: analisis frekuensi dan proporsi.
      • Numerik: analisis tendensi sentral (rata-rata, median, modus), dispersi (range, IQR, simpangan baku), dan bentuk distribusi.
    • Summary statistics memudahkan pemantauan karakteristik utama dataset.
    • Analisis Univariat: Menggunakan histogram, box plot, dan bar chart untuk satu variabel.
    • Analisis Bivariat/Multivariat: Melihat hubungan antarvariabel via scatter plot, correlation matrix, dan pair plot.
    • Line plot diandalkan untuk melihat tren waktu (time series).
  • Kolaborasi dan Manajemen Proyek dalam Notebook
    • Fitur kolaborasi real-time mempercepat pengembangan, troubleshooting, dan pembelajaran bersama tim.
    • Setiap perubahan langsung terlihat, memungkinkan pair programming dan diskusi secara efisien. 

Rangkuman Preprocessing Data dengan Data Wrangler di Microsoft Fabric

Anda telah menjelajahi tentang pentingnya preprocessing dalam data science, mengenal Data Wrangler sebagai alat bantu powerful di Microsoft Fabric, dan mempraktikkan berbagai teknik mulai dari pembersihan data, penanganan missing values, hingga transformasi fitur agar data siap diolah menjadi model machine learning yang andal. Berikut adalah rangkuman utama dari materi yang telah Anda pelajari.

  • Peran Pra-pemrosesan (Preprocessing) Data
    • Preprocessing adalah tahap krusial setelah Exploratory Data Analysis (EDA) dalam proyek data science.
    • Tujuannya untuk meningkatkan kualitas data agar dapat diproses oleh algoritma machine learning.
    • Proses ini mencakup pembersihan, transformasi, dan penyesuaian data mentah agar model menghasilkan prediksi yang lebih akurat.
  • Pengenalan Data Wrangler di Microsoft Fabric
    • Data Wrangler merupakan alat visual interaktif yang sudah terintegrasi dalam notebook Microsoft Fabric.
    • Fitur-fiturnya mencakup tampilan grid data, visualisasi statistik ringkasan, serta kode otomatis dalam Python.
    • Membantu menghemat waktu pada tahap eksplorasi dan preprocessing data.
    • Menyederhanakan langkah-langkah pengolahan data yang biasanya manual, sehingga menjadi lebih efisien dan konsisten.
  • Langkah-langkah Bekerja dengan Data Wrangler
    • Beralih experience ke Data Science dan buat notebook baru.
    • Muat data ke dalam Pandas DataFrame.
    • Luncurkan Data Wrangler, pilih DataFrame yang diolah, dan gunakan operator yang disediakan.
    • Setiap aksi menghasilkan kode Python yang bisa langsung dieksekusi atau disalin ke notebook Anda.
  • Eksplorasi dan Pemahaman Data
    • Data exploration dilakukan melalui grid interaktif, dilengkapi summary statistics real-time.
    • Informasi seperti distribusi nilai, nilai minimum/maksimum, jumlah unik, dan missing values langsung terlihat.
    • Panel ringkasan (Summary Panel) memberikan statistik mendalam tergantung kolom yang dipilih.
  • Pengelompokan dan Agregasi Data
    • Operator Group by and aggregate memungkinkan pengelompokan data menurut kategori dan penghitungan nilai agregat, misalnya rata-rata harga rumah per tipe bangunan.
    • Hasil rekap langsung terlihat di grid, dan kode bisa dihasilkan/diunduh untuk proses selanjutnya.
  • Penanganan Missing Data
    • Deteksi missing data mudah dilakukan melalui header grid, panel ringkasan, atau operator filter.
    • Strategi penanganan meliputi:
      • Mengabaikan jika datanya sangat sedikit.
      • Menghapus baris/kolom jika dominasi missing value terlalu banyak.
      • Imputasi dengan nilai meanmedian, atau mode.
      • Menggunakannya sebagai fitur baru jika keberadaannya bermakna untuk model.
    • Penghapusan dan imputasi missing value dapat dilakukan dengan fitur Find and replace serta pratinjau perubahan secara real time sebelum diterapkan.
  • Transformasi Data dengan Operator
    • One-hot encoding:
      • Mengubah data kategorikal menjadi vektor biner.
      • Berguna untuk model yang hanya menerima input numerik.
      • Perlu hati-hati pada data dengan banyak kategori agar tidak terjadi dimensionality explosion.
    • Multi-label binarizer:
      • Digunakan jika sebuah fitur bisa memiliki lebih dari satu label sekaligus (multi-kategori).
      • Hasilkan beberapa kolom indikator (nilai 1 untuk hadir, 0 untuk tidak) sesuai kategori yang terdeteksi.
    • Min-max scaling:
      • Menskalakan fitur numerik ke rentang tertentu (umumnya 0 hingga 1).
      • Sangat penting agar setiap fitur mendapatkan bobot yang adil dalam model berbasis jarak.
      • Diterapkan melalui operator Scale min/max values pada kolom numerik.
  • Menghasilkan dan Mengelola Kode Otomatis
    • Data Wrangler tidak secara langsung mengubah data asli, semua operasi berupa pratinjau.
    • Setelah yakin, klik + Add code to notebook untuk menghasilkan fungsi Python dari seluruh langkah preprocessing.
    • Proses ini mempercepat pipeline dan memastikan reproduktifitas langkah data preparation.

Rangkuman Melatih dan Melacak Model Machine Learning dengan MLflow di Microsoft Fabric

Dalam materi ini, Anda sudah membahas mulai dari penggunaan notebook di Microsoft Fabric sebagai ruang kerja interaktif, mengenal berbagai framework machine learning populer, memahami tahapan utama proyek data science, hingga memanfaatkan MLflow untuk melacak dan mengelola model secara terstruktur dan efisien. Berikut adalah ringkasan materi yang telah Anda pelajari.

  • Tujuan Pembelajaran:
    • Melatih model machine learning menggunakan beberapa framework open-source populer.
    • Menggunakan notebook di Microsoft Fabric untuk pelatihan model secara interaktif.
    • Melacak metrik penting, parameter, dan artifacts dari pelatihan model menggunakan MLflow serta fitur experiments.
  • Framework Machine Learning yang Didukung Microsoft Fabric:
    • Scikit-learn: Cocok untuk model tradisional (klasifikasi, regresi, dan clustering).
    • PyTorch dan TensorFlow: Andal untuk model deep learning seperti computer vision dan natural language processing.
    • SynapseML: Efisien untuk membangun pipeline machine learning yang scalable, apalagi dengan PySpark.
  • Penggunaan Notebook di Microsoft Fabric:
    • Notebook sebagai ruang interaktif mirip Jupyter notebook dengan dukungan Spark compute.
    • Dapat menjalankan kode Python, Pandas DataFrame, dan library ML populer.
    • Mendukung PySpark untuk kebutuhan data terdistribusi dan pipeline kompleks.
  • Alur Melatih Model Machine Learning (Contoh untuk Model Tradisional):
    • Load dan transformasi data ke DataFrame.
    • Eksplorasi data guna memahami fitur dan label.
    • Feature engineering untuk persiapan data.
    • Split data menjadi data latih dan tes (train-test split).
    • Melatih model dengan data latih, evaluasi dengan data tes menggunakan metrik yang relevan.
    • Contoh DataFrame:
      • X_train: Data fitur untuk latihan. Komputer akan belajar dari data ini.
      • X_test: Data fitur untuk tes. Digunakan untuk menguji hasil belajar.
      • y_train: Label jawaban sebenarnya untuk latihan. Dijadikan sebagai panduan selama belajar.
      • y_test: Label jawaban sebenarnya untuk tes. Digunakan untuk mengecek akurasi.
    • Pilih algoritma, misal regresi linier, lalu evaluasi hasil prediksi.
  • Pelacakan dan Pencatatan dengan MLflow:
    • MLflow adalah library open-source untuk tracking proyek machine learning.
    • Fitur Tracking dari MLflow memungkinkan pencatatan parameter, metrik, dan artifact model.
    • MLflow sudah terintegrasi di notebook Microsoft Fabric, tinggal import modulnya.
    • Pelacakan eksperimen dapat dilakukan secara otomatis (autologging) atau manual dengan fungsi:
      • mlflow.log_param() untuk mencatat parameter input penting (key-value).
      • mlflow.log_metric() untuk mencatat hasil numerik (misal akurasi).
      • mlflow.log_artifact() untuk file seperti plot visualisasi.
      • mlflow.log_model() untuk mencatat dan menyimpan model secara keseluruhan.
    • Setiap pelatihan model menjadi sebuah run di dalam experiment yang bisa diurut, dipantau, dan dibandingkan, baik melalui UI maupun kode.
  • Meninjau dan Membandingkan Experiments:
    • Bisa melihat daftar experiments aktif di workspace Anda.
    • Mengambil run atau metrik spesifik dengan nama/ID tertentu.
    • Bisa mengurutkan dan mencari run berdasarkan waktu mulai, kombinasi hyperparameters, dan filter lainnya.
  • Manajemen dan Penyimpanan Model di Microsoft Fabric:
    • Semua artifacts model dicatat dalam sebuah folder khusus (model) pada setiap experiment run.
    • Folder model berisi:
      • MLmodel: Metadata tentang model, format input/output, dan cara pemakaian.
      • conda.yaml atau python_env.yaml: Konfigurasi environment yang diperlukan.
      • model.pkl: Model terlatih siap digunakan.
      • requirements.txt: Daftar paket Python yang diperlukan.
    • MLmodel berfungsi sebagai “buku panduan” pemuatan dan penggunaan model.
    • Model dengan performa terbaik disimpan di workspace sebagai versi resmi yang dapat dipromosikan (fitur model versioning).
  • Tips Praktis:
    • Selalu kelola dan simpan model terbaik Anda untuk memudahkan integrasi ke proses produksi atau prediksi lanjutan.
    • Kelompokkan hasil training model dalam satu experiment agar mudah membandingkan performa.
    • Manfaatkan autologging untuk efisiensi, namun tetap pahami cara manual jika ingin kontrol lebih detail.

Rangkuman Menghasilkan Batch Prediction Menggunakan Model yang Di-deploy di Microsoft Fabric

Dalam modul ini, Anda telah mempelajari tentang bagaimana cara menyimpan model machine learning di Microsoft Fabric, mempersiapkan dataset baru untuk prediksi, menggunakan model untuk melakukan batch prediction, serta menyimpan hasil prediksi ke Delta table. Semua proses ini bertujuan agar Anda dapat memperkaya data organisasi secara efisien. Berikut adalah ringkasan dari hal-hal penting yang sudah Anda pelajari.

  • Langkah-langkah Utama Menghasilkan Batch Prediction:
    • Menyimpan model yang sudah dilatih ke workspace Microsoft Fabric.
    • Menyiapkan dataset baru sebagai bahan prediksi.
    • Menggunakan model untuk menghasilkan prediksi pada dataset tersebut.
    • Menyimpan hasil prediksi ke dalam Delta table.
  • Batch Scoring dan Perilaku Model di Microsoft Fabric:
    • Model yang telah disimpan dapat digunakan berulang kali pada data baru.
    • Informasi input dan output model terekam dalam model artifacts.
    • Perilaku penggunaan batch scoring dapat disesuaikan saat pelacakan model dengan MLflow.
  • Menyesuaikan Perilaku Model:
    • Informasi format data input dan output dicatat di file MLmodel dalam artifacts model.
    • MLflow autologging secara otomatis mendeteksi signature input-output.
    • Model signature dapat dikustomisasi agar lebih jelas memetakan nama dan tipe data kolom input-output memakai kelas Schema dari MLflow.
  • Membuat dan Mengatur Model Signature pada MLflow:
    • Data tabular sebaiknya menggunakan column-based signature, daripada hanya mendefinisikan sebagai tensor.
    • Model signature berisi peta nama dan tipe data setiap kolom input dan output.
    • Signature ini mempermudah pemetaan data baru saat batch prediction.
  • Cara Menyimpan Model ke Workspace Microsoft Fabric:
    • Model bisa disimpan sebagai baru atau menambah versi model yang sudah ada.
    • Artifacts model berisi file model yang sudah dilatih dan file konfigurasi (seperti .pickle dan MLmodel).
    • Penyimpanan dapat dilakukan melalui UI atau kode notebook.
  • Menyiapkan dan Memeriksa Data untuk Prediksi:
    • Data baru harus memiliki format dan tipe data kolom yang persis sama seperti yang didefinisikan dalam model signature.
    • Data baru idealnya disimpan dalam Delta table di Lakehouse agar performa dan keandalan terjaga.
    • Tipe data pada tabel perlu diperiksa dan disesuaikan, misalnya Boolean, Datetime, Double, Float, Integer, Long, dan String.
  • Menghasilkan dan Menyimpan Batch Prediction ke Delta Table:
    • Proses prediksi bisa dilakukan secara manual atau dengan bantuan wizard pada Microsoft Fabric.
    • Wizard akan membantu pemetaan kolom, pemilihan data, serta penyimpanan hasil prediksi secara otomatis.
    • Prediksi massal dilakukan dengan objek MLFlowTransformer dengan parameter: inputColsoutputColsmodelName, dan modelVersion.
    • Hasil prediksi bisa disimpan sebagai Delta table baru atau menambahkan ke tabel yang sudah ada.

Dengan pemahaman dan praktik langsung materi ini, Anda kini mampu menghasilkan insight secara sistematis dari model machine learning yang sudah deployment-ready di Microsoft Fabric. Teruslah berlatih menggunakan fitur ini untuk semakin memperkaya analisis data dan prediksi di organisasi Anda!

Tidak ada komentar: