Hasil Pencarian

Ditemukan 11 dokumen yang sesuai dengan query

Nalendra Dwimantara

Analisis Rasio dan Inter-rasio Pengukuran Darah Terhadap Risiko Kekambuhan Pasien Kanker Payudara Menggunakan Bayesian Profile Regression = Ratio and Inter-ratio of Blood Measurement Analysis to The Recurrence Risk of Breast Cancer Patients Using Bayesian Profile Regression

Kambuhnya kanker payudara bergantung pada stadium tumor awal, terapi yang dilakukan sebelumnya, dan tumor biologi. Pengukuran darah lengkap merupakan salah satu pemeriksaan laboratorium yang relatif murah, mudah dan efektif dalam mendiagnosis kanker. Analisis regresi kesulitan dalam membuat kesimpulan dari data yang mengandung sejumlah besar variabel penjelas yang saling berkorelasi. Profile regression mengadopsi sudut pandang yang lebih global, dimana kesimpulan didasarkan pada kelompok yang mewakili pola variabel penjelasnya. Pengelompokan dilakukan untuk menganalisis suatu data dengan melihat karakteristik tiap pengamatan pada data. Suatu data jika dibagi menjadi beberapa kelompok mengartikan data tersebut memiliki karakteristik pengamatan yang berbeda-beda. Analisis pada data yang heterogen bertujuan untuk mengidentifikasi subpopulasi yang homogen dan menentukan hubungan antar variabel dalam setiap subpopulasi. Finite Mixture Model (FMM) dengan pendekatan Bayesian digunakan untuk mengidentifikasi subpopulasi dari pasien kanker payudara berdasarkan pengukuran darah. Berdasarkan nilai Deviance Information Criterion (DIC) didapatkan bahwa subpopulasi yang terbentuk untuk data rasio pengukuran darah pasien kanker payudara adalah dua subpopulasi. Peluang pasien mengalami kekambuhan pada subpopulasi 1 sebesar 35% dan 72% pada subpopulasi 2. Sedangkan subpopulasi yang terbentuk untuk data inter-rasio pengukuran darah pasien kanker payudara yang terbentuk adalah dua subpopulasi. Peluang pasien mengalami kekambuhan pada subpopulasi 1 sebesar 9% dan 3% pada subpopulasi 2.

Recurrence of breast cancer depends on the initial tumor stage, previous therapies, and biological tumors. A complete blood test is one of the relatively inexpensive, easy and effective laboratory tests in diagnosing cancer. Simple regression analysis has difficulties in drawing conclusions from data that contain large numbers of explanatory variables that are correlated. Profile regression adopts a more global perspective, where conclusions are based on groups representing covariate patterns. Clustering method aims to analyze data by looking at the characteristics of each observation in the data. If the data is divided into groups, that means that the data has different observational characteristics. Analysis of heterogeneous data purposes to identify homogeneous subpopulations and determine the relationships between variables in each subpopulation. Finite Mixture Model (FMM) with Bayesian approach is used to identify subpopulations of breast cancer patients based on blood measurements. Based on the value of the Deviance Information Criterion (DIC), it was found that the number of subpopulations formed for the data of the ratio of blood measurements for breast cancer patients are two subpopulations. The probability of patients experiencing recurrence in subpopulation 1 was 35% and 72% in subpopulation 2. Whereas the number of subpopulations formed for the data of the inter-ratio data of breast cancer patients formed are also two subpopulations. The probability of patients experiencing recurrence in subpopulation 1 is 9% and 3% in subpopulation 2.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Misbahuddin

Bayesian mixture model for prediction of bus arrival time

"Providing travelers with accurate bus arrival time is an essential need to plan their traveling and reduce long waiting time for buses. In this paper, we proposed a new approach based on a Bayesian mixture model for the prediction. The Gaussian mixture model (GMM) was used as the joint probability density function of the Bayesian network to formulate the conditional probability. Furthermore, the Expectation maximization (EM) Algorithm was also used to estimate the new parameters of the GMM through an iterative method to obtain the maximum likelihood estimation (MLE) as a convergence of the algorithm. The performance of the prediction model was tested in the bus lanes in the University of Indonesia. The results show that the model can be a potential model to predict effectively the bus arrival time."

Depok: Faculty of Engineering, Universitas Indonesia, 2015

UI-IJTECH 6:6 (2015)

Artikel Jurnal Universitas Indonesia Library

Nico

Pemodelan Jumlah Kasus Baru Harian COVID-19 di Indonesia Menggunakan Gaussian Mixture Model = Modeling New COVID-19 Daily Cases in Indonesia Using Gaussian Mixture Model

"Coronavirus Disease 2019 (COVID-19) adalah penyakit menular yang disebabkan oleh virus severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). Virus ini pertama kali ditemukan di Wuhan China pada desember 2019 dan pertama kali masuk ke Indonesia pada 2 Maret 2020. Selama masa pandemi COVID-19 banyak terjadi lonjakan secara tiba-tiba pada jumlah kasus baru COVID-19 yang menunjukkan bahwa adanya kesulitan dalam mengantisipasi peningkatan penyebaran COVID-19. Skripsi ini membahas pemodelan jumlah kasus baru harian COVID-19 di Indonesia menggunakan Gaussian Mixture Model (GMM) dimana model ini merupakan salah satu Mixture Model. Mixture Model merupakan penjumlahan linear berbobot dari beberapa fungsi distribusi dimana masing-masing fungsi distribusi disebut sebagai komponen campuran. Pada GMM, setiap komponen campuran diasumsikan berdistribusikan Gaussian (Normal). Pada penelitian ini, dikonstruksi beberapa GMM dengan 2, 3 dan 4 jumlah komponen untuk pemodelan data jumlah kasus baru harian COVID-19 di Indonesia dari 1 Januari 2021 sampai 31 Maret 2022 dengan interval waktu 455 hari. Parameter dari setiap GMM tersebut diestimasi menggunakan metode maximum likelihood estimation (MLE) melalui algoritma Expectation-Maximization (EM). Berdasarkan nilai Akaike Information Criteria (AIC), diperoleh GMM dengan 4 komponen merupakan model terbaik untuk pemodelan data jumlah kasus baru harian COVID-19 di Indonesia. Dengan GMM 4 komponen, diperoleh probabilitas jumlah kasus baru harian COVID-19 di Indonesia kurang dari jumlah kasus harian terendah adalah 0,009598, lebih dari jumlah kasus harian rata-rata adalah 0,299443 dan lebih dari jumlah kasus harian tertinggi adalah 0,017669.

Coronavirus Disease 2019 (COVID-19) is an infectious disease caused by Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2). This virus was first found in Wuhan, China in December 2019 and first got into Indonesia on March 2, 2020. During the pandemic, there are a lot of sudden spikes in new COVID-19 daily cases which indicates that there is a struggle in anticipating the sudden increase in COVID-19 transmission. This research discuss about the modeling of new COVID-19 daily cases in Indonesia using Gaussian Mixture Model (GMM) which is a part of Mixture Model. Mixture Model is a linear weighted sum of some distribution function where each function is called a mixture component. In GMM, every mixture components are assumed to be normally distributed. In this research, three GMMs with 2,3 and 4 components were constructed to model new COVID-19 daily cases in Indonesia from January 1, 2021 to March 31, 2022 with a total of 455 days of observation. The parameters of each GMM were estimated with maximum likelihood estimation (MLE) method through Expectation-Maximization (EM) algorithm. According to Akaike Information Criteria (AIC) value, it was found that GMM with 4 components was the best model for modeling new COVID-19 cases in Indonesia. With this model, the probability of new COVID-19 daily cases in Indonesia are less than the lowest daily cases is 0,009598, more than the average daily cases is 0,299443 and more than the highest daily cases is 0,017669."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Raul Arrafi Delfarra

Eksplorasi Tipe Pemain dalam Skema Penyerangan Olahraga Bola Basket menggunakan Clustering = Exploration of Player Types in Basketball Offensive Scheme using Clustering

"Penggunaan data sebagai dasar pengambilan keputusan menjadi hal yang sangat penting dilakukan di dunia olahraga saat ini dan biasa disebut dengan sports analytics. Bola basket menjadi salah satu olahraga yang sangat memanfaatkan hal tersebut untuk memperoleh informasi berharga yang dapat membantu memenangkan pertandingan. Keputusan-keputusan penting saat pertandingan berlangsung menjadi sangat bergantung pada hasil analisis data yang dilakukan. Salah satu faktor penting yang dapat mempengaruhi performa tim adalah komposisi pemain yang bertanding. Saat ini, dunia bola basket, termasuk NBA yang merupakan liga basket terbesar di dunia yang ada di Amerika Serikat, masih menggunakan 5 posisi pemain tradisional sebagai salah satu hal yang mempengaruhi komposisi pemain. Hal tersebut sangat tidak efektif karena posisi tersebut sudah tidak dapat lagi menggambarkan peran dan cara bermain pemain ketika bertanding seiring berovolusinya para pemain bola basket. Penelitian ini bertujuan untuk menghasilkan posisi baru untuk skema penyerangan yang sesuai dengan tipe pemain dan dapat menggambarkan dengan baik peran dan cara bermain pemain dalam skema penyerangan ketika bertanding. Metode clustering dengan algoritma Gaussian Mixture Model (GMM) dan K-Medoids digunakan untuk melakukan hal tersebut dengan mengelompokkan para pemain berdasarkan variabel-variabel yang berkaitan dengan skema penyerangan di olahraga bola basket. Penelitian ini berhasil menemukan kelompok-kelompok baru yang menyatukan para pemain dengan tipe permainan yang mirip dan lebih menggambarkan peran dan cara bermain para pemain ketika bertanding.

The use of data as a basis for decision making become very important in the world of sports today and is known as sports analytics. Basketball is a sport that really takes advantage of that to get valuable information that can help win matches. Important decisions during a game are very dependent on the results of the data analysis carried out. One of the important factor that can affect a team's performance is the composition of the players that play the game. Currently, the world of basketball, including the United States's NBA which is the largest basketball league in the world, still uses the 5 traditional player positions as one of the things that influence the composition of players. That is really ineffective because this position can no longer describe the roles and ways players play when competing as basketball players evolve. This study aims to produce new positions for attack schemes that suit the type of player and can well describe the roles and ways of playing players in attack schemes when playing in a game. The clustering method with the Gaussian Mixture Model (GMM) algorithm and K-Medoids is used for grouping the players based on variables related to the attack scheme in basketball. This research succeeded in finding new groups that identify players with similar game types and better describe the roles and ways of players play when competing."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Jessie Mirra

Bayesian gaussian finite mixture model = Bayesian gaussian finite mixture model

"Seringkali analisis statistik beranggapan suatu data hanya berasal dari satu populasi saja. Padahal pada kenyataannya terdapat kondisi dimana suatu data bisa dibagi menjadi beberapa sub-populasi. Gaussian Finite Mixture Model adalah salah satu metode untuk memodelkan data heterogen yang memungkinkan berasal dari sub-populasi yang berbeda. Model ini berbentuk superposisi dari beberapa distribusi Gaussian. Jumlah distribusi akan ditentukan dengan menggunakan Akaikes Information Criterion dan model diagnostik. Estimasi parameter pada model ini menggunakan metode Bayesian, yaitu dengan menentukan distribusi prior untuk parameter model, digabungkan dengan likelihood yang akan menghasilkan distribusi posterior. Kemudian, Markov chain Monte Carlo-Gibbs Sampler digunakan untuk menarik sampel pada parameter dari distribusi poteriornya masing-masing.

Commonly statistical analysis assume data comes from one population. But there are conditions where data might be generated from several sub-populations. Gaussian Finite Mixture Model (GFMM) is one of the methods to model heterogeneous data that might come from different sub-populations. This model was formed as a superposition of several Gaussian distribution, with different location parameter. Number of distributions will be determined using Akaike`s Information Criterion and model diagnostic. Parameter estimation is conducted using Bayesian method, that is by specifying the prior distribution for the models parameters, combined with the likelihood to produce the posterior distribution. Finnally, Markov chain Monte Carlo-Gibbs Sampler is implemented to withdraw sampel of parameters from the corresponding posterior distributions."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Dimas Arioputra

Analisa perbandingan akurasi metode optical flow dan gaussian mixture model untuk sistem pemantau lalu lintas berbasis computer vision = Accuracy analysis between optical flow and gaussian mixture model for computer vision based road traffic monitoring

"ABSTRAK

Teknik yang digunakan untuk Sistem Pemantau Lalu Lintas pada masa sekarang

ini banyak tergantung pada sensor-sensor yang mempunyai kemampuan yang

terbatas, kurang fleksibel, dan seringkali mahal dan sulit untuk dipasang.

Penggunaan kamera digabungkan dengan teknologi Computer Vision menjadi

alternatif yang menarik dari sensor yang ada saat ini. Sensor berbasis kamera ini

mempunyai potensi yang lebih besar untuk mengamati kondisi lalu lintas yang

ada dibanding sensor konvensional saat ini yaitu sensor ini lebih murah dan

mudah untuk dipasang.Di dalam penelitian ini dikembangkan sistem pemantau

lalu lintas menggunakan metode Optical Flow dan Gaussian Mixture Model.

Eksperimen dilakukan menggunakan handycam, berlokasi di salah satu tol dalam

kota Jakarta. Kondisi pengambilan gambar adalah pada kondisi yang berbedabeda

yaitu pada saat pagi, siang, dan sore, cuaca cerah, dan mendung, serta

kondisi arus lalu lintas padat dan lancar. Setelah pengujian dilakukan, algoritma

Optical Flow memberikan hasil yang lebih baik dibandingkan algoritma Gaussian

Mixture Model yaitu dengan akurasi mencapai 92% dibanding Gaussian yang

hanya mencapai 72%. Faktor-faktor yang mempengaruhi tingkat akurasi adalah

kondisi waktu, cuaca, dan arus kendaraan serta lokasi pengambilan gambar.

Abstract

Current techniques for Sistem Pemantau Lalu Lintas rely on sensors which have

limited capabilities, inflexible and often, costly and disruptive to be installed.

Video camera, coupled with Computer Vision techniques offers an attractive

alternative to current sensors which is portable and low cost . In this research, a

traffic monitoring system using handy camera is developed using Optical Flow

and Gaussian Mixture Model (GMM) methods. The experiment took place in one

of the Jakarta city highway. The condition of the experiment is when the time is in

the morning, afternoon, evening, when it is clear, and cloudy, and also when the

traffic is light and heavy. The experiments shows that Optical Flow algorithm

gives better results regarding to accuracy rate, better than Gaussian Mixture

Model Algorithm. The Optical Flow reach 92% accuracy while Gaussian Mixture

only got to 72% accuracy. Some factors that influenced the accuracy rate of the

system are time, weather, traffic and location."

Fakultas Teknik Universitas Indonesia, 2012

S43308

UI - Skripsi Open Universitas Indonesia Library

Jason Wijaya

Pemodelan Severitas Klaim dengan Generalized Linear Mixed Cluster-Weighted Model pada Asuransi Umum = Modeling Severity of Claims with Generalized Linear Mixed Cluster-Weighted Model in General Insurance

"Dalam upaya untuk mengendalikan besarnya kerugian, memodelkan severitas klaim merupakan salah satu cara yang sering dilakukan oleh perusahaan asuransi. Terdapat beberapa cara untuk memodelkan severitas klaim, salah satunya dengan generalized linear model. Akan tetapi fakta sederhana bahwa setiap pemegang polis itu tidak sama sering diabaikan karena hasil yang diperoleh hanya disajikan untuk ârata-rataâ pemegang polis. Potensi variabilitas ini yang tercermin pada data asuransi dapat diidentifikasi dengan mengelompokkan pemegang polis ke dalam kelompok yang berbeda. Sehingga dari perilaku yang berbeda pada masing-masing kelompok memungkinkan perusahaan asuransi mengembangkan strategi untuk mengendalikan besarnya kerugian. Pada praktiknya, model yang sering digunakan untuk pengelompokan adalah model finite mixture, dengan setiap kelompok dimodelkan dengan fungsi kepadatan probabilitasnya (pdf) sendiri. Salah satu keluarga model finite mixture yang fleksibel untuk vektor acak yang terdiri dari variabel respon dan satu set kovariat yang disesuaikan dengan distribusi bersamanya adalah cluster-weighted model (CWM). CWM merupakan kombinasi linear antara distribusi marjinal kovariat dan distribusi bersyarat dari respons yang diberikan kovariat. Distribusi bersyarat pada CWM diasumsikan milik keluarga eksponensial dan kovariatnya diperbolehkan tipe campuran yaitu diskrit dan kontinu (diasumsikan gaussian). Selanjutnya, model dicocokkan ke dalam data (fitting the model) menggunakan Maximum likelihood estimation (MLE) untuk menaksir parameter model dengan algoritma ekspektasi-maksimalisasi (EM). Pemilihan model terbaik dievaluasi dari skor akaike information criterion (AIC) dan bayesian information criterion (BIC). Permasalahan penentuan jumlah cluster diselesaikan secara bersamaan dengan memilih model terbaik. Pada akhirnya, CWM dapat digunakan untuk meningkatkan pemahaman tentang perilaku pemegang polis dan karakteristik risikonya yang dihasilkan di setiap cluster. Penerapan metode ini diilustrasikan pada data asuransi mobil di Prancis.

In an effort to control the amount of loss, modeling the severity of claims is one way that is often done by insurance companies. There are several ways to model claim severity, one of which is a generalized linear model. However, the simple fact that every policyholder is not the same is often overlooked because the results obtained are only presented for the "average" policyholder. This potential for variability reflected in insurance data can be identified by classifying policyholders into different groups. So that the different behavior of each group allows insurance companies to develop strategies to control the amount of losses. In practice, the model often used for grouping is the finite mixture model, with each group being modeled with its own probability density function (pdf). One of the flexible finite mixture model families for random vectors consisting of a response variable and a set of covariates adjusted for their common distribution is the cluster-weighted model (CWM). CWM is a linear combination between the marginal distribution of the covariates and the conditional distribution of the responses given by the covariates. The conditional distribution on CWM is assumed to belong to the exponential family and the covariates are allowed mixed types, namely discrete and continuous (assumed to be gaussian). Next, the model is fitted to the data (fitting the model) using Maximum likelihood estimation (MLE) to estimate the model parameters with the expectation-maximization (EM) algorithm. Selection of the best model was evaluated from the Akaike information criterion (AIC) and Bayesian information criterion (BIC) scores. The problem of determining the number of clusters is solved simultaneously by selecting the best model. In the end, CWM can be used to increase understanding of policyholder behavior and the resulting risk characteristics in each cluster. The application of this method is illustrated in data on auto insurance in France."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Aditya Kurniawan

Aplikasi computational fluid dynamics dalam scale-up tanpa kesebangunan geometri pada reaktor batch berpengaduk = Application of computational fluid dynamics for non geometric scale up of stirred batch reactor

"ABSTRAK

Penelitian ini bertujuan menerapkan metode computational fluid dynamics dalam scale-up reaktor batch berpengaduk dengan studi kasus proses penghilangan getah minyak sawit mentah. Dalam scale-up tersebut, kesebangunan geometri reaktor tidak bisa dipenuhi. Koefisien perpindahan massa volumetrik kca dijadikan parameter kesamaan. Koefisien perpindahan massa yang diperoleh dari pengukuran laboratorium dikorelasikan dalam bentuk bilangan Sherwood sebagai fungsi bilangan Reynolds butir dan bilangan Schmidt dengan bentuk persamaan Shd = 0,02576 Red0,673Sc0.431. Luas bidang antarfasa diturunkan dari hasil simulasi menggunakan model mixture, setelah divalidasi dengan persamaan empiris. Sebagai acuan, digunakan kondisi operasi skala laboratorium 500 rpm dan 80 C dengan nilai kca sebesar 5,551x10-6 s-1. Simulasi reaktor skala besar dilakukan dengan variasi jenis impeller radial dan aksial , serta kecepatan putar 40, 75, 93, 141, dan 500 rpm . Dengan variasi tersebut, tidak diperoleh kesamaan nilai kca. Dari ekstrapolasi tren linear kca vs rpm, diperkirakan kriteria kesamaan diperoleh pada kecepatan 16,07 rpm. Namun, simulasi pada kecepatan tersebut tidak memberikan nilai yang diperkirakan. Penyebabnya gravitasi menjadi lebih dominan terhadap medan aliran sehingga dispersi tidak merata dan nilai kca terlalu kecil. Diperlukan studi lebih lanjut mengenai parameter geometri reaktor yang menghasilkan dispersi merata, sehingga dicapai kriteria kesamaan dalam scale-up reaktor.

ABSTRACT

This research aims to implement computational fluid dynamics for scale up of stirred batch reactor with case study of CPO degumming process. Reactor geometric similarity cannot be maintained while scale up. Volumetric mass transfer coefficient kca becomes similarity criteria. Mass transfer coefficient from laboratory data is correlated in Sherwood number as the function of drop Reynolds number and Schmidt number with the form Shd 0.02576 Red0,673Sc0.431. Interfacial area is derived from simulation using mixture model, by validating to empirical correlation. Laboratory scale reactor operating condition of 500 rpm, 80 C with kca of 5.551x10 6 s 1 is set as reference. Simulation of large scale reactor is run by varying the impeller type radial and axial and speed 40, 75, 93, 141, and 500 rpm . However, by those variations, kca similarity cannot be achieved. By extrapolating the linear trend between kca vs rpm, similarity is expected at 16.07 rpm. However, simulation doesn rsquo t confirm that. This is due to gravitational effect become more dominant and the equal dispersion is not obtained so that the kca is too low. It needs further investigation of the reactor geometries that will produce equal dispersion, so that similarity criteria of scale up can be achieved. "

2017

T47674

UI - Tesis Membership Universitas Indonesia Library

Hisyam Fahmi

Segmentasi Objek Ternak Sapi pada Citra dengan Background yang Kompleks untuk Aplikasi Klasifikasi Rumpun Ternak Sapi = Object Segmentation of Beef Cattle Image with Complex Background for Application on Beef Cattle Race Classification

"Salah satu aplikasi yang akan diterapkan pada sistem e-Livestock di Indonesia adalah aplikasi untuk mengenali rumpun ternak sapi berdasarkan data citra ternak sapi. Permasalahan yang dihadapi pada proses pengenalan rumpun ternak tersebut adalah pada saat proses segmentasi objek ternak sapi, karena pada umumnya data citra ternak sapi memiliki background yang cukup kompleks dan beragam. Sehingga sangat sulit untuk mengenali objek ternak sapi secara otomatis menggunakan mesin. Beberapa penelitian yang telah dilakukan mengungkapkan bahwa metode segmentasi secara interaktif yang berbasiskan graf cukup ampuh untuk melakukan segmentasi pada citra yang kompleks. Pada penelitian ini dilakukan proses segmentasi secara interaktif berbasiskan graf yang merupakan pengembangan dari metode Graph Cuts. Metode ini dapat memberikan hasil yang lebih akurat pada citra dengan background yang beragam dan komples dengan rata-rata nilai akurasi sebesar 90%, walaupun masih membutuhkan interaksi dari pengguna. Citra ternak sapi yang telah dilakukan proses segmentasi dapat diklasifikasikan jenis rumpunnya dengan akurat dengan rata-rata nilai akurasi sebesar 97,5%.

One of the applications that will be applied to the e-Livestock system in Indonesia is an application to recognize the race of cattle beef from cattle beef image data. Problems faced in the process of recognizing cattle race is in the process of cattle object segmentation, because the cattle beef data image have a complex and diverse
background. So it is very difficult to recognize the cattle object fully automatic using the machine. Previous research and studies revealed that the interactive segmentation method which is based on graph was powerful enough to perform image segmentation with complex background. In this research, we develop the process of graph-based interactive segmentation which is the development of Graph Cuts methods. This method can provide more accurate results in imagery with complex and diverse background with 90% accuracy, although still requiring interaction from the user. Cattle image segmentation process that has been done can be accurately classified its race with an average accuracy of 97,5%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Kesia Gabriele

Komparasi Metode SMOTE, SMOTE-ENN, dan SMOTE-CUT dalam Menangani Imbalanced Data pada Klasifikasi Multi-Kelas dengan Support Vector Machine (SVM) = Comparative Analysis of SMOTE, SMOTE-ENN, and SMOTE-CUT in Multi-Class SVM Classification for Imbalanced Data

"Support Vector Machine (SVM) merupakan model klasifikasi yang dikenal dengan keakuratan klasifikasi yang tinggi. Namun, Support Vector Machine (SVM) menghasilkan hasil klasifikasi yang kurang optimal jika data yang digunakan tidak seimbang (imbalanced data). Terdapat beberapa cara dalam menangani data yang tidak seimbang, salah satunya dengan metode resampling. Metode resampling sendiri terbagi dalam dua pendekatan yaitu over-sampling dan under-sampling. Salah satu pendekatan over-sampling yang popular adalah Synthetic Minority Over-sampling Technique (SMOTE). SMOTE bekerja dengan membangkitkan sampel sintetis pada kelas minoritas. Untuk meningkatkan kinerja model, SMOTE dapat digabungkan dengan pendekatan under-sampling seperti Edited Nearest Neighbors (ENN) dan Cluster-based Undersampling Technique (CUT). Dalam kombinasinya dengan SMOTE, ENN berperan sebagai cleaning untuk menghapus data sintetis dari penerapan SMOTE yang tidak relevan dan dianggap sebagai noise. Sementara, CUT beperan dalam mengidentifikasi sub-kelas dari kelas mayoritas untuk menekan angka over-sampling sekaligus meminimalisir hilangnya informasi penting pada kelas mayoritas selama proses undersampling. Kombinasi over-sampling dan under-sampling ini saling melengkapi dan mengatasi kekurangan dari masing-masing metode. Penelitian ini memfokuskan perbandingan performa metode resampling SMOTE beserta variasinya, yaitu SMOTEENN dan SMOTE-CUT dalam mengklasifikasikan data multi-kelas yang tidak seimbang menggunakan Support Vector Machine. Dari analisis yang dilakukan, diperoleh kesimpulan bahwa SMOTE-CUT cenderung menghasilkan performa klasifikasi yang lebih baik dibandingkan dengan SMOTE ataupun SMOTE-ENN. Walaupun demikian, keseluruhan metode resampling (SMOTE, SMOTE-ENN, dan SMOTE-CUT) mampu meningkatkan kinerja dari model klasifikasi Support Vector Machine (SVM).

Support Vector Machine (SVM) is popular classfier that is known for its high accuracy value. However, Support Vector Machine (SVM) may not perform well on imbalanced datasets. There are several ways to handle imbalanced data, one of them is through resampling methods. Resampling methods itself divided into two approaches, oversampling and under-sampling. One of the popular over-sampling methods is Synthetic Minority Over-sampling Technique (SMOTE). SMOTE works by generating synthetic samples for the minority class. SMOTE can be combined with under-sampling methods such as Edited Nearest Neighbors (ENN) or Cluster-based Under-sampling Technique (CUT). In combination with SMOTE, ENN acts as a cleaning role to remove synthetic data generated from SMOTE application that is not relevant and considered as noise. Meanwhile, CUT plays a role in identifying sub-class form the majority class to reduce over-sampling while minimizing the loss of important information in the majority class during the under-sampling process. The combination of over-sampling and undersampling is needed to complement and overcome the weakness of each method. This research mainly focuses on comparing the performance of the resampling method SMOTE and its variations, SMOTE-ENN and SMOTE-CUT, in classifying multi-class imbalanced data using Support Vector Machine. From the analysis conducted, it was concluded that data with resampling SMOTE-CUT shows better classification performance compare to data with resampling SMOTE or SMOTE-ENN. However, any resampling method (SMOTE, SMOTE-ENN, and SMOTE-CUT) can handle imbalanced data and improve Support Vector Machine performance."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian