Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 121101 dokumen yang sesuai dengan query
cover
Rosalia Deviana Cahyaningrum
"Penelitian ini bertujuan untuk mengimplementasikan spectral clustering-PAM dengan menggunakan algoritma similaritas serial dan mengimplementasikan algoritma similaritas paralel berbasis CUDA dalam metode spectral clustering pada data microarray gen karsinoma. Implementasi dibantu dengan perangkat lunak R berbasis open source yang digunakan pada algoritma spectral clustering-PAM dengan algoritma similaritas serial dan CUDA yang digunakan pada algoritma similaritas paralel. Pengelompokan data microarray gen karsinoma diawali dengan menormalisasi data menggunakan normalisasi min-max. Pada algoritma spectral clustering-PAM, pertama-tama similaritas antar gen karsinoma dihitung. Selanjutnya, membentuk matriks Laplacian ternormalisasi dari matriks diagonal dan matriks Laplacian tak ternormalisasi. Langkah berikutnya yaitu menghitung eigenvalue dari matriks Laplacian ternormalisasi dan menentukan eigenvector dari eigenvalue terkecil matriks Laplacian ternormalisasi yang disusun menjadi dataset baru untuk dipartisi setiap barisnya menggunakan metode PAM. Berdasarkan running time, waktu yang dibutuhkan untuk menghitung nilai similaritas secara paralel di CUDA 378 kali lebih cepat daripada secara serial di R. Hasil penelitian menunjukkan bahwa spectral clustering-PAM mengelompokkan data microarray gen karsinoma menjadi dua cluster dengan nilai rata-rata silhouette yaitu 0,6458276.

This research aims to implement the spectral clustering PAM using serial similarity algorithm and implement parallel similarity algorithm based on CUDA in spectral clustering method on microarray data of carcinoma genes. Implementation assisted with software based on open source R used in spectral clustering algorithm PAM with serial similarity algorithm and CUDA used to parallel similarity algorithm. Clustering microarray data of carcinoma genes preceded by normalizing the data using min max normalization. In the spectral clustering PAM algorithm, first of all, similarity between genes of carcinoma calculated. Furthermore, forming the normalized Laplacian matrix from diagonal matrix and unnormalized Laplacian matrix. The next step is to calculate the eigenvalues of normalized Laplacian matrix and determine the eigenvectors of k smallest eigenvalues of normalized Laplacian matrix is organized into a new dataset to be partitioned each line using PAM. Based on the running time, the time required to calculate the value of parallel similarity in CUDA is 378 times faster than a serial in R. The results showed that spectral clustering PAM classify microarray data of carcinoma genes into two clusters with an average silhouette value is 0,6458276."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47172
UI - Tesis Membership  Universitas Indonesia Library
cover
Frisca
"Spectral clustering adalah salah satu algoritma clustering modern yang paling terkenal. Sebagai teknik clustering yang efektif, metode spectral clustering muncul dari konsep teori graf spektral. Metode spectral clustering membutuhkan algoritma partisi. Ada beberapa metode partisi termasuk PAM, SOM, Fuzzy c-means, dan k-means. Berdasarkan penelitian yang telah dilakukan oleh Capital dan Choudhury pada 2013, ketika menggunakan Euclidian distance, k-means memberikan akurasi yang lebih baik dibandingkan dengan algoritma PAM. sehingga, makalah ini menggunakan algoritma k-means. Keuntungan utama dari spectral clustering adalah mengurangi dimensi data, terutama dalam hal ini untuk mengurangi dimensi yang besar dari data microarray.
Microarray data adalah chip berukuran kecil yang terbuat dari slide kaca yang berisi ribuan bahkan puluhan ribu jenis gen dalam fragmen DNA yang berasal dari cDNA. Aplikasi data microarray secara luas digunakan untuk mendeteksi kanker, misalnya adalah karsinoma, di mana sel-sel kanker mengekspresikan kelainan pada gen-nya. Proses spectral clustering dimulai dengan pengumpulan data microarray gen karsinoma, preprocessing, menghitung similaritas, menghitung , menghitung nilai eigen dari , membentuk matriks , dan clustering dengan menggunakan k-means. Dari hasil pengelompokan gen karsinoma pada penelitian ini diperoleh dua kelompok dengan nilai rata-rata Silhouette maksimal adalah 0.6336247. Proses clustering pada penelitian ini menggunakan program open source R.

Spectral clustering is one of the most famous modern clustering algorithms. As an effective clustering technique, spectral clustering method emerged from the concepts of spectral graph theory. Spectral clustering method needs partitioning algorithm. There are some partitioning methods including PAM, SOM, Fuzzy c means, and k means. Based on the research that has been done by Capital and Choudhury in 2013, when using Euclidian distance k means algorithm provide better accuracy than PAM algorithm. So in this paper we use k means as our partition algorithm. The major advantage of spectral clustering is in reducing data dimension, especially in this case to reduce the dimension of large microarray dataset.
Microarray data is a small sized chip made of a glass plate containing thousands and even tens of thousands kinds of genes in the DNA fragments derived from doubling cDNA. Application of microarray data is widely used to detect cancer, for the example is carcinoma, in which cancer cells express the abnormalities in his genes. The spectral clustering process is started with collecting microarray data of carcinoma genes, preprocessing, compute similarity matrix, compute , compute eigen value of , compute , clustering using k means algorithm. In this research, Carcinoma microarray data using 7457 genes. The result of partitioning using k means algorithm is two clusters clusters with maximum Silhouette value 0.6336247.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47117
UI - Tesis Membership  Universitas Indonesia Library
cover
M. Abdul Rivai
"ABSTRAK
Clustering adalah metode pembagian data ke dalam kelompok homogen yang disebut cluster. Spectral clustering merupakan salah satu algoritma clustering modern yang memiliki kelebihan dapat mereduksi dimensi data. Pada penelitian ini metode partisi yang diterapkan pada spectral clustering yaitu self-organizing map SOM . SOM memiliki keunggulan tahan terhadap data noise dan outlier, serta SOM dapat mengatasi dataset yang besar. Penelitian ini bertujuan untuk mengimplementasikan spectral clustering-self organizing map pada data microarray ekspresi gen karsinoma yang terdiri dari 7457 gen dari 18 sampel normal dan 18 sampel penderita kanker karsinoma. Sebelum dilakukan spectral clustering-SOM, data microarray ekspresi gen karsinoma dinormalisasi menggunakan normalisasi min-max. Spectral clustering-SOM dilakukan dengan tahapan-tahapan berikut: menghitung matriks similaritas W , menghitung matriks laplacian ternormalisasi Lsym , menghitung eigenvalue dari Lsym, membentuk matriks U yang terdiri dari k eigenvector terkecil, membentuk vektor unit Unorm dari vektor baris pada matriks U sehingga vektor unit memiliki norm 1, mengelompokkan gen pada matriks Unorm menggunakan SOM dan menghitung nilai indeks Davies-Bouldin IDB k . Penentuan jumlah cluster terbaik berdasarkan nilai indeks Davies-Bouldin yang paling minimum. Dengan menggunakan perangkat lunak R, hasil penelitian ini menunjukkan bahwa data microarray ekspresi gen karsinoma terbagi menjadi dua cluster dengan nilai indeks Davies-Bouldin yaitu 0,5843429. Berdasarkan indeks Davies-Bouldin, hasil clustering menggunakan metode spectral clustering-SOM lebih baik daripada hasil clustering yang menggunakan metode SOM tanpa spectral clustering.

ABSTRACT
Clustering is a method the dividing data into a homogeneous group called a cluster. Spectral clustering is one of the modern clustering algorithms that has the advantage of reducing dimensions of data. In this study the partitioning method applied to spectral clustering is self organizing map. SOM has the advantage of robust to noise and outlier, and SOM can handle large datasets. This study aims to implement spectral clustering self organizing map on microarray data of carcinoma gene expression consisting of 7457 genes from 18 normal samples and 18 samples of carcinoma cancer patients. Before spectral clustering SOM, the microarray data of carcinoma genes expression was normalized using min max normalization. The Spectral clustering SOM is done by the following steps calculate similarity matrix W , calculate the normalized Laplacian matrix Lsym , calculate the eigenvalue of Lsym , forming a vector unit Unorm of the row vector of the matrix U so that the vector unit has norm 1, grouping the genes in the matrix Unorm and calculate the Davies Bouldin index values IDB k . Determination of the best number of clusters based on the minimum value of the Davies Bouldin index. By using software R, the result of this research is microarray data of carcinoma gene expression is divided into two clusters with Davies Bouldin index value is 0.5843429. Based on the Davies Bouldin index values, clustering using spectral clustering SOM is better than clustering using only SOM method without spectral clustering."
2017
T48650
UI - Tesis Membership  Universitas Indonesia Library
cover
Gianinna Ardaneswari
"Dalam bioinformatika penelusuran basis data sekuens digunakan untuk mencari kemiripan antara sebuah sekuens dengan sekuens lainnya pada suatu basis data sekuens Salah satu algoritma untuk menghitung skor kemiripan yang optimal adalah algoritma Smith Waterman yang menggunakan pemrograman dinamik Algoritma ini memiliki kompleksitas waktu kuadratik yaitu O n2 sehingga untuk data yang berukuran besar membutuhkan waktu komputasi yang lama Komputasi paralel diperlukan dalam penelusuran basis data sekuens ini agar waktu yang dibutuhkan lebih cepat dan memiliki kinerja yang baik Dalam skripsi ini akan dibahas implementasi paralel untuk algoritma Smith Waterman menggunakan bahasa pemrograman CUDA C pada GPU dengan NVCC compiler pada Linux Selanjutnya dilakukan analisis kinerja untuk beberapa model paralelisasi tersebut yaitu Inter task Parallelization Intra task Parallelization dan gabungan keduanya Berdasarkan hasil simulasi yang dilakukan paralelisasi dengan gabungan kedua model menghasilkan kinerja yang lebih baik dari model lainnya Paralelisasi dengan model gabungan menghasilkan rata rata speed up sebesar 313x dan rata rata efisiensi sebesar 0 93

In bioinformatics sequence database searches are applied to find the similarity between a sequence with other sequences in a sequence database One of the algorithms to compute the optimal similarity score is Smith Waterman algorithm that uses dynamic programming This algorithm has a quadratic time complexity O n2 which requires a long computation time for large sized data In this occasion parallel computing is essential to solve this sequence database searches in order to reduce the running time and to increase the performance In this mini thesis we discuss the parallel implementation of Smith Waterman algorithm using CUDA C programming language with NVCC compiler on Linux Furthermore we run the performance analysis using three parallelization models including Inter task Parallelization Intra task Parallelization and a combination of both models Based on the simulation results a combination of both models has better performance than the others In addition parallelization using combination of both models achieves an average speed up of 313x and an average efficiency with a factor of 0 93"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2013
S52395
UI - Skripsi Membership  Universitas Indonesia Library
cover
Hendy Fergus Atheri Hura
"ABSTRAK
Penelitian ini mengimplementasikan metode spectral clustering-Fuzzy C-Means pada tiga microarray data ekspresi gen, dengan tujuan untuk mengelompokkan gen-gen yang memiliki tingkat ekspresi yang similar. Spectral clustering secara teoritis terdiri dari tiga tahap utama yaitu: membangun matriks jarak, membentuk matriks Laplacian, dan proses partisi, khususnya dalam tesis ini menggunakan algoritma partisi Fuzzy C-Means. Oleh karena itu, implementasi dari spectral clustering-FCM lebih sederhana dan intuitif pada pelaksanaannya. Analisis cluster singkat juga akan dipaparkan untuk masing-masing microarray data yang digunakan yaitu: Carcinoma, Leukemia, dan Lymphoma. Hasil cluster yang sangat baik didapatkan, sehingga metode yang diusulkan memiliki potensi besar ke depannya dalam penelitan pada bidang medis.

ABSTRACT
This research implements the spectral clustering FCM method on three microarray gene expression data, with the aim of grouping genes with similar expression levels. Spectral clustering is theoretically composed of three main stages building distance matrix, forming Laplacian matrix, and partitioning process, especially in this thesis using Fuzzy C Means partition algorithm. Therefore, the implementation of spectral clustering FCM is simpler and more intuitive in its implementation. Brief cluster analysis will also be presented for each microarray data used Carcinoma, Leukemia, and Lymphoma. Excellent cluster results are obtained, so the proposed method has great potential for future research in the medical field. "
2017
T48274
UI - Tesis Membership  Universitas Indonesia Library
cover
Fahrezal Zubedi
"Pada penelitian ini mengimplementasikan algoritma Similarity Based Biclustering dengan menggunakan PAM clustering pada tiga dataset ekspresi gen microarray. Penelitian ini bertujuan untuk mengetahui ekspresi regulasi dari masing-masing bicluster yang diperoleh dan mengetahui kinerja algoritma Similarity Based Biclustering-PAM clustering berdasarkan hasil analisis kelompok kondisi. Similarity based biclustering-PAM clustering secara teoritis terdiri dari empat tahap utama yaitu: mentransformasi data, membangun matriks similaritas, proses clustering khususnya dalam tesis ini menggunakan metode partisi PAM dan mengekstrak bicluster. Algoritma similarity based biclustering-PAM clustering dapat mengetahui ekspresi regulasi dari tiap bicluster pada tiga dataset yaitu: Diabetes Melitus tipe II, Diabetes Retinopati, dan Limfoma. Akurasi yang diperoleh dari algoritma Similarity Based Biclustering untuk masing-masing dataset yaitu Diabetes Melitus tipe II sebesar 0.55, Diabetes Retinopati sebesar 0.80 dan Limfoma sebesar 0.83.

In this research implements Similarity Based Biclustering algorithm by using PAM Clustering method in three dataset of microarray gene expression. Aim of this research is to know the regulated expression of each obtained bicluster and to know the performance of Similarity Based Biclustering PAM Clustering algorithm based on the result of group condition analysis. Similarity Based Biclustering is theoretically composed of four main stages transforming data, constructing matrix similarity, clustering process, especially in this thesis using PAM partition algorithm and extracting bicluster. Similarity Based Biclustering PAM is able to know the regulatory expression of each bicluster in three datasets Diabetes Mellitus type 2, Diabetes Retinopathy, and Lymphoma. Accuracy obtained from Similarity Based Biclustering algorithm for each dataset is 0.55 in data of type 2 diabetes mellitus, 0.80 in diabetic retinopathy data and 0.83 in lymphoma data.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49505
UI - Tesis Membership  Universitas Indonesia Library
cover
Aisyah Gefira
"Teknologi microarray adalah teknologi di bidang bioinformatika yang digunakan untuk mengukur ekspresi gen dalam berbagai kondisi eksperimental dan menghasilkan data ekspresi gen. Salah satu metode yang dapat digunakan untuk menganalisis data ekspresi gen adalah triclustering, Triclustering adalah metode pengelompokan data tiga dimensi berdasarkan karakteristik yang serupa. Berbagai algoritma seperti TriGen, δ-Trimax dan EMOA-δ-Trimax dikembangkan untuk melakukan triclustering. Namun, seluruh algoritma tersebut menghadapi masalah yang sama, yaitu waktu komputasi yang lama. Penelitian ini menggunakan Coarse-grain Parallel Genetic Algorithm (CgPGA) untuk mengatasi tantangan waktu komputasi pada triclustering. Algoritma ini membagi data menjadi beberapa subpopulasi dan menjalankan proses evolusi genetik secara paralel menggunakan enam core. Penelitian ini mengusulkan penggunaan CgPGA untuk mempercepat proses triclustering pada data ekspresi gen darah microarray tiga dimensi yang dipengaruhi empat jenis minuman dan diukur pada lima titik waktu. Kualitas tricluster dievaluasi menggunakan fitness function yang diadaptasi dari Mean Square Residue (MSR), weights, dan distinction. Hasil penelitian ini menunjukkan bahwa CgPGA secara signifikan mengurangi waktu komputasi dengan bekerja 18,24 kali lebih cepat dibandingkan dengan Genetic Algorithm secara serial yang diukur dengan speedup. CgPGA berhasil diterapkan untuk melakukan triclustering pada data ekspresi gen tiga dimensi microarray berdasarkan kemiripan pola ekspresi gen. 10 tricluster yang dihasilkan memiliki kombinasi gen, kondisi, dan waktu yang beragam, serta memiliki fitness score tinggi yang berkisar antara 2514,542745 hingga 2568,106026. Tricluster 5 memiliki fitness score tertinggi yaitu sebesar 2568,106026. Selanjutnya, hasil triclustering dianalisis menggunakan Gene Ontology (GO) dan KEGG Pathway untuk mengidentifikasi informasi gen dan interaksi antar gen di dalam tricluster. Hasil penelitian menunjukkan bahwa GO berhasil mengidentifikasi gen-gen di dalam tricluster dalam aspek proses biologis, fungsi molekuler, dan komponen seluler. Analisis KEGG Pathway menunjukkan bahwa gen-gen di dalam tricluster berpartisipasi dalam berbagai jalur biokimia, salah satunya adalah jalur diabetic cardiomyopathy. Secara keseluruhan, penelitian ini memberikan kontribusi signifikan dalam analisis data genomik dengan mengimplementasikan teknik triclustering menggunakan CgPGA yang efektif dan efisien, serta memperluas pengetahuan tricluster melalui identifikasi informasi genetik yang relevan dan meningkatkan pemahaman tentang interaksi biologis yang terjadi pada suatu kelompok gen berpola ekspresi serupa menggunakan GO dan KEGG Pathway.

Microarray technology is a bioinformatics tool utilized to measure gene expression across various experimental conditions, generating comprehensive gene expression data. Triclustering, a method for clustering three-dimensional data based on similar characteristics, is one approach to analyzing this data. Despite the development of several algorithms for triclustering, such as TriGen, δ-Trimax, and EMOA-δ-Trimax, they all encounter the challenge of lengthy computation times. This study addresses this issue by employing the Coarse-grain Parallel Genetic Algorithm (CgPGA). The algorithm mitigates computational time by dividing the data into several subpopulations and executing the genetic evolution process in parallel across six cores. The study demonstrates the application of CgPGA to expedite the triclustering process on three dimensional microarray blood gene expression data, influenced by four types of beverages and measured at five different time points. The triclusters' quality is assessed using a fitness function adapted from Mean Square Residue (MSR), weights, and distinction. Results indicate that CgPGA significantly reduces computation time, operating 18,24 times faster than the serial Genetic Algorithm as measured by speedup. CgPGA effectively performs triclustering on three-dimensional microarray gene expression data. The 10 resulting triclusters exhibit diverse combinations of genes, conditions, and time points, and have high fitness scores ranging from 2514.542745 to 2568.106026. Tricluster 5 has the highest fitness score of 2568.106026. Further analysis of the triclustering results using Gene Ontology (GO) and KEGG Pathway reveals gene information and interactions within the triclusters. GO analysis successfully identifies genes within the triclusters in terms of biological processes, molecular functions, and cellular components, while KEGG Pathway analysis shows that the genes participate in various biochemical pathways, including the diabetic cardiomyopathy pathway. Overall, this study significantly contributes to genomic data analysis by implementing an efficient and effective triclustering technique using CgPGA, expanding the understanding of triclusters by identifying relevant genetic information, and enhancing the comprehension of biological interactions within gene groups exhibiting similar expression patterns using GO and KEGG Pathway."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Moch Galih Primantara
" ABSTRAK
Clustering adalah salah satu topik penting pada bidang Data Mining. Teori graf dapat digunakan untuk membantu clustering dengan cara membuat graf yang mewakili data-data yang akan di-cluster. Salah satu metode graf clustering adalah k-way spectral clustering yang memanfaatkan sebanyak k nilai eigen dan vektor eigen pertama dari matriks Laplacian suatu graf untuk melakukan clustering dengan k adalah banyaknya cluster yang diinginkan. Pada skripsi ini dibahas mengenai algoritma k-way spectral clustering merujuk kepada Ng, Jordan, dan Weiss (2002) dan von Luxburg (2007).

ABSTRACT
Clustering is one of the most important topic in Data Mining. Graph can be used to do clustering by forming a representation graph data which is needed to be clustered. K-way spectral clustering is one of many methods of graph clustering. This method uses first-k eigen values and eigen vectors of a Laplacian matrix to cluster with k is the number of desired clusters. In this skripsi, it will be discussed a k-way spectral clustering algorithm by Ng, Jordan, and Weiss (2002) and von Luxburg (2007).
"
Universitas Indonesia, 2016
S61791
UI - Skripsi Membership  Universitas Indonesia Library
cover
Syamira Merina
"Adenoma merupakan jenis tumor jinak pada lapisan epidermis jaringan. Adenoma dapat berubah menjadi kanker ganas yang kemudian disebut Adenocarcinoma. Terdapat salah satu bentuk data biologi molekuler yang sedang berkembang saat ini, yaitu data ekspresi gen microarray. Microarray dapat digunakan untuk pendeteksian dan penelitian dalam bidang onkologi. Salah satu metode untuk mengolah dan menganalisis data ekspresi gen microarray adalah dengan biclustering. Dalam skripsi ini akan dilakukan implementasi salah satu metode biclustering pada data ekspresi gen microarray, yaitu dengan algoritma Binary Inclusion-Maximal. Algoritma akan diimplementasi pada data Adenoma kolon yang terdiri dari 7070 gen dengan 4 sampel sel adenoma dan 4 sampel sel normal. Implementasi tersebut membutuhkan waktu kurang dari 1 detik dan menghasilkan 22 bicluster yang terdiri dari 25 gen secara keseluruhan.

Adenoma is a benign type of tumor in the epidermal layer of a tissue. Adenoma can turn into a malignant cancer which is then called Adenocarcinoma. There is a form of molecular biology data which is developing today, namely microarray gene expression data. Microarray can be use for detection and research in the field of oncology. One method for processing and analyzing microarray gene data is by biclustering. In this study the writer will be using one method of biclustering, the Binary Inclusion Maximal algorithm, and implement it on microarray gene expression data. The algorithm will be implemented on Colon Adenoma data consisting of 7070 genes with 4 adenoma cell samples and 4 normal cell samples. The implementation took less than one second and resulted in 22 biclusters composed of 25 genes.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Maria Angelica Christabel
"Poverty is still a serious challenge for all countries in the world, including Indonesia. The Central Statistics Agency (BPS) noted that 25.9 million people were still living in poverty as of March 2023. The challenge of inefficient and poorly targeted budget distribution in some programs hampers poverty alleviation efforts. In line with that, the objective of this study is to categorize provinces based on poverty indicators to provide an understanding of the characteristics and patterns of poverty in various Indonesian provinces. This research uses the Link-based Cluster Ensemble method, which combines various solutions from different clustering methods, namely K-medoids and Agglomerative Hierarchical Clustering to obtain more optimal results. The final result of ensemble clustering is obtained through a similarity matrix by applying the Connected-Triple-based Similarity (CTS) algorithm, which utilizes pairwise similarity relationships between all data points. The data for this study comes from BPS regarding Poverty Data in Indonesia in 2023, with the selection of variables that can reveal the characteristics of poverty in Indonesia, such as aspects of education, employment, expenditure, and household facilities. The results showed that the Link-based Cluster Ensemble method, which was formed through a three-member ensemble from the results of K-Medoids and Agglomerative Hierarchical Clustering, successfully outperformed the single clustering method based on cluster evaluation values using Silhouette, Davies-Bouldin, and Dunn Index. The results grouped the provinces into four clusters: Cluster 1 reveals poverty conditions with low education participation and sanitation facilities, Cluster 2 with low education and high expenditure, Cluster 3 with high unemployment, and Cluster 4 with low clean water facilities.

Kemiskinan masih menjadi tantangan serius bagi seluruh negara di dunia, termasuk Indonesia. Badan Pusat Statistik (BPS) mencatat sebanyak 25,9 juta masyarakat masih hidup dalam kemiskinan per Maret 2023. Tantangan dalam penyaluran anggaran yang tidak efisien dan tepat sasaran pada beberapa program menghambat upaya pengentasan kemiskinan. Sejalan dengan hal itu, tujuan dari penelitian ini adalah mengelompokkan provinsi berdasarkan indikator kemiskinan untuk memberikan pemahaman tentang karakteristik dan pola kemiskinan di berbagai provinsi Indonesia. Penelitian ini menggunakan metode Link-based Cluster Ensemble, yang menggabungkan berbagai solusi dari metode pengelompokan berbeda, yaitu K-medoids dan Agglomerative Hierarchical Clustering untuk mendapatkan hasil yang lebih optimal. Hasil akhir pengelompokan ensemble diperoleh melalui similarity matrix dengan menerapkan algoritma Connected-Triple-based Similarity (CTS), yang memanfaatkan hubungan kesamaan berpasangan antara seluruh titik data. Data penelitian ini berasal dari BPS mengenai Data Kemiskinan di Indonesia tahun 2023, dengan pemilihan variabel yang dapat mengungkapkan karakteristik kemiskinan di Indonesia, seperti aspek pendidikan, ketenagakerjaan, pengeluaran konsumsi, dan fasilitas rumah tangga. Hasil penelitian menunjukkan bahwa metode Link-based Cluster Ensemble, yang dibentuk melalui tiga anggota ensemble dari hasil pengelompokan K-Medoids dan Agglomerative Hierarchical Clustering, berhasil mengungguli metode pengelompokan tunggal berdasarkan nilai evaluasi cluster menggunakan Silhouette, Davies-Bouldin, dan Dunn Index. Hasil penelitian mengelompokkan provinsi ke dalam empat cluster: Cluster 1 mengungkapkan kondisi kemiskinan dengan aspek partisipasi pendidikan dan fasilitas sanitasi yang rendah, Cluster 2 dengan kondisi aspek pendidikan yang rendah dan pengeluaran konsumsi yang tinggi, Cluster 3 dengan kondisi pengangguran yang tinggi, dan Cluster 4 dengan kondisi fasilitas air bersih yang rendah."
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>