Hasil Pencarian

Ditemukan 8 dokumen yang sesuai dengan query

Moch Galih Primantara

Clustering graf dengan metode k-way spectral clustering = Graph clustering with k-way spectral clustering method

" ABSTRAK

Clustering adalah salah satu topik penting pada bidang Data Mining. Teori graf dapat digunakan untuk membantu clustering dengan cara membuat graf yang mewakili data-data yang akan di-cluster. Salah satu metode graf clustering adalah k-way spectral clustering yang memanfaatkan sebanyak k nilai eigen dan vektor eigen pertama dari matriks Laplacian suatu graf untuk melakukan clustering dengan k adalah banyaknya cluster yang diinginkan. Pada skripsi ini dibahas mengenai algoritma k-way spectral clustering merujuk kepada Ng, Jordan, dan Weiss (2002) dan von Luxburg (2007).

ABSTRACT
Clustering is one of the most important topic in Data Mining. Graph can be used to do clustering by forming a representation graph data which is needed to be clustered. K-way spectral clustering is one of many methods of graph clustering. This method uses first-k eigen values and eigen vectors of a Laplacian matrix to cluster with k is the number of desired clusters. In this skripsi, it will be discussed a k-way spectral clustering algorithm by Ng, Jordan, and Weiss (2002) and von Luxburg (2007)."

Universitas Indonesia, 2016

S61791

UI - Skripsi Membership Universitas Indonesia Library

Rosalia Deviana Cahyaningrum

Implementasi metode spectral clustering-partitioning around medoids (PAM) dengan algoritma similaritas paralel berbasis cuda pada data microarray gen karsinoma = Implementation of spectral clustering partitioning around medoids (PAM) method with parallel similarity algorithm based on cuda in microarray data of carcinoma genes

"Penelitian ini bertujuan untuk mengimplementasikan spectral clustering-PAM dengan menggunakan algoritma similaritas serial dan mengimplementasikan algoritma similaritas paralel berbasis CUDA dalam metode spectral clustering pada data microarray gen karsinoma. Implementasi dibantu dengan perangkat lunak R berbasis open source yang digunakan pada algoritma spectral clustering-PAM dengan algoritma similaritas serial dan CUDA yang digunakan pada algoritma similaritas paralel. Pengelompokan data microarray gen karsinoma diawali dengan menormalisasi data menggunakan normalisasi min-max. Pada algoritma spectral clustering-PAM, pertama-tama similaritas antar gen karsinoma dihitung. Selanjutnya, membentuk matriks Laplacian ternormalisasi dari matriks diagonal dan matriks Laplacian tak ternormalisasi. Langkah berikutnya yaitu menghitung eigenvalue dari matriks Laplacian ternormalisasi dan menentukan eigenvector dari eigenvalue terkecil matriks Laplacian ternormalisasi yang disusun menjadi dataset baru untuk dipartisi setiap barisnya menggunakan metode PAM. Berdasarkan running time, waktu yang dibutuhkan untuk menghitung nilai similaritas secara paralel di CUDA 378 kali lebih cepat daripada secara serial di R. Hasil penelitian menunjukkan bahwa spectral clustering-PAM mengelompokkan data microarray gen karsinoma menjadi dua cluster dengan nilai rata-rata silhouette yaitu 0,6458276.

This research aims to implement the spectral clustering PAM using serial similarity algorithm and implement parallel similarity algorithm based on CUDA in spectral clustering method on microarray data of carcinoma genes. Implementation assisted with software based on open source R used in spectral clustering algorithm PAM with serial similarity algorithm and CUDA used to parallel similarity algorithm. Clustering microarray data of carcinoma genes preceded by normalizing the data using min max normalization. In the spectral clustering PAM algorithm, first of all, similarity between genes of carcinoma calculated. Furthermore, forming the normalized Laplacian matrix from diagonal matrix and unnormalized Laplacian matrix. The next step is to calculate the eigenvalues of normalized Laplacian matrix and determine the eigenvectors of k smallest eigenvalues of normalized Laplacian matrix is organized into a new dataset to be partitioned each line using PAM. Based on the running time, the time required to calculate the value of parallel similarity in CUDA is 378 times faster than a serial in R. The results showed that spectral clustering PAM classify microarray data of carcinoma genes into two clusters with an average silhouette value is 0,6458276."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017

T47172

UI - Tesis Membership Universitas Indonesia Library

Azkal Azkiya

Clustering Varian Sekuens Protein Sars-Cov-2 Menggunakan Algoritma Spectral = Clustering of Variants of the SARS-CoV-2 Protein Sequence Using Spectral Algorithm

"Coronavirus disease (COVID-19) adalah penyakit pernapasan menular yang disebabkan oleh jenis coronavirus baru. Penyakit ini sebelumnya disebut dengan 2019-nCoV atau 2019 novel coronavirus. Virus penyebab COVID-19 ini adalah SARS-CoV-2. Terdapat varian SARS-CoV-2 lain yang memiliki potensi berdampak besar bagi kesehatan masyarakat seperti Lambda dan Mu. Ada pula kelompok varian SARS-CoV-2 under monitoring yang belum diketahui dampak dan bentuk penyebarannya di tingkat masyarakat. Kappa, Iota, dan Epsilon merupakan beberapa contoh varian yang termasuk ke dalam kelompok tersebut. World Health Organization (WHO) terus melakukan pengawasan kemunculan varian SARS-CoV-2 yang baru. Varian SARS-CoV-2 yang telah diketahui penularan dan dampaknya cukup signifikan pada masyarakat hingga saat ini adalah Alpha, Beta, Delta, Gamma, dan Omicron. Penelitian ini menggunakan data dari kelima varian SARS-CoV-2 tersebut. Penelitian ini mengimplementasikan program unsupervised dari machine learning yaitu simulasi proses clustering untuk mengelompokkan varian SARS-CoV-2. Dilakukan ekstraksi fitur terhadap data sekuens protein SARS-CoV-2 menggunakan package discere dalam bahasa pemrograman Python. Melalui proses ekstraksi fitur dihasilkan 27 fitur data sekuens protein SARS-CoV-2 yang siap digunakan. Elbow method kemudian diimplementasikan terhadap data untuk mengetahui jumlah pembentukan cluster yang optimal untuk digunakan pada clustering. Berdasarkan elbow method didapatkan jumlah cluster optimal untuk simulasi clustering sebanyak dan dilakukan juga simulasi dengan untuk memberi kesempatan kepada seluruh varian untuk membentuk clusternya sendiri. Metode clustering yang digunakan pada penelitian ini adalah spectral clustering. Cluster yang dihasilkan kemudian dievaluasi menggunakan metrik evaluasi silhouette score serta melihat runtime pada setiap simulasi yang dilakukan. Hasil silhouette score untuk simulasi dengan bernilai 0,614 dan untuk simulasi dengan yang bernilai 0,631. Durasi rata-rata runtime mencatat bahwa simulasi dengan dengan 6,566 detik lebih baik dibanding simulasi dengan dengan 7,529 detik. Berdasarkan hasil tersebut, spectral clustering dapat dilakukan terhadap varian SARS-CoV-2 dengan pemilihan jumlah cluster menggunakan elbow method.

Coronavirus disease (COVID-19) is an infectious respiratory disease caused by a new type of coronavirus. This disease was previously called 2019-nCoV or 2019 novel coronavirus. The virus that causes COVID-19 is the SARS-CoV-2. There are several variants of SARS-CoV-2 that have the potential to have a major impact on public health, such as Lambda and Mu. There is also a group of variants of SARS-CoV-2 under monitoring whose impact and form of spread are unknown at the community level. Kappa, Iota, and Epsilon are some examples of variants that belong to this group. The World Health Organization (WHO) continues to monitor the emergence of a new variant of SARS-CoV-2. The variants of SARS-CoV-2 that are known to transmit and have a significant impact on society so far are Alpha, Beta, Delta, Gamma and Omicron. This study uses data from that five variants of SARS-CoV-2. This study implements an unsupervised program from machine learning, which is a simulation of the clustering process to group variants of SARS-CoV-2 . Feature extraction was carried out on the SARS-CoV-2 protein sequence data using discere package in the Python programming language. Through the feature extraction process, 27 features of the SARS-CoV-2 protein sequence data were produced which were ready for use. The elbow method is then implemented on the data to find out the optimal number of cluster formations for use in clustering. Based on the elbow method, the optimal number of clusters for the clustering simulation is and a simulation with is also carried out to provide an opportunity for all variants to form their own clusters. The clustering method used in this study is spectral clustering. The resulting clusters are then evaluated using the silhouette score evaluation metric and looking at the runtime in each simulation that is performed. The results of the silhouette score for the simulation with is worth 0.614 and for the simulation with it is worth 0.631. The average duration of the runtime noted that the simulation with with 6.566 seconds was better than the simulation with with 7.529 seconds. Based on these results, spectral clustering can be carried out on the SARS-CoV-2 variant by selecting the number of clusters using the elbow method."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Edo Krisna Dewandono

Clustering protein-protein interaction data dengan spectral clustering dan fuzzy random walk = Clustering protein-protein interaction data with spectral clustering and fuzzy random walk

"ABSTRACT

Sel tumor adalah sel yang terbentuk akibat kegagalan beberapa protein dalam mengatur siklus sel. Protein TP53 berperan penting dalam mengatur siklus sel, khususnya dalam menekan perkembangan sel tumor. Perubahan pada gen TP53 ditemukan dalam lebih dari setengah kasus tumor pada manusia. Protein lain yang berhubungan dengan protein TP53 juga ditemukan terlibat dalam proses pembentukan kanker. Analisis interaksi protein TP53 dengan melakukan clustering jaringan interaksi protein (PPI) TP53 adalah hal penting dalam membantu mengatasi sel tumor. Jaringan PPI dinyatakan sebagai graf dengan protein dan interaksinya masing-masing sebagai simpul dan busur pada graf. Spectral clustering adalah metode graph clustering yang menggunakan eigenvector dari matriks Laplacian.

ABSTRACT

Fuzzy random walk adalah metode fuzzy clustering yang menggunakan probabilitas transisi dari random walk pada data. Dua metode tersebut akan digabungkan dan diimplementasikan pada penelitian ini. Menggunakan data PPI protein TP53 dari STRING database, didapat gabungan kedua metode tersebut mampu menghasilkan cluster yang fuzzy dan robust di mana setiap cluster dapat menjelaskan bagian tertentu dari fungsi protein TP53. Tumor cell is formed as a result of malfunctioning of some proteins that regulates the cell cycle. TP53 protein plays an important role in managing cell cycle, especially in tumor cell suppression. An alteration of TP53 gene is found in more than half cases of human tumor. Moreover, TP53-related proteins are also found involved in the carcinogenesis process. Therefore, it is important to analyze the interactions of TP53 protein by clustering protein-protein interactions (PPI) network of TP53. PPI networks are usually represented as a graph network with proteins and interactions as vertices and edges respectively. Spectral Clustering is a graph clustering algorithm based on eigenvector of the graph Laplacian. Fuzzy Random Walk is a fuzzy clustering method based on transition probability from a random walk on a dataset. In this paper, we combine both Spectral Clustering and Fuzzy Random Walk. Using PPI datasets of TP53 obtained from the STRING database, we found the combined algorithm is proven to produce both robust and fuzzy clusters with each cluster explains one of TP53 proteins functionality."

2019

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Frisca

Implementasi spectral clustering pada data microarray gen karsinoma menggunakan algoritma K-means = The implementation of spectral clustering on microarray data on carcinoma genes using K-means algorithm

"Spectral clustering adalah salah satu algoritma clustering modern yang paling terkenal. Sebagai teknik clustering yang efektif, metode spectral clustering muncul dari konsep teori graf spektral. Metode spectral clustering membutuhkan algoritma partisi. Ada beberapa metode partisi termasuk PAM, SOM, Fuzzy c-means, dan k-means. Berdasarkan penelitian yang telah dilakukan oleh Capital dan Choudhury pada 2013, ketika menggunakan Euclidian distance, k-means memberikan akurasi yang lebih baik dibandingkan dengan algoritma PAM. sehingga, makalah ini menggunakan algoritma k-means. Keuntungan utama dari spectral clustering adalah mengurangi dimensi data, terutama dalam hal ini untuk mengurangi dimensi yang besar dari data microarray.

Microarray data adalah chip berukuran kecil yang terbuat dari slide kaca yang berisi ribuan bahkan puluhan ribu jenis gen dalam fragmen DNA yang berasal dari cDNA. Aplikasi data microarray secara luas digunakan untuk mendeteksi kanker, misalnya adalah karsinoma, di mana sel-sel kanker mengekspresikan kelainan pada gen-nya. Proses spectral clustering dimulai dengan pengumpulan data microarray gen karsinoma, preprocessing, menghitung similaritas, menghitung , menghitung nilai eigen dari , membentuk matriks , dan clustering dengan menggunakan k-means. Dari hasil pengelompokan gen karsinoma pada penelitian ini diperoleh dua kelompok dengan nilai rata-rata Silhouette maksimal adalah 0.6336247. Proses clustering pada penelitian ini menggunakan program open source R.

Spectral clustering is one of the most famous modern clustering algorithms. As an effective clustering technique, spectral clustering method emerged from the concepts of spectral graph theory. Spectral clustering method needs partitioning algorithm. There are some partitioning methods including PAM, SOM, Fuzzy c means, and k means. Based on the research that has been done by Capital and Choudhury in 2013, when using Euclidian distance k means algorithm provide better accuracy than PAM algorithm. So in this paper we use k means as our partition algorithm. The major advantage of spectral clustering is in reducing data dimension, especially in this case to reduce the dimension of large microarray dataset.
Microarray data is a small sized chip made of a glass plate containing thousands and even tens of thousands kinds of genes in the DNA fragments derived from doubling cDNA. Application of microarray data is widely used to detect cancer, for the example is carcinoma, in which cancer cells express the abnormalities in his genes. The spectral clustering process is started with collecting microarray data of carcinoma genes, preprocessing, compute similarity matrix, compute , compute eigen value of , compute , clustering using k means algorithm. In this research, Carcinoma microarray data using 7457 genes. The result of partitioning using k means algorithm is two clusters clusters with maximum Silhouette value 0.6336247."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017

T47117

UI - Tesis Membership Universitas Indonesia Library

Hendy Fergus Atheri Hura

Analisis Cluster Gen dari Microarray Data Ekspresi Gen Menggunakan Spectral Clustering dengan Metode Partisi Fuzzy C-Means = Gene Clusters Analysis of Microarray Data of Gene Expression by Using Spectral Clustering with Fuzzy C-Means Partitioning Method.

"ABSTRAK

Penelitian ini mengimplementasikan metode spectral clustering-Fuzzy C-Means pada tiga microarray data ekspresi gen, dengan tujuan untuk mengelompokkan gen-gen yang memiliki tingkat ekspresi yang similar. Spectral clustering secara teoritis terdiri dari tiga tahap utama yaitu: membangun matriks jarak, membentuk matriks Laplacian, dan proses partisi, khususnya dalam tesis ini menggunakan algoritma partisi Fuzzy C-Means. Oleh karena itu, implementasi dari spectral clustering-FCM lebih sederhana dan intuitif pada pelaksanaannya. Analisis cluster singkat juga akan dipaparkan untuk masing-masing microarray data yang digunakan yaitu: Carcinoma, Leukemia, dan Lymphoma. Hasil cluster yang sangat baik didapatkan, sehingga metode yang diusulkan memiliki potensi besar ke depannya dalam penelitan pada bidang medis.

ABSTRACT

This research implements the spectral clustering FCM method on three microarray gene expression data, with the aim of grouping genes with similar expression levels. Spectral clustering is theoretically composed of three main stages building distance matrix, forming Laplacian matrix, and partitioning process, especially in this thesis using Fuzzy C Means partition algorithm. Therefore, the implementation of spectral clustering FCM is simpler and more intuitive in its implementation. Brief cluster analysis will also be presented for each microarray data used Carcinoma, Leukemia, and Lymphoma. Excellent cluster results are obtained, so the proposed method has great potential for future research in the medical field. "

2017

T48274

UI - Tesis Membership Universitas Indonesia Library

M. Abdul Rivai

Implementasi spectral clustering-self organizing map pada data microarray ekspresi gen karsinoma = Implementation of spectral clustering self organizing map on microarray data of carcinoma genes expression / M. Abdul Rivai

"ABSTRAK

Clustering adalah metode pembagian data ke dalam kelompok homogen yang disebut cluster. Spectral clustering merupakan salah satu algoritma clustering modern yang memiliki kelebihan dapat mereduksi dimensi data. Pada penelitian ini metode partisi yang diterapkan pada spectral clustering yaitu self-organizing map SOM . SOM memiliki keunggulan tahan terhadap data noise dan outlier, serta SOM dapat mengatasi dataset yang besar. Penelitian ini bertujuan untuk mengimplementasikan spectral clustering-self organizing map pada data microarray ekspresi gen karsinoma yang terdiri dari 7457 gen dari 18 sampel normal dan 18 sampel penderita kanker karsinoma. Sebelum dilakukan spectral clustering-SOM, data microarray ekspresi gen karsinoma dinormalisasi menggunakan normalisasi min-max. Spectral clustering-SOM dilakukan dengan tahapan-tahapan berikut: menghitung matriks similaritas W , menghitung matriks laplacian ternormalisasi Lsym , menghitung eigenvalue dari Lsym, membentuk matriks U yang terdiri dari k eigenvector terkecil, membentuk vektor unit Unorm dari vektor baris pada matriks U sehingga vektor unit memiliki norm 1, mengelompokkan gen pada matriks Unorm menggunakan SOM dan menghitung nilai indeks Davies-Bouldin IDB k . Penentuan jumlah cluster terbaik berdasarkan nilai indeks Davies-Bouldin yang paling minimum. Dengan menggunakan perangkat lunak R, hasil penelitian ini menunjukkan bahwa data microarray ekspresi gen karsinoma terbagi menjadi dua cluster dengan nilai indeks Davies-Bouldin yaitu 0,5843429. Berdasarkan indeks Davies-Bouldin, hasil clustering menggunakan metode spectral clustering-SOM lebih baik daripada hasil clustering yang menggunakan metode SOM tanpa spectral clustering.

ABSTRACT

Clustering is a method the dividing data into a homogeneous group called a cluster. Spectral clustering is one of the modern clustering algorithms that has the advantage of reducing dimensions of data. In this study the partitioning method applied to spectral clustering is self organizing map. SOM has the advantage of robust to noise and outlier, and SOM can handle large datasets. This study aims to implement spectral clustering self organizing map on microarray data of carcinoma gene expression consisting of 7457 genes from 18 normal samples and 18 samples of carcinoma cancer patients. Before spectral clustering SOM, the microarray data of carcinoma genes expression was normalized using min max normalization. The Spectral clustering SOM is done by the following steps calculate similarity matrix W , calculate the normalized Laplacian matrix Lsym , calculate the eigenvalue of Lsym , forming a vector unit Unorm of the row vector of the matrix U so that the vector unit has norm 1, grouping the genes in the matrix Unorm and calculate the Davies Bouldin index values IDB k . Determination of the best number of clusters based on the minimum value of the Davies Bouldin index. By using software R, the result of this research is microarray data of carcinoma gene expression is divided into two clusters with Davies Bouldin index value is 0.5843429. Based on the Davies Bouldin index values, clustering using spectral clustering SOM is better than clustering using only SOM method without spectral clustering."

2017

T48650

UI - Tesis Membership Universitas Indonesia Library

Harum Ananda Setyawan

Analisis Performa Metode K-Means dan Spectral Clustering pada Lahan Karet Melalui Citra Digital dengan Fitur Ekstraksi Gray Level Co-occurrence Matrix = Analysis Performance of K-Means and Spectral Clustering Methods on Rubber Fields through Digital Imagery with Gray Level Co-occurrence Matrix Extraction Features

"Karet merupakan salah satu komoditas penyumbang Produk Domestik Bruto (PDB) terbesar Indonesia. Indonesia merupakan negara dengan lahan karet terluas di dunia. Namun hasil karet yang diproduksi oleh Indonesia masih kalah dibanding Thailand. Hal tersebut disebabkan oleh pemberian pupuk, pestisida, dan perlindungan tanaman yang masih belum maksimal. Untuk perlindungan tanaman karet, di Indonesia biasanya dilakukan melalui penelitian daun karet. Akan tetapi, hal tersebut sangatlah tidak efisien dibanding dengan luas lahan yang ada. Sehingga diperlukan suatu metode yang lebih efisien untuk mendeteksi penyakit pada tanaman karet. Pada penelitian ini, penulis merancang suatu metode pendeteksian dini pengendalian penyakit tanaman karet menggunakan metode k-means clustering dan spectral clustering menggunakan citra digital yang diambil menggunakan drone. Melalui penelitian ini, diharapkan produksi tanaman karet dapat ditingkatkan dikarenakan proses pengendalian penyakit yang lebih efisien. Dengan penelitian ini, lahan karet sehat dan bergejala penyakit dapat dikelompokkan ke masing-masing klaster. Untuk selanjutnya, untuk lahan karet bergejala penyakit dapat dilakukan penelitian lebih lanjut untuk mengetahui jenis penyakit dan level penyakit yang dialami. Pendeteksian penyakit tanaman karet pada penelitian ini memiliki hasil 0,702 untuk k-means clustering dan 0,566 untuk spectral clustering dengan metode evaluasi silhouette score. Hal tersebut dikarenakan data citra yang masih sangat terbatas baik dalam jumlah maupun teknik pengambilan gambar. Namun untuk evaluasi menggunakan mean dan standard deviation, Spectral Clustering dengan perspective transform memiliki hasil yang lebih baik. Metode Spectral Clustering dengan data yang telah dilakukan perspective transform mampu mengklaster lahan karet yang hijau dan agak menguning.

Rubber is one of the largest contributors to Indonesia's Gross Domestic Product (GDP). Indonesia is a country with the largest rubber plantation in the world. However, the rubber produced by Indonesia is still inferior to Thailand. This is caused by the provision of fertilizers, pesticides, and plant protection that is still not optimal. For the protection of rubber plants, in Indonesia it is usually done through rubber leaf research. However, this is very inefficient compared to the existing land area. So we need a more efficient method to detect diseases in rubber plants. In this study, the authors designed a method for early detection of rubber plant disease control using the k-means clustering method and spectral clustering using digital images taken using drones. Through this research, it is hoped that the production of rubber plants can be increased due to a more efficient disease control process. With this research, healthy rubber fields and disease symptoms can be grouped into each cluster. Henceforth, for rubber fields with disease symptoms, further research can be carried out to determine the type of disease and the level of disease experienced. The detection of rubber plant diseases in this study had satisfactory results, namely for k-means clustering and for spectral clustering. This is because the image data is still very limited both in number and technique of taking pictures. However, for evaluation using the mean and standard deviation, Spectral Clustering with perspective transform has better results. The Spectral Clustering method with data that has been carried out with perspective transform is better able to cluster green and slightly yellow rubber land."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian