Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 7 dokumen yang sesuai dengan query
cover
Rosalia Deviana Cahyaningrum
"Penelitian ini bertujuan untuk mengimplementasikan spectral clustering-PAM dengan menggunakan algoritma similaritas serial dan mengimplementasikan algoritma similaritas paralel berbasis CUDA dalam metode spectral clustering pada data microarray gen karsinoma. Implementasi dibantu dengan perangkat lunak R berbasis open source yang digunakan pada algoritma spectral clustering-PAM dengan algoritma similaritas serial dan CUDA yang digunakan pada algoritma similaritas paralel. Pengelompokan data microarray gen karsinoma diawali dengan menormalisasi data menggunakan normalisasi min-max. Pada algoritma spectral clustering-PAM, pertama-tama similaritas antar gen karsinoma dihitung. Selanjutnya, membentuk matriks Laplacian ternormalisasi dari matriks diagonal dan matriks Laplacian tak ternormalisasi. Langkah berikutnya yaitu menghitung eigenvalue dari matriks Laplacian ternormalisasi dan menentukan eigenvector dari eigenvalue terkecil matriks Laplacian ternormalisasi yang disusun menjadi dataset baru untuk dipartisi setiap barisnya menggunakan metode PAM. Berdasarkan running time, waktu yang dibutuhkan untuk menghitung nilai similaritas secara paralel di CUDA 378 kali lebih cepat daripada secara serial di R. Hasil penelitian menunjukkan bahwa spectral clustering-PAM mengelompokkan data microarray gen karsinoma menjadi dua cluster dengan nilai rata-rata silhouette yaitu 0,6458276.

This research aims to implement the spectral clustering PAM using serial similarity algorithm and implement parallel similarity algorithm based on CUDA in spectral clustering method on microarray data of carcinoma genes. Implementation assisted with software based on open source R used in spectral clustering algorithm PAM with serial similarity algorithm and CUDA used to parallel similarity algorithm. Clustering microarray data of carcinoma genes preceded by normalizing the data using min max normalization. In the spectral clustering PAM algorithm, first of all, similarity between genes of carcinoma calculated. Furthermore, forming the normalized Laplacian matrix from diagonal matrix and unnormalized Laplacian matrix. The next step is to calculate the eigenvalues of normalized Laplacian matrix and determine the eigenvectors of k smallest eigenvalues of normalized Laplacian matrix is organized into a new dataset to be partitioned each line using PAM. Based on the running time, the time required to calculate the value of parallel similarity in CUDA is 378 times faster than a serial in R. The results showed that spectral clustering PAM classify microarray data of carcinoma genes into two clusters with an average silhouette value is 0,6458276."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47172
UI - Tesis Membership  Universitas Indonesia Library
cover
Moch Galih Primantara
" ABSTRAK
Clustering adalah salah satu topik penting pada bidang Data Mining. Teori graf dapat digunakan untuk membantu clustering dengan cara membuat graf yang mewakili data-data yang akan di-cluster. Salah satu metode graf clustering adalah k-way spectral clustering yang memanfaatkan sebanyak k nilai eigen dan vektor eigen pertama dari matriks Laplacian suatu graf untuk melakukan clustering dengan k adalah banyaknya cluster yang diinginkan. Pada skripsi ini dibahas mengenai algoritma k-way spectral clustering merujuk kepada Ng, Jordan, dan Weiss (2002) dan von Luxburg (2007).

ABSTRACT
Clustering is one of the most important topic in Data Mining. Graph can be used to do clustering by forming a representation graph data which is needed to be clustered. K-way spectral clustering is one of many methods of graph clustering. This method uses first-k eigen values and eigen vectors of a Laplacian matrix to cluster with k is the number of desired clusters. In this skripsi, it will be discussed a k-way spectral clustering algorithm by Ng, Jordan, and Weiss (2002) and von Luxburg (2007).
"
Universitas Indonesia, 2016
S61791
UI - Skripsi Membership  Universitas Indonesia Library
cover
Azkal Azkiya
"Coronavirus disease (COVID-19) adalah penyakit pernapasan menular yang disebabkan oleh jenis coronavirus baru. Penyakit ini sebelumnya disebut dengan 2019-nCoV atau 2019 novel coronavirus. Virus penyebab COVID-19 ini adalah SARS-CoV-2. Terdapat varian SARS-CoV-2 lain yang memiliki potensi berdampak besar bagi kesehatan masyarakat seperti Lambda dan Mu. Ada pula kelompok varian SARS-CoV-2 under monitoring yang belum diketahui dampak dan bentuk penyebarannya di tingkat masyarakat. Kappa, Iota, dan Epsilon merupakan beberapa contoh varian yang termasuk ke dalam kelompok tersebut. World Health Organization (WHO) terus melakukan pengawasan kemunculan varian SARS-CoV-2 yang baru. Varian SARS-CoV-2 yang telah diketahui penularan dan dampaknya cukup signifikan pada masyarakat hingga saat ini adalah Alpha, Beta, Delta, Gamma, dan Omicron. Penelitian ini menggunakan data dari kelima varian SARS-CoV-2 tersebut. Penelitian ini mengimplementasikan program unsupervised dari machine learning yaitu simulasi proses clustering untuk mengelompokkan varian SARS-CoV-2. Dilakukan ekstraksi fitur terhadap data sekuens protein SARS-CoV-2 menggunakan package discere dalam bahasa pemrograman Python. Melalui proses ekstraksi fitur dihasilkan 27 fitur data sekuens protein SARS-CoV-2 yang siap digunakan. Elbow method kemudian diimplementasikan terhadap data untuk mengetahui jumlah pembentukan cluster yang optimal untuk digunakan pada clustering. Berdasarkan elbow method didapatkan jumlah cluster optimal untuk simulasi clustering sebanyak  dan dilakukan juga simulasi dengan  untuk memberi kesempatan kepada seluruh varian untuk membentuk clusternya sendiri.  Metode clustering yang digunakan pada penelitian ini adalah spectral clustering. Cluster yang dihasilkan kemudian dievaluasi menggunakan metrik evaluasi silhouette score serta melihat runtime pada setiap simulasi yang dilakukan. Hasil silhouette score untuk simulasi dengan  bernilai 0,614 dan untuk simulasi dengan  yang bernilai 0,631. Durasi rata-rata runtime mencatat bahwa simulasi dengan  dengan 6,566 detik lebih baik dibanding simulasi dengan  dengan 7,529 detik. Berdasarkan hasil tersebut, spectral clustering dapat dilakukan terhadap varian SARS-CoV-2 dengan pemilihan jumlah cluster  menggunakan elbow method.

Coronavirus disease (COVID-19) is an infectious respiratory disease caused by a new type of coronavirus. This disease was previously called 2019-nCoV or 2019 novel coronavirus. The virus that causes COVID-19 is the SARS-CoV-2. There are several variants of SARS-CoV-2 that have the potential to have a major impact on public health, such as Lambda and Mu. There is also a group of variants of SARS-CoV-2 under monitoring whose impact and form of spread are unknown at the community level. Kappa, Iota, and Epsilon are some examples of variants that belong to this group. The World Health Organization (WHO) continues to monitor the emergence of a new variant of SARS-CoV-2. The variants of SARS-CoV-2 that are known to transmit and have a significant impact on society so far are Alpha, Beta, Delta, Gamma and Omicron. This study uses data from that five variants of SARS-CoV-2. This study implements an unsupervised program from machine learning, which is a simulation of the clustering process to group variants of SARS-CoV-2 . Feature extraction was carried out on the SARS-CoV-2 protein sequence data using discere package in the Python programming language. Through the feature extraction process, 27 features of the SARS-CoV-2 protein sequence data were produced which were ready for use. The elbow method is then implemented on the data to find out the optimal number of cluster formations for use in clustering. Based on the elbow method, the optimal number of clusters for the clustering simulation is  and a simulation with  is also carried out to provide an opportunity for all variants to form their own clusters. The clustering method used in this study is spectral clustering. The resulting clusters are then evaluated using the silhouette score evaluation metric and looking at the runtime in each simulation that is performed. The results of the silhouette score for the simulation with  is worth 0.614 and for the simulation with  it is worth 0.631. The average duration of the runtime noted that the simulation with  with 6.566 seconds was better than the simulation with  with 7.529 seconds. Based on these results, spectral clustering can be carried out on the SARS-CoV-2 variant by selecting the number of  clusters using the elbow method.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Frisca
"Spectral clustering adalah salah satu algoritma clustering modern yang paling terkenal. Sebagai teknik clustering yang efektif, metode spectral clustering muncul dari konsep teori graf spektral. Metode spectral clustering membutuhkan algoritma partisi. Ada beberapa metode partisi termasuk PAM, SOM, Fuzzy c-means, dan k-means. Berdasarkan penelitian yang telah dilakukan oleh Capital dan Choudhury pada 2013, ketika menggunakan Euclidian distance, k-means memberikan akurasi yang lebih baik dibandingkan dengan algoritma PAM. sehingga, makalah ini menggunakan algoritma k-means. Keuntungan utama dari spectral clustering adalah mengurangi dimensi data, terutama dalam hal ini untuk mengurangi dimensi yang besar dari data microarray.
Microarray data adalah chip berukuran kecil yang terbuat dari slide kaca yang berisi ribuan bahkan puluhan ribu jenis gen dalam fragmen DNA yang berasal dari cDNA. Aplikasi data microarray secara luas digunakan untuk mendeteksi kanker, misalnya adalah karsinoma, di mana sel-sel kanker mengekspresikan kelainan pada gen-nya. Proses spectral clustering dimulai dengan pengumpulan data microarray gen karsinoma, preprocessing, menghitung similaritas, menghitung , menghitung nilai eigen dari , membentuk matriks , dan clustering dengan menggunakan k-means. Dari hasil pengelompokan gen karsinoma pada penelitian ini diperoleh dua kelompok dengan nilai rata-rata Silhouette maksimal adalah 0.6336247. Proses clustering pada penelitian ini menggunakan program open source R.

Spectral clustering is one of the most famous modern clustering algorithms. As an effective clustering technique, spectral clustering method emerged from the concepts of spectral graph theory. Spectral clustering method needs partitioning algorithm. There are some partitioning methods including PAM, SOM, Fuzzy c means, and k means. Based on the research that has been done by Capital and Choudhury in 2013, when using Euclidian distance k means algorithm provide better accuracy than PAM algorithm. So in this paper we use k means as our partition algorithm. The major advantage of spectral clustering is in reducing data dimension, especially in this case to reduce the dimension of large microarray dataset.
Microarray data is a small sized chip made of a glass plate containing thousands and even tens of thousands kinds of genes in the DNA fragments derived from doubling cDNA. Application of microarray data is widely used to detect cancer, for the example is carcinoma, in which cancer cells express the abnormalities in his genes. The spectral clustering process is started with collecting microarray data of carcinoma genes, preprocessing, compute similarity matrix, compute , compute eigen value of , compute , clustering using k means algorithm. In this research, Carcinoma microarray data using 7457 genes. The result of partitioning using k means algorithm is two clusters clusters with maximum Silhouette value 0.6336247.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47117
UI - Tesis Membership  Universitas Indonesia Library
cover
Hendy Fergus Atheri Hura
"ABSTRAK
Penelitian ini mengimplementasikan metode spectral clustering-Fuzzy C-Means pada tiga microarray data ekspresi gen, dengan tujuan untuk mengelompokkan gen-gen yang memiliki tingkat ekspresi yang similar. Spectral clustering secara teoritis terdiri dari tiga tahap utama yaitu: membangun matriks jarak, membentuk matriks Laplacian, dan proses partisi, khususnya dalam tesis ini menggunakan algoritma partisi Fuzzy C-Means. Oleh karena itu, implementasi dari spectral clustering-FCM lebih sederhana dan intuitif pada pelaksanaannya. Analisis cluster singkat juga akan dipaparkan untuk masing-masing microarray data yang digunakan yaitu: Carcinoma, Leukemia, dan Lymphoma. Hasil cluster yang sangat baik didapatkan, sehingga metode yang diusulkan memiliki potensi besar ke depannya dalam penelitan pada bidang medis.

ABSTRACT
This research implements the spectral clustering FCM method on three microarray gene expression data, with the aim of grouping genes with similar expression levels. Spectral clustering is theoretically composed of three main stages building distance matrix, forming Laplacian matrix, and partitioning process, especially in this thesis using Fuzzy C Means partition algorithm. Therefore, the implementation of spectral clustering FCM is simpler and more intuitive in its implementation. Brief cluster analysis will also be presented for each microarray data used Carcinoma, Leukemia, and Lymphoma. Excellent cluster results are obtained, so the proposed method has great potential for future research in the medical field. "
2017
T48274
UI - Tesis Membership  Universitas Indonesia Library
cover
M. Abdul Rivai
"ABSTRAK
Clustering adalah metode pembagian data ke dalam kelompok homogen yang disebut cluster. Spectral clustering merupakan salah satu algoritma clustering modern yang memiliki kelebihan dapat mereduksi dimensi data. Pada penelitian ini metode partisi yang diterapkan pada spectral clustering yaitu self-organizing map SOM . SOM memiliki keunggulan tahan terhadap data noise dan outlier, serta SOM dapat mengatasi dataset yang besar. Penelitian ini bertujuan untuk mengimplementasikan spectral clustering-self organizing map pada data microarray ekspresi gen karsinoma yang terdiri dari 7457 gen dari 18 sampel normal dan 18 sampel penderita kanker karsinoma. Sebelum dilakukan spectral clustering-SOM, data microarray ekspresi gen karsinoma dinormalisasi menggunakan normalisasi min-max. Spectral clustering-SOM dilakukan dengan tahapan-tahapan berikut: menghitung matriks similaritas W , menghitung matriks laplacian ternormalisasi Lsym , menghitung eigenvalue dari Lsym, membentuk matriks U yang terdiri dari k eigenvector terkecil, membentuk vektor unit Unorm dari vektor baris pada matriks U sehingga vektor unit memiliki norm 1, mengelompokkan gen pada matriks Unorm menggunakan SOM dan menghitung nilai indeks Davies-Bouldin IDB k . Penentuan jumlah cluster terbaik berdasarkan nilai indeks Davies-Bouldin yang paling minimum. Dengan menggunakan perangkat lunak R, hasil penelitian ini menunjukkan bahwa data microarray ekspresi gen karsinoma terbagi menjadi dua cluster dengan nilai indeks Davies-Bouldin yaitu 0,5843429. Berdasarkan indeks Davies-Bouldin, hasil clustering menggunakan metode spectral clustering-SOM lebih baik daripada hasil clustering yang menggunakan metode SOM tanpa spectral clustering.

ABSTRACT
Clustering is a method the dividing data into a homogeneous group called a cluster. Spectral clustering is one of the modern clustering algorithms that has the advantage of reducing dimensions of data. In this study the partitioning method applied to spectral clustering is self organizing map. SOM has the advantage of robust to noise and outlier, and SOM can handle large datasets. This study aims to implement spectral clustering self organizing map on microarray data of carcinoma gene expression consisting of 7457 genes from 18 normal samples and 18 samples of carcinoma cancer patients. Before spectral clustering SOM, the microarray data of carcinoma genes expression was normalized using min max normalization. The Spectral clustering SOM is done by the following steps calculate similarity matrix W , calculate the normalized Laplacian matrix Lsym , calculate the eigenvalue of Lsym , forming a vector unit Unorm of the row vector of the matrix U so that the vector unit has norm 1, grouping the genes in the matrix Unorm and calculate the Davies Bouldin index values IDB k . Determination of the best number of clusters based on the minimum value of the Davies Bouldin index. By using software R, the result of this research is microarray data of carcinoma gene expression is divided into two clusters with Davies Bouldin index value is 0.5843429. Based on the Davies Bouldin index values, clustering using spectral clustering SOM is better than clustering using only SOM method without spectral clustering."
2017
T48650
UI - Tesis Membership  Universitas Indonesia Library
cover
Edo Krisna Dewandono
"ABSTRACT
Sel tumor adalah sel yang terbentuk akibat kegagalan beberapa protein dalam mengatur siklus sel. Protein TP53 berperan penting dalam mengatur siklus sel, khususnya dalam menekan perkembangan sel tumor. Perubahan pada gen TP53 ditemukan dalam lebih dari setengah kasus tumor pada manusia. Protein lain yang berhubungan dengan protein TP53 juga ditemukan terlibat dalam proses pembentukan kanker. Analisis interaksi protein TP53 dengan melakukan clustering jaringan interaksi protein (PPI) TP53 adalah hal penting dalam membantu mengatasi sel tumor. Jaringan PPI dinyatakan sebagai graf dengan protein dan interaksinya masing-masing sebagai simpul dan busur pada graf. Spectral clustering adalah metode graph clustering yang menggunakan eigenvector dari matriks Laplacian.

ABSTRACT
Fuzzy random walk adalah metode fuzzy clustering yang menggunakan probabilitas transisi dari random walk pada data. Dua metode tersebut akan digabungkan dan diimplementasikan pada penelitian ini. Menggunakan data PPI protein TP53 dari STRING database, didapat gabungan kedua metode tersebut mampu menghasilkan cluster yang fuzzy dan robust di mana setiap cluster dapat menjelaskan bagian tertentu dari fungsi protein TP53. Tumor cell is formed as a result of malfunctioning of some proteins that regulates the cell cycle. TP53 protein plays an important role in managing cell cycle, especially in tumor cell suppression. An alteration of TP53 gene is found in more than half cases of human tumor. Moreover, TP53-related proteins are also found involved in the carcinogenesis process. Therefore, it is important to analyze the interactions of TP53 protein by clustering protein-protein interactions (PPI) network of TP53. PPI networks are usually represented as a graph network with proteins and interactions as vertices and edges respectively. Spectral Clustering is a graph clustering algorithm based on eigenvector of the graph Laplacian. Fuzzy Random Walk is a fuzzy clustering method based on transition probability from a random walk on a dataset. In this paper, we combine both Spectral Clustering and Fuzzy Random Walk. Using PPI datasets of TP53 obtained from the STRING database, we found the combined algorithm is proven to produce both robust and fuzzy clusters with each cluster explains one of TP53 proteins functionality."
2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library