Hasil Pencarian

Ditemukan 217946 dokumen yang sesuai dengan query

Muhammad Naufal Luthfi

Clustering Daerah Bencana Alam di Indonesia Dengan Menggunakan Metode Hierarchical Clustering dan Fuzzy C-Means = Clustering of Natural Disaster Areas in Indonesia Using Hierarchical Clustering and Fuzzy C-Means Methods

"Peradaban yang terus berkembang telah membuat konflik antara manusia dan lingkungan menjadi semakin parah sehingga menyebabkan banyak terjadinya bencana alam. Banyak negara yang terdampak oleh bencana alam dan salah satunya adalah Indonesia. Kondisi dan letak geografis Indonesia menyebabkan banyak terjadinya bencana alam di Indonesia. Oleh karena itu, perlu dilakukan pengelompokan daerah bencana alam di Indonesia untuk mengetahui daerah yang paling sering terkena bencana alam. Metode clustering dapat digunakan untuk mengetahui daerah tersebut. Dari studi literatur yang telah dilakukan, belum ada penelitian yang menggunakan metode hierarchical clustering dan fuzzy c-means untuk clustering daerah bencana alam di Indonesia. Maka dari itu, tujuan dari penelitian ini adalah mengklasifikasi daerah yang sering mengalami bencana alam di Indonesia dengan menggunakan metode hierarchical clustering dan fuzzy c-means. Data yang digunakan dalam penelitian ini adalah data bencana alam di Indonesia dari tahun 2019 hingga 2023. Variabel yang digunakan adalah jumlah kebakaran hutan dan lahan, banjir, cuaca ekstrem, gelombang pasang, tanah longsor, kekeringan, erupsi gunung api, dan gempa bumi di setiap kabupaten yang terdampak bencana alam. Hasil clustering menunjukan terdapat 66 daerah yang sering mengalami banjir, 45 daerah yang sering mengalami kebakaran hutan dan gelombang pasang, dan 30 daerah yang sering mengalami cuaca ekstrem, tanah longsor, kekeringan, erupsi gunung api, dan gempa bumi.

The continuously evolving civilization has exacerbated the conflict between humans and the environment, leading to increasingly severe natural disasters. Many countries are affected by natural disasters, and one of them is Indonesia. Indonesia's conditions and geographic location contribute to the occurrence of numerous natural disasters in the country. Therefore, it is necessary to classify areas prone to natural disasters in Indonesia to identify the most frequently affected regions. Clustering methods can be used to determine these areas. From the literature review conducted, there has been no research utilizing hierarchical clustering and fuzzy c-means methods for clustering areas prone to natural disasters in Indonesia. Therefore, the aim of this research is to classify areas that frequently experience natural disasters in Indonesia using hierarchical clustering and fuzzy c-means methods. The data used in this research is the natural disaster data in Indonesia from 2019 to 2023. The variables used include the number of forest and land fires, floods, extreme weather events, tidal waves, landslides, droughts, volcanic eruptions, and earthquakes in each disaster-affected district. The clustering results indicate that there are 66 regions frequently experiencing floods, 45 regions often experiencing forest fires and tidal waves, and 30 regions commonly facing extreme weather, landslides, droughts, volcanic eruptions, and earthquakes."

Jakarta: Fakultas Teknik Universitas Indonesia, 2024

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Muhammad Reza Maullanna

Optimasi Rute Pengiriman Barang pada Tahap Last-mile dengan Sistem Truck-Drone Menggunakan Fuzzy C-Means Clustering dan Algoritma Genetika = Goods Delivery Route Optimization at the Last-mile Stage with Truck-Drone System Using Fuzzy C-Means Clustering and Genetic Algorithms

"Kegiatan berbelanja secara daring di e-commerce meningkat seiring dengan peningkatan pengguna internet di Indonesia. Kondisi ini mengakibatkan melonjaknya kegiatan pengiriman barang. Dalam proses pengiriman barang terdapat tahap last-mile delivery. Adapun tantangan yang dihadapi pada tahap ini adalah jumlah pengiriman yang banyak dan waktu pengiriman yang panjang. Hal ini bisa mengakibatkan penambahan jumlah alat transportasi yang digunakan. Salah satu alat transportasi untuk last-mile delivery adalah truk. Penggunaan truk dalam last-mile delivery dapat menyebabkan polusi udara serta tidak dapat mengirimkan paket tepat waktu karena kemacetan lalu lintas (dalam kasus daerah perkotaan). Karena hal itu, harus dicari jalan keluar yang dapat menurunkan polusi udara serta menurunkan kasus pengiriman paket tidak tepat waktu dalam last-mile delivery. Penelitian ini menggabungkan pemakaian truk dan drone yang bermaksud untuk menurunkan kasus pengiriman paket tidak tepat waktu serta menurunkan polusi udara dengan keunggulan drone. Metode yang dipakai melibatkan implementasi Fuzzy C-Means (FCM) clustering untuk mengelompokkan data pelanggan dengan mempertimbangkan kendala jumlah drone yang tersedia serta radius terbang drone dan implementasi Algoritma Genetika untuk merancang rute pengiriman yang optimal dengan mempertimbangkan kendala Time Windows pada depot dan semua cluster. Penerapan kedua metode itu dipakai pada data 90 pelanggan. FCM bisa menurunkan 63,15% jumlah cluster, menurunkan 36,03% keseluruhan jarak tempuh rute, menurunkan 28,77% keseluruhan waktu tempuh rute, serta pengurangan 4,06% nilai fungsi objektif bila ketimbang dengan yang didapat dari clustering secara intuitif.

Online shopping activities in e-commerce are increasing along with the rise in internet users in Indonesia. This trend has led to a surge in goods delivery activities. In the delivery process, there is a crucial last-mile delivery stage. The challenges faced during this stage include a high volume of deliveries and extended delivery times, leading to the necessity of deploying additional transportation means. One commonly used transportation method for last-mile delivery is trucks. However, the utilization of trucks in last-mile delivery poses challenges such as air pollution and the inability to ensure timely package deliveries due to traffic congestion, particularly in urban areas. To address these issues, a solution must be found that not only reduces air pollution but also mitigates instances of delayed package deliveries in last-mile delivery. This research proposes a novel approach by integrating the use of trucks and drones to capitalize on the advantages offered by drones. The methodology employed incorporates the implementation of Fuzzy C-Means (FCM) clustering to categorize customer data, considering constraints related to the number of available drones and the flying radius of the drones. Additionally, a Genetic Algorithm is applied to optimize delivery routes, considering time window constraints at the depot and within all clusters. The application of these two methods was tested on a dataset comprising 90 customers. FCM demonstrated the ability to reduce the number of clusters by 63.15%, decrease the overall route travel distance by 36.03%, and minimize the overall route travel time by 28.77%. Furthermore, it led to a 4.06% reduction in the objective function values compared to intuitive clustering."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Bayu Permata Negara

Cluster Ensemble pada Data Campuran dalam Pengelompokan Sekolah Menengah Pertama di Provinsi Jawa Barat = Cluster Ensemble Based Mixed Data Clustering of Junior High School in West Java Province

"Analisis kelompok adalah metode multivariat yang bertujuan mengelompokkan pengamatan berdasarkan karakteristiknya. Salah satu metode analisis pengelompokan adalah metode cluster ensembel dengan pengelompokan dilakukan dengan satu metode berulang kali hingga diperoleh hasil yang lebih baik dibandingkan jika dilakukan satu kali. Penelitian ini mencoba menggunakan Cluster Ensemble Based Mixed Data Clustering (CEBMDC), yaitu metode pengelompokan yang biasa dilakukan untuk data dengan variabel campuran yaitu numerik dan kategorik. Tahap awal dalam metode ini yaitu membagi data awal menjadi data dengan hanya variabel-variabel numerik dan data dengan hanya variabel-variabel kategorik. Data yang telah dipisahkan berdasarkan jenis variabelnya kemudian dikelompokan menggunakan metode yang sesuai secara simultan. Hasil pengelompokan ini menjadi data baru dengan dua variabel kategorik yaitu hasil pengelompokan dengan variabel numerik dan hasil pengelompokan dengan variabel kategorik. Data baru dengan dua variabel kategorik ini kemudian dilakukan proses pengelompokan. Metode pengelompokan untuk data dengan variabel numerik adalah metode Hierarchical Agglomerative Clustering. Metode clustering untuk data kategorik adalah ROCK (RObust Clustering using linKs) dan K-medoids/PAM (Partition Around Medoids). Penelitian ini membandingkan hasil pengelompokan ROCK dan K-medoids. Pengelompokan dilakukan pada data mengenai sarana dan prasarana sekolah yang diambil dari 5.094 SMP yang ada di Jawa barat. Metode pengelompokan dengan kinerja terbaik pada penelitian ini adalah Ensemble K-medoids berdasarkan rasio antara simpangan baku di dalam kelompok (Â¬SW) dan simpangan baku antar kelompok (SB) terkecil. Penelitian ini menghasilkan 3 kelompok yang mencerminkan kondisi sekolah-sekolah pada jenjang SMP di Jawa Barat.

Clustering analysis is a multivariate method that aims to classify observations based on their characteristics. One method of clustering analysis is the ensemble clustering method in which the grouping is done using a method repeatedly until better results are obtained than if it is done once. This study uses the Cluster Ensemble Based Mixed Data Clustering (CEBMDC), which is a grouping method that commonly used for data with numerical and categorical variables. The first step in this method is to divide the initial data into two parts, that is data with only numerical variables and data with categorical variables. After data has been separated based on the types of variables, and then clustering using the appropriate method is conducted simultaneously. The results of these two clustering method become a new data with two categorical variables, namely the results of clustering with numeric variables and the results of clustering with categorical variables. The new data with two categorical variables are then carried out the clustering process. The clustering method for data with numerical variables is the Hierarchical Agglomerative Clustering method. Clustering methods for categorical data are ROCK (RObust Clustering using linKs) and K-medoids / PAM (Partition Around Medoids). This study compares the results of ROCK and K-medoids clustering. The study was conducted on data of school facilities and infrastructure taken from 5094 junior high schools in West Java. The best performance grouping method in this study is the Ensemble K-medoids based on the ratio between the standard deviation in the group (SW) and the smallest standard inter-group (SB) deviation. This study produced 3 groups that reflect the condition junior high schools in West Java."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Banjarnahor, Evander

Analisis Kekerabatan pada Barisan DNA SARS-Cov-2 Berdasarkan Pembentukan Pohon Filogenetik dengan Metode Hierarchical dan K-Means Clustering Menggunakan Multiple Encoding Vector dan K-Mer = Implementation of Hierarchical and K-Means Clustering Methods Using Multiple Encoding Vector in Analyzing Kinship in SARS-Cov-2 DNA Sequences

"Berdasarkan data WHO pada pertengahan Juli 2021 lebih dari 185,2 juta orang di seluruh dunia terinfeksi virus corona atau Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2). Virus ini menyerang penapasan manusia yang dapat mengakibatkan infeksi paru-paru pada manusia dan bahkan dapat menyebabkan kematian. Tercatat bahwa lebih dari 4 juta orang di seluruh dunia meninggal akibat terinfeksi virus corona. Di Indonesia sendiri pada pertengahan Juli 2021 tercatat lebih dari 2,4 juta orang ternfeksi virus corona dan lebih dari 65,4 ribu orang meninggal akibat terinfeksi virus corona. Berdasarkan data tersebut, perlu dilakukan analisis kekerabatan virus SARS-CoV-2 untuk mengurangi penyebaran dan memberikan batasan sosial dari negara satu dengan negara lainnya. Identifikasi kekerabatan dari virus covid-19 dan penyebarannya dapat dilakukan dengan cara pembentukan pohon filogenetik dan clustering. Pada penelitian ini pohon filogenetik akan dibangun berdasarkan metode Hierarchical Clustering dengan menggunakan metode Multiple Encoding Vector dan K-Mer berdasarkan translasi DNA kodon menjadi asam amino. Jarak Euclidean akan digunakan untuk menentukan matriks jarak. Penelitian ini selanjutnya menggunakan metode K- Means Clustering untuk melihat penyebarannya, dimana nilai k ditentukan dari jumlah centroid yang dihasilkan dari metode Hierarchical Clustering. Penelitian ini mengambil sampel barisan DNA SARS-CoV-2 dari beberapa negara yang tertular. Dari hasil simulasi, nenek moyang SARS-CoV-2 berasal dari China. Hasil analisis juga menunjukkan bahwa leluhur covid-19 yang paling dekat dengan Indonesia berasal dari India, Australia dan Spanyol. Selain itu dari hasil simulasi dihasilkan bahwa barisan DNA SARS-CoV-2 terdiri dari 9 cluster dan cluster keenam adalah kelompok yang memiliki anggota paling banyak. Hasil analisis juga menunjukkan bahwa metode ini sangat opitimal dalam pengelompokan data dengan nilai 97.4%.

Based on WHO data in middle of July 2021, Coronavirus or Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2) is infecting more than 185.2 million people worldwide. The virus attacks human breathing, which can cause lung infections and can even cause death. More than 4 million people worldwide have died due to being infected with the coronavirus. In Indonesia alone, in mid-July 2021, there were more than 2.4 million people infected with the corona virus and more than 65.4 thousand people died from being infected with the corona virus. Based on those covid-19 survivor data, it is necessary to carry out a kinship analysis of the coronavirus to reduce its spreading. Identification of the kinship of the covid- 19 virus and its spread can be done by forming a phylogenetic tree and clustering. This study uses the Multiple Encoding Vector method and K-mer based on translation DNA codon to amino acid in analyzing sequences and Euclidean Distance to determine the distance matrix. This research will then use the Hierarchical Clustering method to determine the number of initial centroids and cluster, which will be used later by the K-Means Clustering method kinship in SARS-CoV-2 DNA sequence. This study took samples of DNA sequences of SARS-CoV-2 from several infected countries. From the simulation results, the ancestors of SARS-CoV-2 came from China. The results of the analysis also show that the closest ancestors of covid-19 to Indonesia came from India, Australia and Spain. In addition, the ancestors of SARS-CoV-2 came from China. The SARS- CoV-2 DNA sequence is also consisted of 9 clusters, and the sixth cluster is the group that has the most members. The results also show that this method is very optimal in a grouping of data with a value of 97.4%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Eryawan Deise Ulul

Implementasi hierarchical clustering menggunakan k-mer sparse matrix untuk menganalisis kekerabatan virus mers-cov = Implementation of hierarchical clustering using k-mer sparse matrix to analyze mers-cov genetic relationship / Eryawan Deise Ulul

"[ABSTRAK

Hierarchical clustering merupakan metode yang efektif dalam membentuk pohon

filogenetik dengan mengetahui matriks jarak antar barisan DNA. Salah satu cara

untuk membuat matriks jarak yaitu dengan cara menggunakan metode -mer.

Kelebihan dari metode -mer yaitu lebih efisien dalam segi waktu. Langkahlangkah

dalam membuat matriks jarak dengan metode -mer dimulai dengan

membentuk -mer sparse matrix dari masing barisan DNA. Selanjutnya,

membentuk -mer singular value vector. Pada tahap akhir yaitu menghitung jarak

antar vektor. Pada tesis ini akan dilakukan analisis terhadap barisan DNA MERSCoV

dengan mengimplementasi Hierarchical clustering menggunakan -mers

sparse matrix sehingga dapat diketahui leluhur dari masing-masing barisan DNA

MERS-CoV.

ABSTRACT

Hierarchical clustering is an effective method in creating phylogenetic by

knowing the distance matrix between DNA sequence. One of methods to make the

distance matrix use -mer method. -mer is more efficient than others. The steps

to make distance matrix using -mer method starts from creating -mer sparse

matrix. Then, creating -mer singular value vector. The last steps is counting

distance each vectors. This thesis will analyze the sequence of DNA MERS-CoV

by implementing Hierarchical clustering using k-mers sparse matrix so that will

be known the ancestor of each sequence of DNA MERS-CoV., Hierarchical clustering is an effective method in creating phylogenetic by

knowing the distance matrix between DNA sequence. One of methods to make the

distance matrix use -mer method. -mer is more efficient than others. The steps

to make distance matrix using -mer method starts from creating -mer sparse

matrix. Then, creating -mer singular value vector. The last steps is counting

distance each vectors. This thesis will analyze the sequence of DNA MERS-CoV

by implementing Hierarchical clustering using k-mers sparse matrix so that will

be known the ancestor of each sequence of DNA MERS-CoV.]"

2015

T44260

UI - Tesis Membership Universitas Indonesia Library

Diyah Septi Andryani

Implementasi hybrid clustering menggunakan algoritma fuzzy c-means dan algoritma divisive untuk menganalisis kekerabatan dna human papillomavirus penyebab kanker serviks = The implementation of hybrid clustering using fuzzy c means algorithm and divisive algorithm for analysing dna human papillomavirus cause of cervical cancer

"Clustering bertujuan untuk mengklasifikasikan pola yang berbeda ke dalam kelompok yang disebut cluster. Analisis gen dengan menggunakan metode clustering dinilai lebih akurat dibandingkan analisis nukleotida menggunakan penyejajaran DNA. Hybrid clustering pada tesis ini mengkombinasikan algoritma fuzzy c-means dan algoritma divisive mampu meningkatkan keakurasian jika dibandingkan pendekatan pengelompokan partitional tradisional. Algoritma divisive akan dijalankan pada step kedua setelah hasil clustering yang diperoleh dari pengelompokan partisi fuzzy c-means.

Penentuan jumlah cluster terbaik ditentukan dari nilai Indeks Davies Bauldin yang paling minimum. Sebanyak 1252 barisan DNA HPV Human papillomavirus diperoleh dari Genbank NCBI dengan proses melakukan ekstraksi ciri DNA, selanjutnya dilakukan normalisasi. Proses ekstraksi ciri, normalisasi, dan penerapan algoritma partisi fuzzy c-means dan divisive dalam metode hybrid clustering menggunakan bantuan program open source.

Pada hasil hybrid clustering level awal diperoleh jumlah cluster optimum sebanyak 3 cluster dengan nilai Indeks Davies Bouldin paling minimum adalah 0.9715919. Pada level ke-2 clustering didapatkan cluster ke-1 terbagi atas 9 sub cluster dengan nilai IDB minimum adalah 0.8909797. Cluster ke-2 terbagi atas 2 sub cluster dengan nilai IDB minimum adalah 0.7650508. Cluster 3 terbagi atas 2 sub cluster dengan nilai IDB minimum adalah 0.9112528. Nilai IDB pada level kedua selalu lebih kecil dibanding nilai IDB pada level 1. Hal ini mengindikasikan bahwa hybrid clustering memberikan hasil yang lebih baik terhadap hasil clustering.

Clustering aims to classify the different patterns into groups called clusters. Analysis gene by using clustering method is considered more accurate than analysis of nucleotide using DNA alignment. In this thesis, hybrid clustering algorithm which combines fuzzy c means and algorithm divisive will be improve accuracy when compared to partitional clustering. Divisive algorithms will applied on second level after clustering partition using fuzzy c means.
To find the best number of clusters is determined using the minimum value of Davies Bouldin Index DBI of the cluster results. The data is 1252 sequences of HPV DNA sequences obtained from Gen Bank Database in the National Centre for Biotechnology Information NCBI at http www.ncbi.nlm.nih.gov in FASTA format. The data is converted into numerical form through feature extraction using n mers frequency.
The results on first level hybrid clustering obtained the optimum cluster divided into three clusters with the value of the minimum Davies Bouldin Index is 0.9715919. Morever, DBI values after implementing the second step of clustering are always producing smaller IDB values compare to the results of using first step clustering only. This condition indicates that the hybrid approach in this study produce better performance of the cluster results, in term its DBI values."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017

T47171

UI - Tesis Membership Universitas Indonesia Library

Athiyyah Fadillah Eriri

Pengelompokan Nagari-nagari di Kabupaten Agam Sumatera Barat Berdasarkan Indikator Pembangunan Keluarga Tahun 2015 dengan Metode K-Means dan Fuzzy C-Means = Clustering of Nagari in Agam District of West Sumatera Province Based on Family Development Indicator 2015 Using K-Means and Fuzzy C-Means Methods

"Pengelompokan atau clustering adalah pengelompokan objek-objek yang dilakukan atas dasar kesamaan atau jarak (perbedaan) di mana tidak ada asumsi yang dibuat mengenai banyaknya cluster atau struktur cluster. Salah satu metode yang banyak digunakan dalam penyelesaian masalah clustering adalah algoritme K-Means. Pada algoritme ini, suatu objek yang telah menjadi anggota cluster tertentu, tidak bisa menjadi anggota cluster yang lainnya. Metode ini dikenal sebagai hard clustering. Pendekatan lain dalam melakukan pengelompokan didasarkan pada teori himpunan fuzzy yang dikenal dengan pengelompokan fuzzy. Teori himpunan fuzzy memiliki nilai kekaburan antara salah atau benar. Jadi, dalam melakukan pengelompokan, setiap objek memiliki peluang menjadi anggota pada setiap cluster. Salah satu metode pengelompokan fuzzy adalah Fuzzy C-Means (FCM). Pada tugas akhir ini, metode K-Means dan FCM digunakan untuk mengelompokkan nagari-nagari di Kabupaten Agam. Nagari-nagari di Kabupaten Agam dikelompokan berdasarkan indikator pembangunan keluarga yang berasal dari Laporan Pendataan Keluarga tahun 2015 yang bersumber dari BKKBN (Badan Kependudukan dan Keluarga Berencana Nasional). Pada penelitian ini diperoleh empat cluster hasil dari indeks xie and beni. Jumlah anggota setiap cluster hasil dari algoritme K-Means adalah 32, 28, 11 dan 11. Sedangkan jumlah anggota setiap cluster hasil dari algoritme Fuzzy C-Means adalah 31, 18, 21, dan 12. Perbedaan jumlah anggota cluster yang dihasilkan algoritme K-Means dan Fuzzy C-Means adalah 14.29%. Karena rasio simpangan baku dalam dan antar cluster pada algoritme K-Means memberikan nilai yang lebih kecil dibandingkan algoritme Fuzzy C-Means maka algoritme K-Means memberikan hasil yang lebih baik dari pada algoritme Fuzzy C-Means dalam pengelompokan nagari-nagari di Kabupaten Agam.

Grouping or clustering is a method to group objects that are carried out on the basis of similarity or distance (difference) where no assumptions are made regarding the number of clusters or cluster structures. One method that is widely used in solving clustering problems is the K-Means algorithm. In this algorithm, if an object has become a member of a particular cluster, then it cannot become a member of another cluster. This method is known as hard clustering. Another approach to grouping is based on fuzzy set theory, known as fuzzy grouping. Fuzzy set theory has a blurring value between right or wrong. So, in grouping process, each object has the opportunity to become a member in each cluster. One of the fuzzy grouping methods is Fuzzy C-Means. In this study, the two methods, K-Means and Fuzzy C-Means, are used to group nagari-nagari in Agam District. Nagari is equivalent to villages in other provinces in Indonesia. The nagari grouping in Kabupaten Agam is based on family development indicators derived from the 2015 Family Data Collection Report sourced from BKKBN (Badan Kependudukan dan Keluarga Berencana Nasional). In this study four clusters were obtained based on xie and beni’s index. The numbers of members of each cluster as the result of the K-Means algorithm are 32, 28, 11 and 11. While the numbers of members of each cluster as the result of the Fuzzy C-Means algorithm are 31, 18, 21, and 12. The different cluster members produced by the K-Means and Fuzzy algorithms C-Means is 14.29%. Because the standard deviation ratio within and between clusters in the K-Means algorithm gives a smaller value than the Fuzzy C-Means algorithm, the K-Means algorithm gives better results than the Fuzzy C-Means algorithm on the nagari grouping in Agam District."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Ghea Suryawati

Penerapan algoritma partisi fuzzy c means dalam metode hopach clustering = Implementation of fuzzy c means partitioning alghorithm in hopach clustering methode / Ghea Suryawati

"Salah satu cara untuk mengetahui fungsi dari ekpresi gen (DNA/Protein) adalah dengan analisis kelompok (Clustering). Metode pengelompokan HOPACH mengkombinasikan agglomerative dan partisi. Partisi yang dapat digunakan antara lain PAM, SOM, dan K-Means yang termasuk dalam hard clustering. Dalam beberapa kasus karena beberapa hal pengelompokkan objek dengan hard clustering menjadi kurang tepat. Karena itu kemudian muncul teori himpunan fuzzy (kabur, tidak pasti) yang mendasari berkembangnya metode fuzzy clustering. Salah satu metode fuzzy clustering adalah metode Fuzzy c-means (FCM) yang merupakan perkembangan dari k-means.

Hasil dari penerapan algoritma partisi fuzzy c-means dalam metode pengelompokan HOPACH adalah algortima pengelompokan dengan langkah-langkah: ekstraksi ciri dengan n-mers frecuency, normalisasi, partisi dengan FCM, menentukan kelompok terbaik dengan mencari nilai MSS minimum, ordering, dan collapsing. Hal ini dilakukan berulang kali sampai kriteria berhenti terpenuhi. Penerapan algoritma ini dilakukan dengan program R. Pada penerapan algoritma partisi dalam metode HOPACH clustering, langkah normalisasi tidak perlu dilakukan, karena FCM sendiri sudah mengatasi masalah adanya outliers. Kekurangan dari penerapan ini adalah running time program yang cukup lama untuk nilai batas toleransi yang kecil.

One of the way to know the function of gene expression by clustering analysis. HOPACH clustering is combine thea agglomerative and partition method. The partition are PAM, SOM, and K-means which is part of hard clustering. In some cases because of the placement object in to a cluster with hard clustering can cause an error. So that is the reason why fuzzy set theory occurs and became the foundation of fuzzy clustering. One of the fuzzy clustering methods is Fuzzy C-means (FCM) which is developed from K-means.
The result from the implementation of FCM partitioning algorithm in HOPACH clustering method is the clustering algorithm which the steps are: characteristic extraction, normalization, partition using FCM, choosing the best cluster with the minimum MSS, ordering and collapsing. The process need done by iteration until the stopping criteria has reached. The implementation of this algorithm is use R program. In the implementation of FCM partitioning algorithm in HOPACH clustering method, normalization process can be deleted, because the FCM already sole the outliers problem. This disadvantage of this implementation is the running time program need quite along time for the small tolerance limits."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016

T44901

UI - Tesis Membership Universitas Indonesia Library

Saiful Bahri Musa

Document clustering by dynamic hierarchical algorithm based on fuzzy set type-ii from frequent item set

"One of ways to facilitate process of information retrieval is by performing clustering toward collection of the existing documents. The existing text documents are often unstructured. The forms are varied and their groupings are ambiguous. This cases cause difficulty on information retrieval process. More-over, every second new documents emerge and need to be clustered. Generally, static document clus-tering method performs clustering of document after whole documents are collected. However, per-forming re-clustering toward whole documents when new document arrives causes inefficient clus-tering process. In this paper, we proposed a new method for document clustering with dynamic hierar-chy algorithm based on fuzzy set type-II from frequent item set. To achieve the goals, there are three main phases, namely: determination of keyterm, the extraction of candidates clusters and cluster hierar-chical construction. Based on the experiment, it resulted the value of F-measure 0.40 for Newsgroup, 0.62 for Classic and 0.38 for Reuters. Meanwhile, time of computation when addition of new document is lower than to the previous static method. The result shows that this method is suitable to produce so-lution of clustering with hierarchy in dynamical environment effectively and efficiently. This method also gives accurate clustering result.

Salah satu cara untuk mempermudah proses information retieval adalah dengan melakukan peng-klasteran terhadap koleksi dokumen yang ada. Dokumen teks yang ada seringkali tidak terstruktur, formatnya bervariasi, dan pengelompokannya ambigu. Hal ini menimbulkan kesulitan dalam proses information retrieval. Selain itu, setiap detik dokumen baru bartambah dan perlu untuk dikelompokkan. Pada umumnya, metode pengklasteran dokumen statis melakukan pengklasteran dokumen setelah kese-luruhan dokumen terkumpul. Namun, melakukan pengklasteran ulang terhadap keseluruhan dokumen ketika dokumen baru tiba mengakibatkan proses pengklasteran menjadi tidak efisien. Penelitian ini mengusulkan metode baru untuk pengklasteran dokumen dengan algoritma hierarki dinamis berbasis fuzzy set type-II dari frequent itemset. Untuk mencapai tujuan tersebut, terdapat 3 tahapan utama yang akan dilakukan, yaitu; ekstraksi keyterm, ekstraksi kandidat klaster dan pembangunan hirarki klaster. Berdasarkan eksperimen yang telah dilakukan diperoleh nilai F-Measure 0,40 untuk Newsgroup, 0,62 untuk Classic, dan 0,38 untuk Reuters. Sedangkan waktu komputasi pada saat penambahan dokumen dapat direduksi dibanding dengan metode statis sebelumnya. Hasil percobaan terhadap beberapa dataset koleksi dokumen menunjukkan bahwa metode ini tidak hanya sesuai untuk menghasilkan solusi peng-klasteran secara hirarki dalam lingkungan yang dinamis secara efektif dan efisien, tetapi juga membe-rikan hasil pengklasteran yang akurat."

Surabaya: Institut Teknologi Sepuluh Nopember, Faculty of Information Technology, Department of Informatics Engineering, 2016

AJ-Pdf

Artikel Jurnal Universitas Indonesia Library

Esti Ramaditia Mulatsih

Penaksiran pusat cluster pada metode fuzzy c-means dengan menggunakan metode sampling: simple random sampling dan ranked set sampling = Assessment of cluster center in method fuzzy c-means using sampling method simple random sampling and ranked set sampling

" ABSTRAK

Analisis cluster merupakan teknik multivariat yang digunakan untuk mengelompokkan objek berdasarkan karakteristik yang dimilikinya. Salah satu teknik dalam analisis cluster adalah metode Fuzzy K-Means lebih dikenal dengan Fuzzy C-Means , yang merupakan versi fuzzy dari metode K-Means clustering. Seperti pada metode K-Means, FCM juga sangat sensitif terhadap penentuan pusat-pusat awal cluster. Untuk mengatasi permasalahan tersebut, diusulkan modifikasi dari metode FCM dengan menggunakan metode sampling dengan probabilitas. Metode sampling digunakan untuk menaksir lokasi pusat-pusat awal cluster untuk digunakan ke dalam proses clustering. Dalam tugas akhir ini, metode sampling yang digunakan adalah simple random sampling dan ranked set sampling. Modifikasi dari metode FCM dengan menggunakan kedua metode sampling tersebut masing-masingnya disebut dengan SRS Fuzzy C-Means dan Ranked Fuzzy C-Means. Kedua metode tersebut kemudian diuji pada himpunan data pasien liver di India. Hasil eksperimen menunjukkan bahwa Ranked Fuzzy C-Means lebih efisien dibandingkan SRS Fuzzy C-Means dan FCM.

ABSTRACT Cluster analysis is a multivariate technique that is used to group objects based on characteristics. One technique in cluster analysis is a method Fuzzy C Means or better known as Fuzzy C Means , which is a fuzzy version of K Means clustering method. As the K Means method, FCM is also very sensitive to the determination of the initial cluster centers. To overcome these problems, the proposed modification of the FCM method using probability sampling methods. The sampling method is used to estimate the initial cluster centers to be used in the clustering process. In this thesis, the sampling method used was simple random sampling and ranked set sampling. Modifications of the FCM method using both the sampling method each being with SRS Fuzzy C Means and Ranked Fuzzy C Means. Both methods are then tested on a data set of liver patients in India. The experimental results showed that Ranked Fuzzy C Means is more efficient than SRS Fuzzy C Means and FCM."

Depok: Universitas Indonesia, 2017

S66638

UI - Skripsi Membership Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian