Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 10 dokumen yang sesuai dengan query
cover
Asita Darma Irawati
"Pertimbangan finansial menjadi salah satu penentu utama apakah seseorang akan melanjutkan
pendidikan ke tingkat yang lebih tinggi atau tidak, sehingga diperlukan beasiswa untuk
membantu mahasiswa dalam menempuh pendidikan tinggi, terutama hingga tingkat doktor.
Besar biaya yang dikeluarkan oleh lembaga penyedia beasiswa kepada penerima beasiswa
tentunya diharapkan sepadan dengan kualitas ilmu yang diperoleh. Oleh karena itu, penelitian
ini bertujuan untuk membahas analisis pengelompokan universitas terbaik dunia berdasarkan
komponen biaya pendidikan program doktor dengan metode K-Means. Universitas pada
penelitian ini diambil dari QS World University Rangkings (WUR) 2022. Analisis eksploratori
data dilakukan dan diperoleh bahwa terdapat 83 dari 472 universitas di dunia memberi bantuan
dana penuh untuk studi program doktor. Nilai Silhouette sebesar 0,72 menunjukkan bahwa tiga
merupakan jumlah kelompok yang optimal bagi data. Sehingga terbentuk kelompok A
sebanyak 328 universitas, kelompok B sebanyak 108 universitas, dan kelompok C sebanyak
36 universitas. Kelompok A terdiri dari universitas dengan SPP dan biaya hidup per bulan
relatif rendah, kelompok B sedang, dan kelompok C tinggi. Untuk biaya transportasi udara,
kelompok B cenderung rendah, sedangkan kelompok A dan C relatif serupa dan lebih mahal
dari kelompok B. Sementara untuk biaya visa, kelompok A cenderung lebih murah, sedangkan
kelompok B dan C cenderung serupa dengan biaya lebih mahal. Berdasarkan analisis ini,
penulis memberikan saran universitas yang bisa dipertimbangkan lembaga pemberi beasiswa
sebagai perguruan tinggi tujuan.

Financial concern has been one of the main reasons why an individual wants to pursue higher
education. That is why scholarship is needed to help students earn an education, especially until
doctoral degree. The amount of money spent by institution who give scholarship must be
equivalent with the quality of knowledge an awardee got. This study aims to do clustering
analysis of the world’s top universities based on tuition fee components for doctoral program
using K-Means method. The object of this study are universities based on QS World University
Rankings 2022. Exploratory data analysis is done and found that there are 83 out of 472
universities in the world who give fully funded program for doctoral study. Based on the
silhouette value of 0.72, three is the best number of clusters for the data. Group A, B, C consists
of 328, 108, and 36 universities in respective order. Group A consists of universities who have
chepear tuition fee and monthly living cost compared to Group B dan C. However, Group B
consists of universities who have cheaper transportation, meanwhile Group A and C are quiet
similar. For visa, Group A is cheaper compared to Group B and C which are similar. Based on
the results, recommendations are given to the institution who provide scholarship about the
objective university for doctoral study.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Asita Darma Irawati
"Pertimbangan finansial menjadi salah satu penentu utama apakah seseorang akan melanjutkan pendidikan ke tingkat yang lebih tinggi atau tidak, sehingga diperlukan beasiswa untuk membantu mahasiswa dalam menempuh pendidikan tinggi, terutama hingga tingkat doktor. Besar biaya yang dikeluarkan oleh lembaga penyedia beasiswa kepada penerima beasiswa tentunya diharapkan sepadan dengan kualitas ilmu yang diperoleh. Oleh karena itu, penelitian ini bertujuan untuk membahas analisis pengelompokan universitas terbaik dunia berdasarkan komponen biaya pendidikan program doktor dengan metode K-Means. Universitas pada penelitian ini diambil dari QS World University Rangkings (WUR) 2022. Analisis eksploratori data dilakukan dan diperoleh bahwa terdapat 83 dari 472 universitas di dunia memberi bantuan dana penuh untuk studi program doktor. Nilai Silhouette sebesar 0,72 menunjukkan bahwa tiga merupakan jumlah kelompok yang optimal bagi data. Sehingga terbentuk kelompok A sebanyak 328 universitas, kelompok B sebanyak 108 universitas, dan kelompok C sebanyak 36  universitas. Kelompok A terdiri dari universitas dengan SPP dan biaya hidup per bulan relatif rendah, kelompok B sedang, dan kelompok C tinggi. Untuk biaya transportasi udara, kelompok B cenderung rendah, sedangkan kelompok A dan C relatif serupa dan lebih mahal dari kelompok B. Sementara untuk biaya visa, kelompok A cenderung lebih murah, sedangkan kelompok B dan C cenderung serupa dengan biaya lebih mahal. Berdasarkan analisis ini, penulis memberikan saran universitas yang bisa dipertimbangkan lembaga pemberi beasiswa sebagai perguruan tinggi tujuan.

Financial concern has been one of the main reasons why an individual wants to pursue higher education. That is why scholarship is needed to help students earn an education, especially until doctoral degree. The amount of money spent by institution who give scholarship must be equivalent with the quality of knowledge an awardee got. This study aims to do clustering analysis of the world’s top universities based on tuition fee components for doctoral program using K-Means method. The object of this study are universities based on QS World University Rankings 2022. Exploratory data analysis is done and found that there are 83 out of 472 universities in the world who give fully funded program for doctoral study. Based on the silhouette value of 0.72, three is the best number of clusters for the data. Group A, B, C consists of 328, 108, and 36 universities in respective order. Group A consists of universities who have chepear tuition fee and monthly living cost compared to Group B dan C. However, Group B consists of universities who have cheaper transportation, meanwhile Group A and C are quiet similar. For visa, Group A is cheaper compared to Group B and C which are similar. Based on the results, recommendations are given to the institution who provide scholarship about the objective university for doctoral study."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alfia Choirun Nisa
"Keberhasilan pembangunan suatu negara dapat dilihat dari kondisi kesejahteraan rakyatnya. Peningkatan kesejahteraan rakyat menjadi sasaran utama dalam kegiatan pembangunan yang dilaksanakan oleh pemerintah. Agar pembangunan yang dilakukan efektif dan tepat sasaran, perlu dilakukan pengelompokan untuk mengetahui karakteristik wilayah. Penelitian ini membahas mengenai pengelompokan kabupaten/kota di Pulau Jawa berdasarkan indikator kesejahteraan rakyat tahun 2022. Kesejahteraan yang diukur merupakan kesejahteraan materi. Variabel yang digunakan dalam penelitian ini adalah persentase penduduk miskin, PDRB per kapita atas dasar harga berlaku, rata-rata lama sekolah, harapan lama sekolah, persentase pengeluaran per kapita untuk makanan, tingkat pengangguran terbuka, jumlah penduduk, kepadatan penduduk, dan angka harapan hidup. Terdapat dua pendekatan yang digunakan dalam mengelompokkan kabupaten/kota beserta variabel-variabelnya. Pendekatan pertama adalah mengelompokkan kabupaten/kota dan variabel-variabelnya secara simultan dengan menggunakan metode biclustering plaid model. Pendekatan kedua adalah mengelompokkan kabupaten/kota menggunakan clustering metode Ward dan dilanjutkan dengan metode biplot. Tujuan penelitian ini adalah membandingkan hasil kedua pendekatan tersebut, yaitu hasil biclustering dan hasil cluster-biplot pada data 119 kabupaten/kota di Pulau Jawa pada tahun 2022 berdasarkan indikator kesejahteraan rakyat. Berdasarkan hasil penelitian, didapatkan jumlah kelompok dari kedua pendekatan tersebut adalah sebanyak 2 dengan kelompok 1 merupakan wilayah yang lebih sejahtera daripada kelompok 2. Ditinjau dari nilai standar deviasinya, kelompok hasil biclustering plaid model memiliki nilai standar deviasi yang lebih kecil dibanding kelompok hasil cluster-biplot. Dengan demikian, secara umum pendekatan pertama menghasilkan kelompok yang lebih baik karena lebih homogen dibandingkan dengan pendekatan kedua.

The success of a country's development can be known from the well-being of its people. Improving the welfare of the population is the main goal in the development activities carried out by government. To ensure that development is effective and targeted, grouping is needed to understand the characteristics of the region. This study discusses the grouping of regencies/cities in Java based on the people's welfare indicators in 2022. The measured welfare is material well-being. Variables used in this study are the percentage of the poor population, GDP per capita at current prices, average length of schooling, expected length of schooling, percentage of per capita expenditure on food, open unemployment rate, population, population density, and life expectancy. There are two approaches used in grouping regencies/cities along with their variables. The first approach is to group regencies/cities and their variables simultaneously using plaid model biclustering method. The second approach is to group regencies/cities using the Ward clustering method and then followed by the biplot method. The aim of this study is to compare the results of these two approaches, namely the biclustering results and the cluster-biplot results on data from 119 regencies/cities in Java in 2022 based on people's welfare indicators. Based on the results of this study, the number of groups from each approach is 2, with group 1 being more prosperous than group 2. Judging from the standard deviation values, the plaid model biclustering result groups have lower standard deviation values compared to the cluster-biplot result groups. Therefore, in general the first approach produces better groups as they are more homogeneous compared to the second approach."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Luthfi Azra Aulia
"Kualitas hidup adalah suatu payung yang melingkupi variasi konsep fungsional, status kesehatan, persepsi, kondisi kehidupan, gaya hidup, dan kebahagiaan. Indikator dalam mengukur kualitas hidup terbagi menjadi dua, yakni indikator subjektif dan indikator objektif. Indikator subjektif berkaitan langsung dengan berbagai pengalaman yang seseorang alami dalam hidupnya. Di sisi lain, indikator objektif dikaitkan dengan wujud kepemilikan berbagai material atau faktor eksternal yang mempengaruhi berbagai pengalaman seseorang dalam menjalani kehidupannya. Pada penelitian ini, indikator objektif dipilih sebagai alat ukur kualitas hidup yang mencakup karakteristik sosial, ekonomi, kesehatan, dan lingkungan. Data yang digunakan dalam penelitian terdiri dari dua jenis data, yakni data numerik dan kategorik. Data yang digunakan merupakan data sekunder berisikan indikator objektif kualitas hidup di 82 negara pada tahun 2020. Adapun metode yang digunakan adalah algoritma K-prototypes dan Two Step Cluster (TSC) yang merupakan bagian dari metode pengelompokan nonhierarki dan hierarki serta dapat menangani data bertipe campuran (numerik dan kategorik). Hasil dari penelitian ini menunjukkan bahwa algoritma K-prototypes merupakan metode yang memberikan hasil lebih baik dalam mengelompokkan data penelitian dibandingkan algoritma TSC dengan nilai koefisien Silhouette sebesar 0,577, yang bermakna bahwa kelompok yang terbentuk telah memiliki struktur yang baik. Kelompok optimal yang terbentuk adalah sebanyak 2 kelompok yang disusun oleh 40 negara pada Kelompok 1 dan 42 negara pada Kelompok 2. Kelompok 2 cenderung memiliki profil kualitas hidup yang lebih baik dibandingkan Kelompok 1.

Quality of life is a phrase that covers a variety of functional concepts, health status, perception, living conditions, lifestyle, and happiness. Indicators in measuring quality of life are divided into two, namely subjective indicators and objective indicators. Subjective indicators are measured based on various experiences that people went through in life. On the other hand, objective indicators are measured based on various materials or external factors that affect a person's experiences in everyday life. In this study, objective indicators were chosen as quality measurement tools based on social, economic, health, and environmental characteristics. The data used in the study consisted of two types of data, namely numerical and categorical data. The data is secondary data containing objective indicators of quality of life in 82 countries in 2020. The method used in this research is the K-prototypes and Two Step Cluster (TSC) algorithm which is part of the non-hierarchical and hierarchical grouping method and can handle mixed-type data. The results of this study indicate that the K-prototypes algorithm is a method that gives better results than the TSC algorithm with a silhouette coefficient value of 0.577, which means that the formed group already has a good structure. The optimal groups formed are 2 groups composed of 40 countries in Group 1 and 42 countries in Group 2. Group 2 tends to have a better quality of life profile than Group 1."
Jakarta: Fakultas Kedokteran Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Cynthia
"Dengue adalah salah satu penyakit endemik yang terjadi pada banyak daerah sub tropis dan tropis. Nyamuk Aedes aegypti merupakan vektor utama penyakit dengue. Jumlah insiden dengue telah meningkat secara drastis di seluruh dunia dalam beberapa dekade terakhir. Perubahan iklim dapat menyebabkan perubahan curah hujan, suhu, kelembapan, dan arah udara, sehingga dapat berpengaruh pada perkembangbiakan hidup nyamuk Aedes. Pada skripsi ini, penulis mengimplementasikan algoritma ­K-Medoids dan Fuzzy C-Means Clustering menggunakan jarak Euclidean pada data insiden dengue dan cuaca yang diambil dari kelima wilayah di DKI Jakarta pada tahun 2009 hingga 2016. Variabel yang digunakan terdiri atas rata-rata temperatur, rata-rata kelembapan udara relatif, curah hujan, dan insiden dengue. Proses implementasi dalam skripsi ini dibedakan atas 2 skenario penelitian, yaitu menggunakan 4 variabel yang telah disebutkan di atas dan 3 variabel (variabel yang sama seperti sebelumnya, namun tanpa variabel insiden dengue). Tujuan penelitian dalam skripsi ini adalah menganalisis keterkaitan antara variabel cuaca tersebut dan insiden dengue dari kelima wilayah di DKI Jakarta. Untuk menentukan jumlah klaster yang digunakan, pada metode K-Medoids Clustering dilakukan perhitungan Silhouette Coefficient dan pada metode Fuzzy C-Means Clustering dilakukan perhitungan Modified Partition Coefficient. Hasil menunjukkan bahwa terdapat korelasi yang cenderung positif antara insiden dengue dengan rata-rata kelembapan udara relatif dan jumlah curah hujan di DKI Jakarta. Sementara itu, terdapat korelasi yang cenderung negatif antara jumlah insiden dengue dengan rata-rata temperatur di DKI Jakarta. Hasil dari kedua skenario menunjukkan bahwa terdapat kemiripan nilai rata-rata temperatur yang terjadi antara Jakarta Pusat dan Jakarta Utara, serta antara Jakarta Timur, Jakarta Selatan, dan Jakarta Barat. Kemiripan nilai rata-rata kelembapan udara relatif juga terjadi pada wilayah-wilayah seperti yang telah disebutkan sebelumnya. Hasil dari kedua skenario juga menunjukkan bahwa insiden dengue yang terjadi di Jakarta Pusat dan Jakarta Utara cenderung lebih rendah dari Jakarta Timur, Jakarta Barat, dan Jakarta Selatan. Berdasarkan hasil yang diperoleh, pembentukan klaster pada skenario pertama cenderung dipengaruhi oleh jumlah insiden dengue. Sementara itu, pembentukan klaster pada skenario kedua cenderung dipengaruhi oleh jumlah curah hujan.

Dengue is an endemic disease prevalent in sub-tropical and tropical regions. The Aedes aegypti mosquito is the main vector of dengue. Dengue incidence has been rising dramatically throughout the last few decades. Climate change may lead to changes in rainfall, temperature, humidity, and wind direction, so that it can affect the breeding of Aedes mosquitoes. In this study, we employ K-Medoids Clustering and Fuzzy C-Means (FCM) Clustering algorithms using Euclidean distance on five regions in DKI Jakarta every year from 2009 to 2016. The variables used consist of average temperature, average relative humidity, rainfall, and dengue incidence. The implementation process in this study is divided into 2 research scenarios. Firstly using the 4 variables that was mentioned above, and secondly using 3 variables (the same variables as before, but without the dengue incidence variable). The purpose of this study is to analyze the relationships between these weather variables and dengue incidence in the five regions in DKI Jakarta. In order to determine the number of clusters used, for K-Medoids Clustering we determine the Silhouette Coefficient, and for Fuzzy C-Means Clustering we determine the Modified Partition Coefficient. The results show that there tends to be a positive correlation between the number of dengue incidence with average relative humidity and the amount of rainfall. On the other hand, there tends to be a negative correlation between the number of dengue incidence with the average temperature. The results of the two scenarios show that there are similarities in the average temperature between Central Jakarta and North Jakarta, as well as between the East Jakarta, South Jakarta, and West Jakarta. Similarities in the average relative humidity also occur in the areas mentioned before. The results of both scenarios also show that the dengue incidence in Central Jakarta and North Jakarta tend to be lower than in East Jakarta, West Jakarta, and South Jakarta. Based on the results, cluster formation in the first scenario tends to be influenced by the number of dengue incidence. Meanwhile, cluster formation in the second scenario tends to be influenced by the amount of rainfall."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sarah Syarofina
"Inhibitor dipeptidil peptidase 4 (DPP-4) baru perlu dikembangkan untuk meminimalkan efek samping merugikan yang diakibatkan oleh obat golongan inhibitor DPP-4 yang telah terdaftar. Penelitian ini bertujuan untuk menghasilkan subset molekul inhibitor DPP-4 yang representatif dengan mengaplikasikan algoritma K-Modes clustering dengan Levenshtein distance pada proses clustering dan melakukan analisis pemilihan molekul inhibitor DPP-4 berdasarkan kriteria nilai logP dari aturan Lipinskis Rule of 5. 2053 molekul inhibitor DPP-4 diperoleh dari situs ChEMBL. Clustering dilakukan terhadap fingerprint molekuler inhibitor DPP-4 yang diperoleh dari fitur SMILES (Simplified Molecular Input Line Entry System). Metode MACCS (Molecular Access System) Keys, ECFP (Extended Connectivity Fingerprint) diameter 4 dan 6, dan FCFP (Functional Class Fingerprint) diameter 4 dan 6, digunakan untuk membangun lima dataset fingerprint untuk proses clustering. Prosedur clustering diawali dengan menentukan jumlah klaster dengan menghitung nilai Koefisien Silhouette sebagai metode evaluasi klaster. Penerapan algoritma K-Modes clustering dengan Levenshtein distance pada 2053 molekul inhibitor DPP-4 menghasilkan nilai Koefisien Silhouette maksimal dari dataset MACCS sebesar 0.3947 dengan jumlah klaster 1258. Pemilihan molekul berdasarkan kriteria nilai logP dan aturan Lipinskis Rule of 5 menghasilkan 778 molekul inhibitor DPP-4 dari semua dataset dengan 298 molekul inaktif dan 480 molekul aktif dan nilai logP berkisar antara -1.67 sampai dengan 4.97.


New dipeptidyl peptidase 4 (DPP-4) inhibitors need to be developed to minimize the adverse side effects caused by registered DPP-4 inhibitor drugs. This study aims to produce a representative subset of DPP-4 inhibitor molecules by applying the K-Modes clustering algorithm with Levenshtein distance in the clustering process and analyzing the selection of DPP-4 inhibitor molecules based on the logP value criteria. 2053 DPP-4 inhibitor molecules obtained from the ChEMBL website. Clustering was carried out on the molecular fingerprint obtained from the SMILES feature. The MACCS Keys, ECFP (diameter 4 and 6), and FCFP (diameter 4 and 6) methods were used to construct fingerprint datasets for the clustering process. The clustering procedure begins by determining the number of clusters by calculating the Silhouette Coefficient value. The application of the K-Modes clustering with Levenshtein distance to 2053 DPP-4 inhibitor molecules resulted in the maximum Silhouette Coefficient value of the MACCS dataset of 0.3947 with the number of clusters 1258. Selection of molecules based on logP value criteria and Lipinskis Rule of 5 resulted in 778 DPP-4 inhibitor molecules. of all the datasets with 298 inactive molecules and 480 active molecules and the logP value ranged from -1.67 to 4.97.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Nisa Nurul Hidayah
"Triclustering digunakan untuk mengelompokkan data tiga dimensi secara simultan. Metode triclustering yang digunakan pada penelitian ini adalah gabungan 𝛿-Trimax dengan Fuzzy Cuckoo search (FCS) berdasarkan Lévy Flight. Data yang digunakan adalah data ekspresi gen dari proses diferensiasi human induced pluripoten stem cell (HiPSC) pada penderita penyakit jantung. Tahap awal adalah mencari populasi solusi tricluster homogen menggunakan metode 𝛿-Trimax. Penentuan nilai skala 𝛿 untuk menjalankan algoritma pada tahap populasi awal dilakukan menggunakan metode silhouette coefficient. Algoritma 𝛿-Trimax yang digunakan pada penelitian ini adalah algoritma Muliple Nodes Deletions dan Single Node Deletions. Tricluster yang didapatkan dari tahap 𝛿- Trimax selanjutnya akan dioptimasi menggunakan metode Fuzzy Cuckoo search berdasarkan Lévy Flight. Solusi tricluster yang berpotensi meningkatkan nilai fungsi objektif akan diganti menggunakan local random walk. Kumpulan tricluster yang terbentuk dari tahap optimasi akan dievaluasi menggunakan metode Tricluster Quality Index (TQI). Solusi tricluster terbaik yang diterapkan pada dataset tiga dimensi penyakit jantung didapatkan dari penggunaan nilai skala 𝛿 = 0,026 dan 𝜃 = 1,7. Solusi tricluster terbaik dianalisis lebih lanjut menggunakan Gene Ontology (GO) untuk menjelaskan keterkaitan gen-gen terhadap proses biologis, fungsi molekuler, dan komponen seluler.

Triclustering is used to group three-dimensional data simultaneously. The triclustering method used in this research is a combination of δ-Trimax with Fuzzy Cuckoo search (FCS) based on Lévy Flight. The threedimensional data used is gene expression data from the human induced pluripotent stem cell (HiPSC) differentiation process in heart disease sufferers. The initial stage finds a homogeneous population of tricluster solutions using the δ-Trimax method. Determining the δ scale value for running the algorithm at the initial population stage is carried out using the silhouette coefficient method. The δ-Trimax algorithm used in this research is the Multiple Nodes Deletions and Single Node Deletions algorithms. The tricluster obtained from the δ-Trimax stage will then be optimized using the Fuzzy Cuckoo search method based on Lévy Flight. The tricluster solution which has the potential to increase the objective function value will be replaced using a local random walk. The tricluster collection formed from the optimization stage will be evaluated using the Tricluster Quality Index (TQI) method. The best tricluster solution applied to a three-dimensional heart disease dataset was obtained from using scale values δ = 0,026 and θ = 1,7. The best tricluster solution was further analyzed using Gene Ontology (GO) to explain the relationship of genes to biological processes, molecular functions, and cellular components.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Situmeang, Jason Nimrod Joshua
"

Penelitian ini bertujuan untuk melakukan pengelompokan varian virus SARS-CoV-2 melalui proses clustering menggunakan metode unsupervised learning. Data yang digunakan adalah sekuens protein SARS-CoV-2 yang diekstraksi fiturnya menggunakan paket Discere dalam bahasa pemrograman Python. Sebanyak 27 fitur dihasilkan dan diseleksi dengan metode seleksi fitur Least Absolute Shrinkage and Selection Operator (LASSO). Metode Elbow digunakan untuk menentukan jumlah cluster yang optimal. Dalam penelitian ini, digunakan metode clustering K-Means dan Balanced Iterative Reducing and Clustering using Hierarchies (BIRCH). Evaluasi hasil clustering dilakukan menggunakan metrik evaluasi Silhouette Score dan Davies-Bouldin Index, serta memperhatikan waktu runtime untuk setiap simulasi. Hasil evaluasi kemudian dibandingkan untuk melihat perbedaan performa antara kedua metode clustering yang digunakan, serta pengaruh seleksi fitur terhadap performa clustering. Hasil terbaik diperoleh pada simulasi dengan metode clustering BIRCH + LASSO, dengan nilai Silhouette Score 0,74186 untuk jumlah cluster k=4 dan 0,73207 untuk k=5. Nilai Davies-Bouldin Index terbaik juga diperoleh pada simulasi tersebut, yaitu 0,42697 untuk k=4 dan 0,37949 untuk k=5. Waktu runtime terbaik tercatat pada simulasi dengan metode K-Means + LASSO, yaitu 0,21551 detik untuk k=4 dan 0,17539 detik untuk k=5. Dapat disimpulkan bahwa metode BIRCH menghasilkan cluster yang lebih baik berdasarkan metrik evaluasi, namun K-Means memberikan proses clustering yang lebih cepat. Seleksi fitur dengan metode LASSO juga membantu meningkatkan performa clustering.


This study aims to perform clustering of SARS-CoV-2 virus variants using unsupervised learning methods. The data used consists of SARS-CoV-2 protein sequences whose features are extracted using the Discere package in the Python programming language. A total of 27 features are generated and selected using the Least Absolute Shrinkage and Selection Operator (LASSO) feature selection method. The Elbow method is employed to determine the optimal number of clusters for the clustering process. The clustering methods used in this research are K-Means clustering and Balanced Iterative Reducing and Clustering using Hierarchies (BIRCH). The clustering results are evaluated using the Silhouette Score and Davies-Bouldin Index metrics, while also considering the runtime for each simulation. The evaluation results are then compared to examine the performance differences between the two clustering methods and the impact of feature selection on clustering performance. The best Silhouette Score is obtained in the simulation using the BIRCH + LASSO clustering method, with a value of 0.74186 for k=4 and 0.73207 for k=5. The best Davies-Bouldin Index is also achieved in the same simulation, with values of 0.42697 for k=4 and 0.37949 for k=5. The fastest runtime is recorded in the simulation using the K-Means + LASSO method, with a time of 0.21551 seconds for k=4 and 0.17539 seconds for k=5. In conclusion, the BIRCH method yields better clustering results based on the evaluation metrics, while K-Means provides faster clustering processes. The LASSO feature selection method also aids in improving clustering performance.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Evan Haryowidyatna
"Per 9 Februari 2023, 87% dari total populasi kendaraan pribadi di Indonesia merupakan sepeda motor. Persebaran sepeda motor terpadat di Indonesia berada di Pulau Jawa dengan persentase sebesar 60%. Tingginya populasi sepeda motor dan fakta bahwa 80% rumah tangga di Pulau Jawa sudah memiliki sepeda motor membuat pasar sepeda motor semakin mengecil. Dalam jangka panjang, kondisi ini dapat berdampak buruk bagi industri sepeda motor yang terus ingin berkembang. Penelitian ini membahas tentang pengelompokan kabupaten dan kota di Pulau Jawa berdasarkan karakteristik demografinya. Kemudian, diberikan saran keputusan yang dapat dilakukan oleh industri sepeda motor berdasarkan kelompok kabupaten dan kota yang terbentuk menggunakan teknik clustering. Hal ini bertujuan agar produsen yang bergerak di industri sepeda motor dapat memfokuskan produknya pada kelompok kabupaten dan kota yang memiliki potensi terbaik. Terdapat 12 variabel demografi yang digunakan dalam penelitian ini, dan variabel tersebut terbagi menjadi tiga kategori: kondisi ekonomi masyarakat, kondisi kehidupan masyarakat, dan kondisi demografis daerah. Metode yang digunakan dalam penelitian ini adalah metode partitional hard clustering. Sebelumnya, dilakukan pembuatan dataset melalui proses data scrapping pada situs terpercaya, dan dilanjutkan dengan proses Exploratory Data Analysis (EDA) pada dataset. Setelah dataset terbentuk, dilakukan pengelompokan dengan metode partitional hard clustering yang terdiri dari metode K-Means Clustering dan metode K-Medoids Clustering. Kemudian, dilakukan evaluasi cluster untuk menentukan metode clustering yang paling sesuai dengan menggunakan empat metrik evaluasi yaitu Indeks Silhouette, Indeks Dunn, Indeks Davies Bouldin, dan Indeks Calinski Harabasz. Didapatkan hasil bahwa metode K-Medoids Clustering dengan 5 kelompok merupakan yang terbaik untuk mengelompokkan kabupaten dan kota di Pulau Jawa. Setelah kelompok terbentuk, setiap kelompok diberikan rekomendasi keputusan yang sebaiknya diambil oleh industri sepeda motor. Terdapat 4 rekomendasi yang dapat diberikan, yaitu distribusi suku cadang, pembuatan bengkel, penjualan sepeda motor kelas menengah ke atas, dan penjualan sepeda motor kelas menengah ke bawah.

As of February 9, 2023, 87% of the total population of private vehicles in Indonesia consists of motorcycles. The densest distribution of motorcycles in Indonesia is found on the Island of Java, with a percentage of 60%. The high population of motorcycles and the fact that 80% of households in Java already have motorcycles are causing the motorcycle market to shrink. In the long run, this condition can have negative impacts on the motorcycle industry that continues to seek growth. This research focuses on the clustering of regencies and cities in Java based on their demographic characteristics. Subsequently, decision recommendations will be provided for the motorcycle industry based on the formed groups using clustering techniques. The aim is to enable manufacturers in the motorcycle industry to focus their products on regencies and cities with the best potential. There are 12 demographic variables used in this research, divided into three categories: the economic conditions of society, the living conditions of society, and the demographic conditions of the region. The method used in this research is the partitional hard clustering method. Firstly, a dataset is created through the data scraping process on trusted sites, followed by the Exploratory Data Analysis (EDA) process on the dataset. Once the dataset is formed, clustering is performed using the partitional hard clustering method, consisting of the K-Means Clustering and K-Medoids Clustering methods. Subsequently, cluster evaluation is carried out to determine the most suitable clustering method using four evaluation metrics: Silhouette Index, Dunn Index, Davies Bouldin Index, and Calinski Harabasz Index. The results show that the K-Medoids Clustering method with 5 clusters is the best for grouping regencies and cities in Java. After the groups are formed, each group is given decision recommendations that the motorcycle industry should consider. There are four recommendations: spare parts distribution, workshop establishment, sales of mid- to high-end motorcycles, and sales of mid-range motorcycles and below."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sinaga, Victor Lamboy
"Software Define Wide Area Network (SDWAN) merupakan salah satu solusi pemanfaatan teknologi dalam proses pengiriman informasi. SDWAN didesain dengan memisahkan antara control plane dan data plane dengan menerapkan konsep Software Define Nework (SDN) sehingga penggunaan perangkat fisik dapat digunakan lebih efektif dan efisien. Pengiriman informasi akan diatur oleh controller yang berfungsi sebagai pengatur penjadwalan, antrian, dan prioritas pengiriman paket data yang dikirimkan pada topologi jaringan SDWAN. Pengaturan tersebut membutuhkan algoritma sehingga pengiriman paket akan efektif dan efisien dengan segala resource yang tersedia pada jaringan. Dengan jumlah node yang banyak dan menyebar, dibutuhkan pengelompokan node untuk memudahkan pengendalian dan pengawasan yang membutuhkan controller di setiap cluster. Selain memudahkan pengawasan dan pengendalian, pemasangan multi-controller juga akan meningkatkan kualitas layanan jaringan seperti control plane akan terhindar dari congestion yang terjadi akibat trafik padat yang dikirimkan oleh data plane. Pemasangan node pada SDWAN akan membutuhkan jumlah controller yang mengatur kinerja sehingga membutuhkan penempatan yang efektif dan efisien. Penempatan controller yang optimal akan meningkatkan performansi dari jaringan. Pada penelitian ini, penentuan lokasi controller yang optimal membutuhkan berbagai metode yang saling terhubung satu sama lain. Adapaun algoritma yang digunakan seperti metode Haversine, algoritma Johnson, algoritma Partition Around Medoids (PAM), dan kemudian dianalisa dengan menggunakan Silhouette. Dengan jumlah node dan lokasi yang diperoleh dari Zootopology, pada penelitian ini menggunakan jaringan Biznet, kemudian diperoleh rekomendasi jumlah controller optimal dengan menggunakan metode evaluasi Silhouette, Gap, Calinski-Harabasz, dan Davise-Bouldien. Hasil dengan menggunakan algoritma penelitian diperoleh titik optimal dengan menentukan jumlah controller dan rekomendasi jumlah controller optimal. Pada penelitian ini, jumlah controller dan rekomendasi jumlah controller optimal. Pada penelitian ini, jumlah controller pada jaringan Biznet dengan 29 node yang paling optimal pada penelitian ini adalah dua buah controller dengan nilai rata-rata analisis Silhouette sebesar 0.51846.

Software Define Wide Area Network (SDWAN) is a solution for utilizing technology in the process of sending information. SDWAN is designed by separating the control plane and data plane by applying the Software Define Network (SDN) concept so that the use of physical devices can be used more effectively and efficiently. Delivery of information will be regulated by a controller that functions as a regulator of scheduling, queuing, and priority of sending data packets sent on the SDWAN network topology. These settings require an algorithm so that packet delivery will be effective and efficient with all available resources on the network. With a large number of nodes and spread, node grouping is needed to facilitate control and supervision that requires a controller in each cluster. In addition to facilitating supervision and control, the installation of multi-controllers will also improve the quality of network services such as the control plane, which will avoid congestion that occurs due to heavy traffic sent by the data plane. Installation of nodes on SDWAN will require a number of controllers that regulate performance so that it requires effective and efficient placement. Optimal controller placement will improve the performance of the network. In this study, determining the optimal controller location requires various methods that are interconnected with each other. The algorithms used are the Haversine method, Johnson's algorithm, Partition Around Medoids (PAM) algorithm, and then analyzed using Silhouette. With the number of nodes and locations obtained from Zootopology, in this study using the Biznet network, then the recommendation for the optimal number of controllers is obtained using the Silhouette, Gap, Calinski-Harabasz, and Davise-Bouldien evaluation methods. The results using the research algorithm obtained the optimal point by determining the number of controllers and recommendations for the optimal number of controllers. In this study, the most optimal number of controllers on the Biznet network with 29 nodes in this study were two controllers with an average value of Silhouette analysis of 0.51846."
Depok: Fakultas Teknik Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library