Hasil Pencarian

Ditemukan 157890 dokumen yang sesuai dengan query

Dendy Tryanda

Penerapan Analisis Data Menggunakan Algoritma k-Means Clustering untuk Perluasan Jasa Layanan Telekomunikasi-Studi Kasus pada Perusahaan Telekomunikasi = Implementation of Data Analysis Using k-Means Clustering Algorithm for the Expansion of Telecommunications Services-Case Study on Telecommunications Companies

"Produk internet fixed broadband atau produk internet menggunakan kabel merupakan produk yang jarang digunakan oleh masyarakat Indonesia, padahal di era Covid-19 dengan sistem work from home, masyarakat membutuhkan kualitas internet yang baik. Penelitian ini bertujuan untuk membantu PT ABC mendapatkan pelanggan baru dengan melakukan cross-selling produk terhadap pelanggan dari anak perusahaannya yaitu PT XYZ yang juga menggunakan produk internet fixed broadband namun bukan produk dari PT ABC dengan menggunakan metode machine learning jenis unsupervised learning dengan jenis clustering partisi dengan algoritma k-means clustering dengan menggunakan tool KNIME untuk proses k-means clustering dan tool R Programming untuk proses pencarian cluster jumlah optimal. Hasil dari algoritma ini menemukan bahwa terdapat empat jenis cluster pelanggan PT XYZ yang karakteristiknya dapat dilihat dari sisi pendapatan yang didapat dari hasil korelasi data, cluster 2 dan cluster 3 merupakan cluster potensial dengan 2123 pelanggan dan area yang memiliki sedikit pelanggan adalah area 1 dan area 4, lalu estimasi pendapatan minimum yang akan dihasilkan adalah Rp 8.937.830.000.

Internet fixed broadband products or internet products using cables is a products that are rarely used by Indonesian people, even though in the Covid-19 era with a work from home system, people need a good quality internet. This study aims to help PT ABC get new customers by cross-selling products to customers of its subsidiary PT XYZ who also use internet fixed broadband products, but not products from PT ABC by using the machine learning method unsupervised learning types with partition clustering and the k-means clustering algorithm using the KNIME tool for the k-means clustering process and the R Programming tool for the process of finding the optimal number of clusters. The result of this algorithm finds that there are four types of PT XYZ customer clusters whose characteristics we can see from the revenue side from the results of data correlation, cluster 2 and cluster 3 are potential clusters with 2123 customers and areas that have few customers are area 1 and area 4, then the estimated minimum revenue that will be generated is IDR 8,937,830,000."

Jakarta: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2022

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Frisca

Implementasi spectral clustering pada data microarray gen karsinoma menggunakan algoritma K-means = The implementation of spectral clustering on microarray data on carcinoma genes using K-means algorithm

"Spectral clustering adalah salah satu algoritma clustering modern yang paling terkenal. Sebagai teknik clustering yang efektif, metode spectral clustering muncul dari konsep teori graf spektral. Metode spectral clustering membutuhkan algoritma partisi. Ada beberapa metode partisi termasuk PAM, SOM, Fuzzy c-means, dan k-means. Berdasarkan penelitian yang telah dilakukan oleh Capital dan Choudhury pada 2013, ketika menggunakan Euclidian distance, k-means memberikan akurasi yang lebih baik dibandingkan dengan algoritma PAM. sehingga, makalah ini menggunakan algoritma k-means. Keuntungan utama dari spectral clustering adalah mengurangi dimensi data, terutama dalam hal ini untuk mengurangi dimensi yang besar dari data microarray.

Microarray data adalah chip berukuran kecil yang terbuat dari slide kaca yang berisi ribuan bahkan puluhan ribu jenis gen dalam fragmen DNA yang berasal dari cDNA. Aplikasi data microarray secara luas digunakan untuk mendeteksi kanker, misalnya adalah karsinoma, di mana sel-sel kanker mengekspresikan kelainan pada gen-nya. Proses spectral clustering dimulai dengan pengumpulan data microarray gen karsinoma, preprocessing, menghitung similaritas, menghitung , menghitung nilai eigen dari , membentuk matriks , dan clustering dengan menggunakan k-means. Dari hasil pengelompokan gen karsinoma pada penelitian ini diperoleh dua kelompok dengan nilai rata-rata Silhouette maksimal adalah 0.6336247. Proses clustering pada penelitian ini menggunakan program open source R.

Spectral clustering is one of the most famous modern clustering algorithms. As an effective clustering technique, spectral clustering method emerged from the concepts of spectral graph theory. Spectral clustering method needs partitioning algorithm. There are some partitioning methods including PAM, SOM, Fuzzy c means, and k means. Based on the research that has been done by Capital and Choudhury in 2013, when using Euclidian distance k means algorithm provide better accuracy than PAM algorithm. So in this paper we use k means as our partition algorithm. The major advantage of spectral clustering is in reducing data dimension, especially in this case to reduce the dimension of large microarray dataset.
Microarray data is a small sized chip made of a glass plate containing thousands and even tens of thousands kinds of genes in the DNA fragments derived from doubling cDNA. Application of microarray data is widely used to detect cancer, for the example is carcinoma, in which cancer cells express the abnormalities in his genes. The spectral clustering process is started with collecting microarray data of carcinoma genes, preprocessing, compute similarity matrix, compute , compute eigen value of , compute , clustering using k means algorithm. In this research, Carcinoma microarray data using 7457 genes. The result of partitioning using k means algorithm is two clusters clusters with maximum Silhouette value 0.6336247."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017

T47117

UI - Tesis Membership Universitas Indonesia Library

Khoirul Umam

Penerapan TWO-level hybrid clustering menggunakan algoritma K-means dan algoritma diana pada barisan DNA human papillomavirus (HPV) = The implementation of two level hybrid clustering using k means algorithm and diana algorithm on DNA sequence of human papillomavirus (HPV)

"DNA adalah salah satu pembawa informasi genetik pada makhluk hidup. Sequencing dan clustering barisan DNA telah menjadi pekerjaan utama dan rutin dalam dunia biologi molekuler, khususnya dalam bidang terapan bioinformatika. Secara umum metode clustering dapat dibedakan menjadi dua, yaitu hirarki clustering dan partisi clustering. Penelitian ini menggabungkan dua metode clustering yaitu K-Means partisi clustering pada Level 1 dan DIANA hirarki clustering pada Level 2, oleh karena itu disebut Two-Level Hybrid Clustering. Proses awal dimulai dengan mengumpulkan barisan DNA HPV yang diperoleh dari NCBI National Centre for Biotechnology Information, Ekstraksi Ciri, dan Normalisasi. Kemudian melakukan proses clustering menggunakan algoritma K-Means pada Level 1 dan algoritma DIANA pada Level 2. Untuk menghitung jarak genetik antar barisan DNA HPV digunakan persamaan Euclidian Distance. Dan validitas klaster yang digunakan untuk menentukan banyaknya klaster yang optimum adalah Indeks Davies-Bouldin IDB. Hasil penerapan Two-Level Hybrid Clustering pada 1252 barisan DNA HPV adalah data dikelompokan menjadi 4 klaster dengan nilai IDB yaitu 0.859154564. Semua perhitungan dan proses clustering menggunakan software R.

DNA is one of the carrier of genetic information in living organisms. Sequencing and clustering DNA sequences has become the key and routine activitis in the molecular biology, in particular on bioinformatics applications. There are two type of clustering, hierarchical clustering and partitioning clustering. In this paper, we combine two type clustering proccesses including K Means partitioning clustering on Level 1 and DIANA hierarchical clustering on Level 2, therefore it called Two Level Hybrid clustering. The beginning of process is started with collecting DNA sequences of HPV from NCBI National Centre for Biotechnology Information, Characteristics Extraction, and Normalization. The next step is clustering by implementation K Means algorithm on Level 1 and DIANA algorithm on Level 2. To calculate the genetic distance we use Euclidian Distance. Moreover, in validating cluster results in order to get optimum number of clusters, we use Davies Bouldin Index DBI. The result of implementation of Two Level Hybrid Clustering on 1252 sequences of HPV is the data clustered into 4 clusters with minimal IDB value is 0.859154564. All calculating and clustering process in this paper using software R."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017

T47109

UI - Tesis Membership Universitas Indonesia Library

Nidaul Muiz Aufa

Analisis big data penyebaran Malware Avalanche Berbasis Clustering dengan Algoritma K-means pada Infrastruktur Internet Indonesia = Big data analysis of Clustering-Based Avalanche Malware Spread with K-means Algorithm on Indonesia's Internet Infrastructure

"Tesis ini membahas penyebaran malware Avalanche pada infrastruktur internet Indonesia. Penelitian dilakukan dengan metode analisis big data dengan menggunakan Algoritma K-mean (k=3). Dataset pada penelitian ini menggunakan dataset yang diperoleh dari CERT-bund. Hasil penelitian ini menggambarkan bahwa infrastruktur internet Indonesia masih terinfeksi malware Avalanche dengan aktivitas sebanyak 44.254.374 sepanjang tahun 2018 dan 2019. Aktivitas ini melibatkan 969 AS Number, 3.173.254 IP Address, dan 26 jenis malware. Hasil Clustering menggunakan Splunk terhadap AS Number dan IP Address menghasilkan masing-masing 3 cluster. Cluster AS Number yang paling produktif

adalah cluster1 yang memiliki populasi 3 AS Number. Sedangkan Cluster IP Address yang paling produktif adalah cluster1 dengan populasi 32.991 IP Address.

This thesis discusses the spread of Avalanche malware on Indonesian internet infrastructure. The research was conducted by using the big data analysis method using the K-mean algorithm (k = 3). The dataset in this study was obtained from the CERT-bund. The results of this study illustrate that Indonesia's cyber infrastructure is still infected with Avalanche malware with a total of 44,254,374 activities throughout 2018 and 2019. This activity involved 969 AS Numbers, 3,173,254 IP Addresses, and 26 types of malware. The results of clustering using Splunk on the AS Number and IP Address resulted in 3 clusters each. The most productive AS Number cluster is cluster1 which has a population of 3 AS Number. Meanwhile, the most productive cluster IP address is cluster1 with a population of 32,991 IP addresses."

Jakarta: Fakultas Kedokteran Universitas Indonesia, 2021

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Bambang Novianto

Analisis Kerentanan pada Autonomous System Number di Indonesia Berdasarkan Data Shodan dengan Menggunakan Algoritma K-Means Clustering = Vulnerability Analysis of Autonomous System Number (ASN) from Indonesia Based on Exposure Data in Shodan with K-Means Clustering

"Pertumbuhan pemanfaatan internet telah meningkatkan perhatian terhadap keamanan data. Pada tahun 2014, Projek SHINE (SHodan Intelligence Extraction) telah menerbitkan laporan penilaian keamanan skala besar untuk perangkat yang terhubung ke Internet. Namun, berdasarkan laporan tersebut, jumlah informasi mengenai IP address Indonesia yang berhasil didapatkan masih sedikit. Terdapat sebanyak 7.182 IP address dari Indonesia, yaitu sekitar 0,0032% dari total 2.186.971 IP address yang berhasil dikumpulkan oleh Projek SHINE. Dalam penulisan tesis ini, penulis mengajukan inisiatif untuk melakukan analisis kerentanan semua informasi Autonomous System Number (AS Number) di Indonesia dari Shodan. Penulis telah menyusun dataset semua informasi AS Number di Indonesia antara lain 12.787 port, 79 sistem operasi, 409 produk, 3.634 domain, 145.543 IP address, dan 790 organisasi. Penulis menggunakan algoritma K-Means clustering untuk mengelompokkan AS Number ke dalam beberapa kelas sesuai dengan tingkat paparan di shodan. Berdasarkan hasil pengelompokan, penulis mendapatkan 4 kelas AS Number antara lain 1.075 AS Number di kelas: 0 (belum terdapat informasi mengenai AS Number tersebut di Shodan), 614 AS Number di kelas: 1 (tingkat paparan rendah), 9 AS Number di kelas: 2 (tingkat paparan sedang), dan 1 AS Number di kelas: 3 (tingkat paparan tinggi). Informasi ini dapat dimanfaatkan oleh Kementerian yang menangani bidang Teknologi Informasi dan Komunikasi dan Badan yang menangani Keamanan Siber di Indonesia untuk menghimbau organisasi pengelola AS Number agar mewaspadai potensi kerentanan yang dinformasikan oleh Shodan dan dimanfaatkan oleh hacker.

The growth of internet-enabled devices has increased interest in cybersecurity. In 2014, Project SHINE (SHodan INtelligence Extraction) published a report of large-scale security assessments for devices connected to the Internet. However, the number of IP addresses harvested from Indonesia in 2014 is very small. There were 7.182 IP address from Indonesia. It was about 0,0032% from the total 2.186.971 IP addresses. In this paper, we propose an initiative to gather all information for all Autonomous System Number (AS Number) from Indonesia in Shodan. We have gathered a dataset about all information of AS Numbers in Indonesia such as 12.787 unique ports, 79 unique operating systems, 409 unique products, 3.634 unique domains, 145.543 unique IP addresses, and 790 unique organizations. We use the K-Means algorithm to cluster all AS Numbers into several classes according to the exposure level in shodan. Based on the result, we have 4 classes of AS Numbers. There are 1.075 AS Numbers in class:0 (no information in Shodan yet), 614 AS Numbers in class:1 (exposure level = low), 9 AS Numbers in class:2 (exposure level = medium), and 1 AS Number in class:3 (exposure level = high). This information can be used to warn the organizations that manage AS Numbers in Indonesia to be aware of the security and the threats to their systems."

Jakarta: Fakultas Teknik Universitas Indonesia, 2020

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Sari Gita Fitri

Implementasi algoritma kernel K-Means based Co-clustering untuk memprediksi penyakit kanker paru-paru = :Implementation of K-Means-based K-Means Kernel algorithm to predict lung cancer

"Kanker adalah penyakit yang disebabkan oleh ketidakteraturan perjalanan hormon yang mengakibatkan tumbuhnya daging pada jaringan tubuh yang normal atau sering dikenal sebagai tumor ganas. Kanker terjadi saat sel-sel dalam tubuh membelah diri diluar kendali. Sel-sel abnormal ini kemudian menyerang jaringan terdekat. Salah satu kanker yang paling umum terjadi adalah kanker paru-paru. Kanker paru-paru adalah kanker yang dimulai di paru-paru dan paling sering terjadi pada orang yang merokok. Paru-paru kanan memiliki 3 bagian, yang disebut dengan lobus, sedangkan paru-paru kiri memiliki 2 lobus. Kanker paru-paru merupakan penyebab utama kematian terkait kanker di seluruh dunia dengan 30%-40% terjadi di negara berkembang. Untuk memprediksi apakah seseorang menderita kanker paru-paru atau tidak dapat dilihat dari terdapatnya tumor ganas pada paru-paru yang dapat dilakukan melalui CT scan. Namun, hasil CT scan tidak cukup dalam mendeteksi atau mendiagnosis secara dini terdapatnya tumor ganas di dalam paru-paru. Untuk itu, dapat digunakan machine learning dalam mendeteksi secara dini adanya tumor ganas di dalam paru-paru. Dalam penelitian ini, penulis menggunakan Kernel K-Means based Co-clustering yang merupakan pengembangan dari K-Means based Co-clustering. K-Means mengelompokkan data menggunakan jarak Euclidean. Akan tetapi, jika data yang dipisahkan adalah data nonlinear, maka konvergensi dari data yang dipisahkan tersebut akan kecil dan membutuhkan waktu yang lama, sehingga masalah ini dapat diselesaikan dengan menggunakan fungsi kernel untuk menggantikan jarak Euclidean.Co-clustering mempartisi baris dan kolom dari suatu matriks data secara simultan, sehingga blok yang diinduksi oleh partisi adalah klaster yang baik. Metode Kernel K-Means based Co-clustering memasukkan banyak titik untuk mewakili masing-masing pusat klaster, sehingga titik-titik di dalam klaster saling berdekatan, akan tetapi jauh dari titik yang mewakili klaster lain. Data yang digunakan adalah data kanker paru-paru yang diperoleh dari laboratorium radiologi RSUPN Cipto Mangunkusumo, Jakarta. Hasil akurasi yang diperoleh untuk memprediksi penyakit kanker paru-paru dengan menggunakan metode Kernel K-Means based Co-clustering adalah 94,5%.

Cancer is a disease caused by an irregular course of hormones that results in the growth of flesh in normal body tissues or often known as malignant tumors. Cancer occurs when cells in the body divide out of control. These abnormal cells then attack nearby tissues. One of the most common cancers is lung cancer. Lung cancer is cancer that starts in the lungs and most often occurs in people who smoke. The right lung has 3 parts, which are called lobes, while the left lung has 2 lobes. Lung cancer is the leading cause of cancer-related deaths worldwide with 30%-40% occurring in developing countries. To predict whether someone has lung cancer or can not be seen from the presence of malignant tumors in the lungs that can be done through a CT scan. However, CT scan results are not enough to detect or diagnose the presence of malignant tumors early in the lungs. For this reason, machine learning can be used to detect malignant tumors early in the lungs. In this research, the writer usesKernel K-Meansbased Co-clustering which is the development of K-Means-based Co-clustering. K-Means groups data using Euclidean distances. However, if the separated data is non-linear data, the convergence will be small and take a long time, so this problem can be solved by using the kernel function to replace the Euclidean distance. Co-clustering partitioned rows and columns of a data matrix simultaneously, so the blocks induced by partitions are good clusters. Kernel K-Meansbased Co-clustering method includes many points to represent each cluster center, so that the points within the cluster are close together, but far from the points representing other clusters. The data used are lung cancer data obtained from the radiology laboratory of Cipto Mangunkusumo General Hospital, Jakarta. Accuracy results obtained to predict lung cancer by using the Kernel K-Meansbased Co-clustering method are 94.5%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Eka Kurnia Sari

Optimalisasi analisis big data call detail record pada revenue assurance control dengan metode K-means clustering = Optimization of big data call detail record analysis in revenue assurance control using K-means clustering

"Perkembangan sistem teknologi telekomunikasi yang semakin canggih dan kompleks memicu meningkatnya kegagalan ataupun kesalahan sistem dalam sistem jaringan utama dan sistem pendukung layanan telekomunikasi, serta kesalahan yang terjadi pada bisnis proses dan sumber daya manusia yang terkait. Kegagalan dan kesalahan ini menyembabkan kerugian yang ditanggung perusahaan, kerugian yang ditimbulkan dengan istilah revenue leakage atau kebocoran pendapatan. Revenue Assurance memegang peranan penting dalam pengendalian terhadap resiko revenue leakage dengan membuat kontrol dalam mendeteksi dan mencegah terjadinya kebocoran agar mampu meminimalkan biaya dan memaksimalkan potensi pendapatan. Dalam tesis ini dikembangkan metode untuk menganalisis Big data CDR untuk mengoptimalkan proses analisis pada revenue assurance control dengan menggunakan algoritma K-means Clustering. Algortima ini mengelompokkan obyek pengamatan dalam beberapa kategori yang diindikasikan sebagai titik kebocoran. Hasil kelompok yang dihasilkan dengan kategori yang beresiko tinggi memiliki anggota yang sedikit dengan tingkat nilai evaluasi akurasi cluster, R-Squared, sekitar 90%.

In the telco industry, Revenue Assurance plays an important role to assure the company revenue from leakage. the revenue chain is established across the process and whole sophisticated system that technologically complex to provide the unstoppable services. This case increasing the probability of system or process failure leads to the leakage. Hence necessary the revenue assurance control to detect and prevent it then it can help to minimize cost and maximize revenue. In this thesis, developed the analysis method in big data CDR to optimize analysis process at revenue assurance control using K-means Clustering algorithm. The use of the K-means clustering algorithm method able to group the object areas with high risk indications of leakage. The cluster result of high risk of leakage is having low amount of member, and the cluster evaluation result of R-Squared giving the good value about 90%."

Depok: Fakultas Teknik Universitas Indonesia, 2021

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Eka Kurnia Sari

Optimalisasi Analisis Big Data Call Detail Record pada Revenue Assurance Control dengan Metode K-means Clustering = Optimization of Big Data Call Detail Record Analysis in Revenue Assurance Control using K-Means Clustering

Depok: Fakultas Teknik Universitas Indonesia, 2021

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Nova Yuniarti

Penerapan algoritma K- Means clustering pada pengelompokan barisan DNA virus hepatitis B (HBV) = Application of K-Means algorithm in clustering the DNA sequences of hepatitis B virus (HBV) / Nova Yuniarti

"[ABSTRAK

Berdasarkan data WHO tahun 2014, diperkirakan sekitar 15 juta orang di dunia

yang terinfeksi hepatitis B (HBsAg+) juga terinfeksi hepatitis D. Infeksi hepatitis

D dapat terjadi bersamaan (koinfeksi) atau setelah seseorang terkena hepatitis B

kronis (superinfeksi). Penyakit hepatitis B disebabkan oleh virus HBV dan

penyakit hepatitis D disebabkan oleh virus HDV. HDV tidak dapat hidup tanpa

HBV. Hepatitis D erat hubungannya dengan infeksi virus HBV, sehingga sangat

realistis bila setiap usaha pencegahan terhadap hepatitis B, maka secara tidak

langsung mencegah hepatitis D. Pada tesis ini akan dibahas bagaimana hasil

pengelompokan barisan DNA HBV menggunakan algoritma k-means clustering

dengan menggunakan perangkat lunak R. Dimulai dengan mengumpulkan barisan

DNA HBV yang diambil dari GenBank, kemudian dilakukan ekstraksi ciri

menggunakan n-mers frequency, dan hasil ekstraksi ciri barisan DNA tersebut

dikumpulkan dalam sebuah matriks dan dilakukan normalisasi menggunakan

normalisasi min-max dengan interval [0, 1] yang akan digunakan sebagai data

masukan. Jumlah cluster yang dipilih dalam penelitian ini adalah dua dan

penentuan centroid awal dilakukan secara acak. Pada setiap iterasi dihitung jarak

masing-masing objek ke masing-masing centroid dengan menggunakan Euclidean

distance dan dipilih jarak terpendek untuk menentukan keanggotaan objek di

suatu cluster sampai akhirnya terbentuk dua cluster yang konvergen. Hasil yang

diperoleh adalah virus HBV yang berada pada cluster pertama lebih ganas

dibanding virus HBV yang berada pada cluster kedua, sehingga virus HBV pada

cluster pertama berpotensi berevolusi dengan virus HDV menjadi penyebab

penyakit hepatitis D.

ABSTRACT

Based on WHO data, an estimated of 15 millions people worldwide who are

infected by hepatitis B (HBsAg+) are also infected by hepatitis D. Hepatitis D

infection can occur simultaneously with hepatitis B (co infection) or after a person

is exposed to chronic hepatitis B (super infection). Hepatitis B is caused by the

HBV virus and hepatitis D is caused by HDV virus. HDV can not live without

HBV. Hepatitis D virus is closely related to HBV infection, hence it is really

realistic that every effort of prevention against hepatitis B can indirectly prevent

hepatitis D. This thesis discussed the clustering of HBV DNA sequences by using

k-means clustering algorithm and R programming. Clustering processes is started

with collecting HBV DNA sequences that are taken from GenBank, then

performing extraction HBV DNA sequences using n-mers frequency and

furthermore the extraction results are collected as a matrix and normalized using

the min-max normalization with interval [0, 1] which will later be used as an input

data. The number of clusters is two and the initial centroid selected of cluster is

choosed randomly. In each iteration, the distance of every object to each centroid

are calculated using the Euclidean distance and the minimum distance are selected

to determine the membership in a cluster until two convergent clusters are created.

As the result, the HBV viruses in the first cluster is more virulent than the HBV

viruses in the second cluster, so the HBV viruses in the first cluster can potentially

evolve with HDV viruses that cause hepatitis D., Based on WHO data, an estimated of 15 millions people worldwide who are