Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 48 dokumen yang sesuai dengan query
cover
Puteri Kintandani
Abstrak :
Investasi saham merupakan salah satu jenis investasi yang paling populer karena saham memberikan tingkat keuntungan yang tinggi dibandingkan dengan jenis investasi lainnya, tetapi saham juga memiliki tingkat risiko yang tinggi. Fluktuasi harga saham memberikan peluang bagi investor untuk mendapatkan keuntungan yang tinggi. Dibutuhkan sebuah model prediksi harga saham untuk melihat pergerakan harga saham di masa yang akan datang, sehingga investor dapat menentukan waktu yang tepat untuk membeli, menahan, dan menjual saham mereka. Dengan demikian, mereka terlepas dari risiko kerugian dan memperoleh keuntungan yang besar. Terdapat beberapa studi yang membahas tentang prediksi harga saham menggunakan machine learning. Salah satunya yaitu menggunakan Support Vector Regression (SVR). Oleh karena itu, pada skripsi ini akan diuji penerapan SVR menggunakan Particle Swarm Optimization (PSO) sebagai seleksi fitur dalam memprediksi harga saham di Indonesia. Pada skripsi ini digunakan data historis saham harian dari Jakarta Stock Index dan beberapa saham pada sektor real estate dan properti. Beberapa indikator teknikal digunakan sebagai fitur dalam memprediksi harga saham. Studi ini menunjukkan bahwa prediksi harga saham menggunakan SVR dengan PSO sebagai seleksi fitur memiliki kinerja yang baik untuk semua data, fitur, dan jumlah data training yang digunakan pada skripsi ini memiliki nilai error yang kecil. Oleh karena itu, diperoleh model yang akurat untuk memprediksi harga saham di Indonesia. ......Stock investing is one of the most popular types of investments since it provides the highest return among all investment types, although it is associated with considerable risk. Fluctuating stock prices provide an opportunity for investors to make a high profit. A stock price prediction model is needed to see future stock price movements, so investors can decide the right time to buy, hold, and sell their stocks which regardless of the risk of loss and gain a big profit. Several studies have focused on the prediction of stock prices using machine learning. One of them is Support Vector Regression (SVR). Therefore, this study examines the application of SVR using Particle Swarm Optimization (PSO) as feature selection in predicting Indonesian stock price. This thesis used historical daily stock data from Jakarta Stock Index (JKSE) and several real estates and property stock sectors. Some technical indicators are used as a feature in predicting stock price. The study found that stock price prediction using SVR with PSO as feature selection showed good performances for all data, features and the amount of training data used by the study have relatively low error probabilities. Therefore, an accurate model is obtained to predict stock price in Indonesia.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fiftitah Repfian Aszhari
Abstrak :

Stroke merupakan salah satu penyakit dengan risiko kematian dan kecacatan yang tinggi. Secara umum, stroke diklasifikasikan menjadi dua jenis, yaitu stroke iskemik dan stroke hemoragik. Klasifikasi jenis stroke secara cepat dan tepat diperlukan untuk menentukan jenis pengobatan dan tindakan yang tepat guna mencegah terjadinya dampak yang lebih fatal pada pasien stroke. Pada penelitian ini, klasifikasi stroke dilakukan menggunakan pendekatan machine learning. Adapun data penelitian yang digunakan adalah data stroke yang terdiri atas pemeriksaan laboratorium. Pada data penelitian tersebut, terdapat berbagai komponen pemeriksaan laboratorium yang dicatat serta memungkinkan adanya suatu pemeriksaan yang kurang relevan atau informatif dalam mengklasifikasi stroke. Apabila data tersebut tidak ditangani, akan mempengaruhi kinerja serta waktu komputasi model dalam mengklasifikasi stroke. Oleh karena itu, pada penelitian ini, Random Forest (RF) dengan seleksi fitur Recursive Feature Elimination (RFE) digunakan dalam mengklasifikasi data stroke. Dengan menerapkan metode tersebut, diperoleh kinerja model yang lebih baik saat melakukan klasifikasi menggunakan sejumlah fitur yang diperoleh dari hasil seleksi fitur, dibandingkan menggunakan keseluruhan fitur dalam data stroke. Selain itu, pada penerapan metode tersebut, diperoleh kinerja model yang baik dalam mengklasifikasi data kelas stroke iskemik, akan tetapi tidak cukup baik dalam mengklasifikasi data kelas stroke hemoragik. Hal ini dikarenakan proporsi jumlah data pada kelas stroke iskemik lebih banyak dibandingkan stroke hemoragik. Dalam hal ini dibutuhkan suatu metode penanganan agar kinerja model tetap optimal dalam mengklasifikasi data kelas stroke iskemik dan stroke hemoragik. Pada penelitian ini, Synthetic Minority Oversampling Technique (SMOTE) digunakan untuk menyeimbangkan kedua kelas data stroke guna memperoleh kinerja model yang optimal dalam mengklasifikasi kedua kelas data stroke. Berdasarkan penerapan metode RF dengan RFE serta SMOTE dalam mengklasifikasi data stroke, diperoleh kinerja model yang lebih baik dibandingkan melakukan klasifikasi pada data stroke yang tidak diseimbangkan dengan SMOTE.


Stroke is one of the diseases with the high risk of death and disability. Stroke generally can be classified into two types, namely ischemic stroke and hemorrhagic stroke. A quick and accurate stroke classification is needed to find the right treatment to prevent a dangerous effect on the stroke patients. In this study, the stroke classification was applied using a machine learning approach. The data used in this study is stroke data that consists of laboratory examinations. The data consists of various laboratory examination components, therefore, it might be possible that some of the components are less relevant and has less informative related in classifying stroke. If the data is not well handled, it might affect the performance and computation time of the model in classifying stroke. Therefore, in this study, Random Forest (RF) with Recursive Feature Elimination (RFE) method is used to classify the stroke data. The result showed that by applying the method in classifying several amounts of features obtained from the feature selection results has better performance rather than classifying the method using all features in stroke data. Moreover, based on applying this method, the result showed that the model has better performance in classifying ischemic stoke class data but not good enough in classifying hemorrhagic stroke class data. This result might occur because the proportion of numbers the ischemic stroke more than hemorrhagic stroke class data. Therefore, the handling method is needed to obtain optimal model performance in classifying ischemic stroke and hemorrhagic stroke class data. In this study, Synthetic Minority Oversampling Technique (SMOTE) is applied to balance the two classes of stroke data so optimal performance of the classification model can be obtained. Based on the application of the RF with RFE methods and SMOTE in the classification of stroke data, better model performance is obtained compared to classifying the stroke data that is not balanced with SMOTE.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nerissa Netanaya Setjiadi
Abstrak :
Mayoritas masyarakat Indonesia masih memandang kesehatan mental sebagai hal tabu dan penderita gangguan jiwa diperlakukan seperti suatu aib. Akibatnya penderita kesulitan untuk mendapat pertolongan yang dibutuhkan dan dapat berakhir dengan tindakan bunuh diri. Mengidentifikasi faktor yang dapat menjelaskan tingkat bunuh diri dan mempelajari karakteristiknya merupakan salah satu cara yang dapat dilakukan untuk mencegah bunuh diri. Penelitian ini membahas faktor apa yang dapat menjelaskan angka bunuh diri menggunakan model regresi linear berganda, pengelompokan negara berdasarkan angka bunuh diri dan faktornya menggunakan metode Ward, serta pemetaan hasil kelompok menggunakan metode Biplot. Objek penelitian adalah negara di Benua Asia dan Eropa. Berdasarkan hasil analisis, diperoleh faktor tidak memiliki agama, konsumsi alkohol, dan psikiater memiliki hubungan positif signifikan terhadap angka bunuh diri. Faktor pemasukan dan pengangguran memiliki hubungan negatif signifikan terhadap angka bunuh diri. Faktor tingkat pendidikan tidak memiliki pengaruh signifikan terhadap angka bunuh diri. Terbentuk 2 kelompok negara, yakni kelompok 1 beranggotakan 46 negara dan kelompok 2 beranggotakan 44 negara. Hasil pemetaan kelompok menggunakan metode Biplot dapat menerangkan 63,7% keragaman data. Kelompok 1 adalah kelompok negara yang memiliki nilai persentase pengangguran yang tinggi serta nilai angka bunuh diri, persentase penduduk tanpa agama, konsumsi alkohol, Gross Domestic Product (GDP) per kapita, angka psikiater, tingkat pendidikan yang rendah. Kelompok 2 adalah kelompok negara yang memiliki angka bunuh diri, persentase penduduk tanpa agama, konsumsi alkohol, GDP per kapita, angka psikiater, dan tingkat pendidikan yang tinggi, serta persentase pengangguran yang rendah. ......Many Indonesian people still view mental health as a taboo subject and people with mental disorders are treated like a disgrace. As a result, they have difficulty getting the help that they need and can end in suicide. Identifying factors that are able to explain suicide rate and studying their characteristics is one way that can be done to prevent suicide. This research discusses what factors that are able to explain suicide rate using a multiple linear regression model, grouping countries based on suicide rate and its factors using Ward's method, and mapping the group results using the Biplot method. The objects of research are countries in Asia and Europe. Based on the analysis result, it is found that factors of having no religion, alcohol consumption, and psychiatrists’ availability have significant positive relationships with suicide rate. Factors of income and unemployment rate have significant negative relationships with suicide rate. Factor of education level has no significant effect with suicide rates. Two groups of countries are formed, namely group 1 consisting of 46 countries and group 2 consisting of 44 countries. Result of mapping based on the groups using the Biplot method is able explain 63,7% of data diversity. Group 1 is a group of countries that have a high unemployment rate and low values in the suicide rate, proportion of irreligious people, Gross Domestic Product (GDP) per capita, and number of psychiatrists. Group 2 is a group of countries that have high values in the suicide rate, proportion of irreligious people, GDP per capita, number of psychiatrists, and education level while the unemployment rate is low.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Hansen Jonathan
Abstrak :
Electronic traffic law enforcement (ETLE) merupakan solusi yang diharapkan membantu mengurangi pelanggaran lalu lintas. Dengan ETLE, kemacetan akibat tindakan polisi untuk memberhentikan kendaraan langsung di tempat serta terjadinya tindakan suap dapat dihilangkan. Salah satu hal penting pada ETLE adalah identifikasi kendaraan pada citra atau video seperti pelat kendaraan, kondisi pengemudi dan lain sebagainya. Sebelum identifikasi, model harus mendeteksi terlebih dahulu mana bagian yang ingin diidentifikasi. Deteksi pelat mobil pada citra mobil merupakan salah satu tantangan yang berat. Penelitian ini dilakukan dengan data yang tergolong kecil, sehingga terlihat apakah model dapat berjalan dengan baik atau tidak. Analisis kinerja model dapat dilihat dari kurva yang dihasilkan model YOLOv7 beserta hasil uji yang dilakukan. Adanya penelitian ini diharapkan dapat memberi wawasan yang lebih baik dalam pengembangan dan peningkatan model deteksi objek yang efisien dan akurat di masa depan. ......Electronic Traffic Law Enforcement (ETLE) is a solution that is expected to help reduce traffic violations. With ETLE, traffic jams due to police action stop vehicles right where they occur and acts of bribery can be eliminated. One of the important things in ETLE is vehicle identification on images or videos, such as vehicle plates, driver conditions, and so on. Before identification, the model must first detect which part it wants to identify. The detection of car plates on car images is a formidable challenge. This research was conducted with relatively small data, so it showed whether the model works well or not. An analysis of the performance of the model can be seen from the curves that are produced by the YOLOv7 model, along with the results of the tests that were carried out. The existence of this research is expected to provide better insight into the development and improvement of efficient and accurate object detection models in the future.
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Zalfa Alifah Budiawan
Abstrak :
Tuberkulosis adalah penyakit menular yang termasuk kedalam sepuluh peringkat penyebab kematian tertinggi di dunia, sebagai contoh di Indonesia. Oleh karena itu, perlu diketahui faktor-faktor apa saja yang memengaruhi jumlah kasus tuberkulosis. Jumlah kasus tuberkulosis sebagai variabel dependen merupakan data cacah yang umumnya dianalisis menggunakan Regresi Poisson. Namun, adanya asumsi equidispersi yang harus dipenuhi pada Regresi Poisson maka Regresi Generalized Poisson dan Regresi binomial negatif dapat digunakan sebagai alternatif apabila asumsi equidispersi tidak terpenuhi. Aspek spasial dapat diperhatikan, sehingga pemodelan Geographically Weighted Generalized Poisson Regression dan Geographically Weighted Negative Binomial Regression juga dilakukan. Keempat model itu dibangun untuk mengetahui apakah ada hubungan jumlah kasus tuberkulosis di Pulau Jawa pada tahun 2020 dengan faktor-faktor yang diperkirakan memengaruhinya. Variabel independen yang digunakan adalah kepadatan penduduk, persentase balita diberikan imunisasi BCG, persentase penduduk miskin, persentase sarana air minum memenuhi syarat, persentase kartu keluarga dengan akses sanitasi layak, persentase tempat-tempat umum yang memenuhi syarat kesehatan, dan persentase tempat pengelolaan makanan yang memenuhi syarat higienis. Dari penelitian ini, diketahui bahwa model terbaik untuk memodelkan data adalah GWNBR dengan diperoleh 2 kelompok variabel independen signifikan. Sebanyak 7 variabel independen signifikan secara statistik di 88 kabupaten/Kota dan 6 variabel independen signifikan secara statistik di 12 kabupaten/Kota. ......Tuberculosis is an infectious disease and one of the world's top 10 highest causes of mortality, for example, in Indonesia. Based on this fact, it’s necessary to know what factors influence number of tuberculosis cases. The number of tuberculosis cases as dependent variable is a count data that generally analyzed using Poisson regression. However, equidispersion assumption must be met, so Generalized Poisson Regression and Negative Binomial Regression are applied if the assumption is not met. Spatial aspects can be considered so Geographically Weighted Generalized Poisson Regression and Geographically Weighted Negative Binomial Regression were also conducted. Four models were built to evaluate relationship between number of tuberculosis cases and factors affecting it in Java in 2020. The explanatory variables are population density, percentage of children receiving BCG immunization, percentage of poor people, percentage of eligible drinking water facilities, percentage of family cards with access to proper sanitation, percentage of public places meet health requirements, and percentage of food management places meet hygienic requirements. This study shows that the best model for modeling the data is GWNBR with 2 groups of significant explanatory variables. Seven explanatory variables are statistically significant in 88 districts and six explanatory variables statistically significant in 12 districts.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Eka Fita Yanti
Abstrak :
Preeklamsia menjadi penyebab kematian ibu hamil terbanyak kedua di Indonesia setelah pendarahan. Preeklamsia merupakan hipertensi dan proteinuria setelah usia kehamilan lebih dari 20 minggu pada wanita yang sebelumnya memiliki tekanan darah normal. Faktor risiko preeklamsia dapat dilihat berdasarkan karakteristik maternal, pengukuran biofisik, dan pengukuran biokimia. Preeklamsia umumnya terjadi pada trimester ketiga kehamilan. Namun kondisi ibu hamil tetap harus diamati pada setiap titik waktu kehamilan. Variabel dependen yang digunakan dalam penelitian ini adalah waktu kelahiran dengan kovariatnya adalah usia, Indeks Massa Tubuh (IMT), riwayat preeklamsia, Mean Arterial Pressure (MAP), dan Placental Growth Factor (PlGF). Adapun metode yang digunakan dalam penelitian ini adalah Proportional Hazard (PH) parametrik dimana diasumsikan efek yang multiplikatif terhadap nilai hazard. Metode parametrik lainnya yang dapat digunakan adalah Accelerated Failure Time (AFT) yang mengasumsikan bahwa efek multiplikatif terhadap waktu survival.  Kedua metode tersebut merupakan metode parametrik dimana baseline hazard dari model diasumsikan mengikuti bentuk suatu distribusi tertentu. Konstruksi model terdiri dari pemilihan baseline hazard yang sesuai dengan data preeklamsia dan proses menambahkan kovariat ke dalam model. Estimasi parameter dilakukan dengan metode Maximum Likelihood Estimation (MLE) yang menghasilkan persamaan kompleks dan harus diselesaikan secara numerik menggunakan bantuan software. Hasil dari penelitian ini diperoleh bahwa faktor-faktor yang berhubungan dengan preeklamsia adalah MAP dan PlGF. Perbandingan metode PH parametrik dan metode AFT menggunakan nilai AIC memberikan hasil bahwa model PH Gompertz memberikan fit yang lebih baik untuk data preeklamsia dengan nilai sebesar 328,2045. ......Preeclampsia is the second leading cause of death for pregnant women in Indonesia after bleeding. Preeclampsia is hypertension and proteinuria after gestational age of more than 20 weeks in women who previously had normal blood pressure. Risk factors for preeclampsia can be seen based on maternal characteristics, biophysical, and biochemical measurements. Preeclampsia generally occurs in the third trimester of pregnancy. However, the condition of pregnant women must still be observed at every point in time pregnancy. The dependent variable used in this study was the time of birth with the independent variables being age, Body Mass Index (BMI), history of preeclampsia, Mean Arterial Pressure (MAP), and Placental Growth Factor (PlGF). The method used in this research is parametric Proportional Hazard (PH) which is assumed to have a multiplicative effect on the hazard value. Another parametric method that can be used is  Accelerated Failure Time (AFT) which is assumed to have a multiplicative effect on survival time. Both methods are parametric methods where the baseline hazard of the model is assumed to follow the shape of a certain distribution. The construction of the model consists of selecting a baseline hazard that fits the preeclampsia data and the process of adding independent variables to the model. Parameter estimation is carried out using the Maximum Likelihood Estimation (MLE) method which produces complex equations and must be solved numerically using software. The results of this study obtain factors associated with preeclampsia are MAP and PlGF. Comparison of the parametric PH method and the AFT method using the AIC value gives the result that the Gompertz PH model provides a better fit for preeclampsia data with a value of 328.2045.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Annisa Rahmadinanti
Abstrak :
Untuk memaksimalkan proses kegiatan pembelajaran dibutuhkan fasilitas pendidikan yang memadai. Namun, masalah pendidikan masih ditemukan, dimana salah satu akar permasalahannya adalah kurangnya fasilitas pendidikan. Pada jenjang Sekolah Menengah Pertama (SMP), jumlah SMP yang relatif banyak merupakan salah satu penghambat dalam penyaluran dan pemerataan dana APBN. Selain itu salah satu parameter untuk mengukur mutu pendidikan adalah nilai Ujian Nasional (UN). Sebagai Ibu Kota, DKI Jakarta adalah provinsi yang merupakan pusat pendidikan di Indonesia dan Jawa Barat merupakan provinsi dengan jumlah penduduk terbanyak di Indonesia yang berbatasan langsung dengan DKI Jakarta. Maka, analisis hubungan fasilitas sekolah dengan nilai UN pada DKI Jakarta dan Jawa Barat dapat diharapkan dapat menjadi salah satu alternatif bagi pemerintah untuk melihat keadaan SMP pada kedua provinsi terebut dan dalam menyalurkan dana APBN secara cepat dan tepat dengan melihat fasilitas apa saja yang memiliki hubungan dengan hasil belajar siswa. Banyaknya observasi yang digunakan adalah 987 SMP di Provinsi DKI Jakarta dan 4766 SMP di Provinsi Jawa Barat dengan 9 variabel kategorik fasilitas pendidikan dan sebuah variabel numerik yaitu nilai ujian nasional. Adapun metode yang digunakan untuk mengelompokkan adalah Robust Clustering Using Link (ROCK) yang diyakini mempunyai tingkat akurasi yang baik dan mampu menangani data kategorik dalam jumlah yang besar. Serta untuk mengetahui hubungan antara fasilitas dengan hasil ujian nasional akan di tentukan menggunakan Analisis Regresi. Didapat bahwa fasilitas SMP di DKI Jakarta sudah cukup merata dan cukup baik sehingga tidak terbentuk cluster dengan profil berbeda, sedangkan di Jawa Barat terbentuk 5 cluster dengan karakteristik masing masing. Terdapat indikasi hubungan yang kuat pada fasilitas laboratorium, rasio murid per guru, status, dan daya listrik dengan nilai ujian nasional di DKI Jakarta. Sedangkan untuk Provinsi Jawa Barat, hampir setiap cluster memiliki hubungan yang berbeda terhadap nilai ujian nasional. Namun, pada setiap cluster, fasisilitas daya listrik merupakan fasilitas yang memiliki hubungan signifikan dengan hasil ujian nasional siswa. ......To maximize the process of learning activities, adequate educational facilities are needed. However, there are still some problem, where one of the root causes is the lack of educational facilities. At the junior high school level, the relatively large number of junior high school is one of the obstacles in the distribution of APBN funds. In addition, one of the parameters that can be used to measure the quality of education is the value of the National Examination (UN). As the capital city, DKI Jakarta is a province that is the centre of education in Indonesia and West Java is the province with the largest population in Indonesia which is directly adjacent to DKI Jakarta. Thus, the analysis of the relationship between school facilities and the UN scores in DKI Jakarta and West Java is expected to be an alternative for the government to see the state of SMP in the two provinces and to distribute the APBN funds immediately and properly by looking at what facilities have a relationship with student learning outcomes. The number of observations used was 987 junior high schools in DKI Jakarta Province and 4766 junior high schools in West Java Province with 9 categorical variables for educational facilities and a numeric variable, which is the national exam scores. The method used for clustering is Robust Clustering Using Link (ROCK) which is believed to have a good level of accuracy and able to handle large amounts of categorical data. Also, to confirm the relationship between facilities and the results of the national exam will be determined by using Regression Analysis. It was found that the junior high school's facilities in DKI Jakarta were quite evenly distributed and good enough so that there were not forming any cluster with different profile, while in West Java there were 5 clusters with their respective characteristics. There are indications of a strong relationship with laboratory, student-teacher ratio, status, and electrical power to national exam scores in DKI Jakarta. Whereas for West Java Province, almost every clusters have a different relationship to the national exam scores. However, in each cluster, the utility of electrical power has a significant relationship with student's national exam results.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sari Gita Fitri
Abstrak :
Kanker adalah penyakit yang disebabkan oleh ketidakteraturan perjalanan hormon yang mengakibatkan tumbuhnya daging pada jaringan tubuh yang normal atau sering dikenal sebagai tumor ganas. Kanker terjadi saat sel-sel dalam tubuh membelah diri diluar kendali. Sel-sel abnormal ini kemudian menyerang jaringan terdekat. Salah satu kanker yang paling umum terjadi adalah kanker paru-paru. Kanker paru-paru adalah kanker yang dimulai di paru-paru dan paling sering terjadi pada orang yang merokok. Paru-paru kanan memiliki 3 bagian, yang disebut dengan lobus, sedangkan paru-paru kiri memiliki 2 lobus. Kanker paru-paru merupakan penyebab utama kematian terkait kanker di seluruh dunia dengan 30%-40% terjadi di negara berkembang. Untuk memprediksi apakah seseorang menderita kanker paru-paru atau tidak dapat dilihat dari terdapatnya tumor ganas pada paru-paru yang dapat dilakukan melalui CT scan. Namun, hasil CT scan tidak cukup dalam mendeteksi atau mendiagnosis secara dini terdapatnya tumor ganas di dalam paru-paru. Untuk itu, dapat digunakan machine learning dalam mendeteksi secara dini adanya tumor ganas di dalam paru-paru. Dalam penelitian ini, penulis menggunakan Kernel K-Means based Co-clustering yang merupakan pengembangan dari K-Means based Co-clustering. K-Means mengelompokkan data menggunakan jarak Euclidean. Akan tetapi, jika data yang dipisahkan adalah data nonlinear, maka konvergensi dari data yang dipisahkan tersebut akan kecil dan membutuhkan waktu yang lama, sehingga masalah ini dapat diselesaikan dengan menggunakan fungsi kernel untuk menggantikan jarak Euclidean.Co-clustering mempartisi baris dan kolom dari suatu matriks data secara simultan, sehingga blok yang diinduksi oleh partisi adalah klaster yang baik. Metode Kernel K-Means based Co-clustering memasukkan banyak titik untuk mewakili masing-masing pusat klaster, sehingga titik-titik di dalam klaster saling berdekatan, akan tetapi jauh dari titik yang mewakili klaster lain. Data yang digunakan adalah data kanker paru-paru yang diperoleh dari laboratorium radiologi RSUPN Cipto Mangunkusumo, Jakarta. Hasil akurasi yang diperoleh untuk memprediksi penyakit kanker paru-paru dengan menggunakan metode Kernel K-Means based Co-clustering adalah 94,5%. ......Cancer is a disease caused by an irregular course of hormones that results in the growth of flesh in normal body tissues or often known as malignant tumors. Cancer occurs when cells in the body divide out of control. These abnormal cells then attack nearby tissues. One of the most common cancers is lung cancer. Lung cancer is cancer that starts in the lungs and most often occurs in people who smoke. The right lung has 3 parts, which are called lobes, while the left lung has 2 lobes. Lung cancer is the leading cause of cancer-related deaths worldwide with 30%-40% occurring in developing countries. To predict whether someone has lung cancer or can not be seen from the presence of malignant tumors in the lungs that can be done through a CT scan. However, CT scan results are not enough to detect or diagnose the presence of malignant tumors early in the lungs. For this reason, machine learning can be used to detect malignant tumors early in the lungs. In this research, the writer usesKernel K-Meansbased Co-clustering which is the development of K-Means-based Co-clustering. K-Means groups data using Euclidean distances. However, if the separated data is non-linear data, the convergence will be small and take a long time, so this problem can be solved by using the kernel function to replace the Euclidean distance. Co-clustering partitioned rows and columns of a data matrix simultaneously, so the blocks induced by partitions are good clusters. Kernel K-Meansbased Co-clustering method includes many points to represent each cluster center, so that the points within the cluster are close together, but far from the points representing other clusters. The data used are lung cancer data obtained from the radiology laboratory of Cipto Mangunkusumo General Hospital, Jakarta. Accuracy results obtained to predict lung cancer by using the Kernel K-Meansbased Co-clustering method are 94.5%.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ilsya Wirasati
Abstrak :
Hati adalah salah satu organ yang paling aktif secara metabolik di dalam tubuh dan berfungsi dalam proses homeostatis dan sintetik yang penting untuk kelangsungan hidup manusia. Kanker hati diperkirakan menjadi kanker keenam yang paling sering didiagnosis dan penyebab utama kematian keempat akibat kanker di seluruh dunia pada tahun 2018. Dalam mendeteksi kanker hati, terdapat metode magnetic resonance imaging (MRI) atau computed tomography (CT) yang digunakan. Namun, kurang dari 40% pasien didiagnosis pada tahap awal dan pada kanker hati lanjut hanya pilihan pengobatan paliatif yang tersedia dengan kelangsungan hidup yang buruk. Oleh karena itu, diperlukannya riset-riset terkait metode yang tepat untuk mengklasifikasi kanker hati. Salah satu metode yang dapat digunakan adalah machine learning yang menemukan pola melalui pembelajaran historis dan tren pelatihan data untuk memprediksi karakteristik data baru. Pada tugas akhir ini, dua metode machine learning yang digunakan adalah Convolutional Neural Network (CNN) dan Gated Recurrent Unit (GRU). Keutamaan dari CNN adalah adanya konvolusi yang bertugas untuk mengubah input menjadi sekumpulan fitur melalui filter atau kernel. Sedangkan keutamaan metode GRU adalah adanya update gate dan reset gate yang dapat mengingat informasi penting sebelumnya. Pada tugas akhir ini, CNN digunakan dalam mengekstraksi data citra dan GRU digunakan untuk klasifikasi data citra. Penggabungan metode CNN dan GRU menjadi CNN-GRU bertujuan untuk meningkatkan performa dari CNN dalam mengklasifikasi data citra kanker hati. CNN-GRU menghasilkan nilai akurasi terbesar 81,25% sedangkan CNN menghasilkan nilai akurasi terbesar 77,78% dari lima kali percobaan. ......The liver is one of the most metabolically active organs in the body and functions in the homeostatic and synthetic processes essential for human survival. Liver cancer is estimated to be the sixth most frequently diagnosed cancer and the fourth leading cause of cancer death worldwide in 2018. In detecting liver cancer, magnetic resonance imaging (MRI) or computed tomography (CT) methods are used. However, less than 40% of patients are diagnosed at an early stage, and in advanced liver cancer, only palliative treatment options are available with poor survival. Therefore, research is needed regarding the right method to classify liver cancer. One method that can be used is machine learning which finds patterns through historical learning and data training trends to predict the characteristics of new data. In this final project, the two machine learning methods used are Convolutional Neural Network (CNN) and Gated Recurrent Unit (GRU). The advantage of CNN is a convolution whose task is to convert the input into a set of features through a filter or kernel. Meanwhile, the advantage of GRU method is that can remember important previous information because GRU has reset and update gate. In this final project, CNN is used in extracting image data and GRU is used for image data classification. The combination of the CNN and GRU methods into CNN-GRU aims to improve the performance of CNN in classifying liver cancer image data. CNN-GRU produced the greatest accuracy value of 81.25% while CNN produced the greatest accuracy value of 77.78% from five experiments.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Tulus Setiawan
Abstrak :
Indonesia merupakan salah satu negara yang sempat terimbas COVID-19. Hal itu berdampak pada sektor pariwisata, khususnya industri perhotelan di Indonesia. Meskipun begitu, sekarang sektor pariwisata di Indonesia mulai pulih kembali, khususnya untuk industri perhotelan. Badan Pusat Statistik (BPS) mencatat bahwa pada tahun 2023, tingkat penghunian kamar (TPK) hotel bintang bahkan mengalami kenaikan dibandingkan dengan tahun 2022, kenaikan hotel bintang mencapai 51,12%. Dengan meningkatnya permintaan terhadap tingkat hunian hotel, ulasan yang diberikan oleh pelanggan terhadap hotel menjadi hal yang penting untuk dianalisis. Salah satu jenis analisis yang dapat dilakukan terhadap ulasan-ulasan tersebut adalah analisis sentimen untuk mengklasifikasi sentimen yang terkandung dalam ulasan ke dalam kelompok-kelompok sentimen tertentu. Walaupun model-model deep learning seperti Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), dan Gated Recurrent Unit (GRU) atau bahkan model hybrid dan fully-connected layer neural network dengan representasi Bidirectional Encoder Representations from Transformers (BERT) terbukti menghasilkan kinerja yang baik dalam melakukan analisis sentimen, tetapi beberapa masalah yang umumnya dihadapi adalah fleksibilitas, efisiensi waktu, dan sumber daya yang dibutuhkan dalam penggunaannya. Oleh sebab itu, metode GPT berbasis prompt dapat menjadi salah satu solusi untuk permasalahan tersebut. Dengan menggunakan GPT berbasis prompt, pengguna dapat langsung memanfaatkan pengetahuan dan pemahaman bahasa yang telah diperoleh model GPT selama proses pelatihan pada korpus teks yang sangat besar. Hal ini memungkinkan model untuk menghasilkan prediksi sentimen yang akurat tanpa perlu melalui proses pelatihan yang panjang dan kompleks. Penelitian ini menganalisis dan membandingkan kinerja Large Language Model BERT dan GPT sebagai metode untuk analisis sentimen berbahasa Indonesia. Hasil Penelitian menunjukkan bahwa rata-rata kinerja model GPT secara keseluruhan lebih unggul dibandingkan model BERT dengan fully-connected layer neural network (BERT-NN) untuk dataset tiket.com, PegiPegi, dan Traveloka. Secara spesifik, model GPT dengan pendekatan zero-shot memiliki rata-rata kinerja yang paling unggul dibandingkan dengan pendekatan one-shot dan few-shot. Untuk rata-rata kinerja terhadap ketiga dataset tersebut, GPT dengan pendekatan zero-shot memberikan peningkatan sebesar 1,28%, 1,45%, dan 6,2% untuk metrik akurasi, F1-score, dan sensitivity secara berurutan terhadap kinerja BERT-NN. Hasil ini menunjukkan potensi metode GPT berbasis prompt sebagai alternatif yang efisien dan fleksibel secara penggunaan untuk analisis sentimen pada ulasan hotel berbahasa Indonesia. ......Indonesia was one of the countries affected by COVID-19. This impacted the tourism sector, particularly the hotel industry in Indonesia. However, the tourism sector in Indonesia is now beginning to recover, especially for the hotel industry. The Central Statistics Agency (BPS) recorded that in 2023, the occupancy rate of star-rated hotels even increased compared to 2022, with the increase reaching 51.12%. With the rising demand for hotel occupancy rates, customer reviews of hotels have become important to analyze. One type of analysis that can be performed on these reviews is sentiment analysis to classify the sentiments contained in the reviews into specific sentiment groups. Although deep learning models such as Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), and Gated Recurrent Unit (GRU), or even hybrid models and fully-connected layer neural networks with Bidirectional Encoder Representations from Transformers (BERT) representation have been proven to produce good performance in sentiment analysis, some common problems faced are flexibility, time efficiency, and resources required for their use. Therefore, prompt-based GPT methods can be a solution to these problems. By using prompt-based GPT, users can directly leverage the knowledge and language understanding that the GPT model has acquired during training on a vast text corpus. This allows the model to generate accurate sentiment predictions without going through a long and complex training process. This study analyzes and compares the performance of BERT and GPT Large Language Models as methods for Indonesian language sentiment analysis. The results show that the average overall performance of the GPT model is superior to the BERTmodel with a fully-connected layer neural network (BERT-NN) for datasets from tiket.com, PegiPegi, and Traveloka. Specifically, the GPT model with a zero-shot approach has the most superior average performance compared to the one-shot and few-shot approaches. For the average performance across these three datasets, GPT with a zero-shot approach provides improvements of 1.28%, 1.45%, and 6.2% for accuracy, F1-score, and sensitivity metrics, respectively, compared to BERT-NN performance. These results demonstrate the potential of prompt-based GPT methods as an efficient and flexible alternative for sentiment analysis on Indonesian language hotel reviews.
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5   >>