Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 7 dokumen yang sesuai dengan query
cover
Muhammad Rias Agnini Majdi
Abstrak :
Jenis-jenis alat musik yang digunakan dalam suatu musik adalah salah satu cara menjelaskan musik tersebut. Skripsi ini membahas penggunaan ekstraksi fitur MFCC dan metode klasifikasi k-NN untuk mengklasifikasi alat musik berdasarkan suara yang dihasilkannya. MFCC merupakan sebuah metode yang mampu mengolah sebuah data suara sehingga menghasilkan beberapa fitur yang bersifat numerik. k-NN merupakan sebuah metode klasifikasi yang menggunakan jarak dari fitur tiap-tiap observasi. Pengerjaan skripsi dilakukan dengan mengekstraksi fitur dari data-data suara yang tersedia dengan MFCC lalu menggunakan fitur-fitur yang diekstraksi tersebut untuk metode klasifikasi k-NN. Data yang digunakan adalah data suara alat musik yang tersedia pada dataset Philharmonia Orchestra Sound Samples. Hasil dari penerapan metode klasifikasi k-NN pada skripsi ini menunjukkan bahwa model k-NN mampu meraih nilai akurasi hingga 94,84%.


Instrumentation is one way to describe a music. This study discusses the use of MFCC feature extraction and k-NN classification method to classify instruments by the sound they produce. MFCC is a method capable of processing a sound data into a set of numeric features. k-NN is a classification method that uses the distance of the features of each observations. The process of this study uses MFCC to extract the features of available sound data and use these extracted features to fit a k-NN model. The data used in this study are the sound data available in the Philharmonia Orchestra Sound Samples dataset. The result of k-NN model fitting in this study shows that the model is capable of reaching an accuracy of 94.84%.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Tansa Qurrota A`Yuna
Abstrak :
Google mampu meningkatkan keuntungan hingga $200 juta dengan melakukan sebuah eksperimen di mana mereka menguji beberapa warna biru pada tulisan iklan di tampilan website nya. Namun demikian, dalam menemukan tampilan website yang memberikan performa terbaik dari jutaan pengunjung tidaklah mudah. Salah satu kriteria bahwa sebuah website memiliki performa yang baik adalah dengan tingginya click through rate yang dimiliki website tersebut. Untuk menangani permasalahan ini, salah satu metode yang dapat digunakan adalah A/B testing. Cara A/B testing bekerja adalah  dengan membagi pengunjung laman website menjadi dua kelompok; treatment group dan control group. Masing-masing kelompok akan disajikan varian laman website yang berbeda. Respons dari pengunjung atas laman website kemudian dicatat dan diuji performa antara varian A dan varian B. Pada tahap pengujian, ada dua metode yang dapat digunakan yaitu frequentist dan Bayesian. Metode frequentist membuat prediksi hanya menggunakan data yang ada dari percobaan yang dilakukan. Sedangkan metode Bayesian menggunakan prior yang akan akan diperbarui seiring dengan bertambahnya data yang diterima. Output dari metode Bayesian A/B testing berupa keyakinan akan rentang nilai sebenarnya dari click through rate. Keyakinan ini dituangkan dalam bentuk distribusi posterior. Dari penelitian yang dilakukan, diperoleh hasil bahwa metode Bayesian A/B testing  mampu memberikan inferensi yang cukup baik meskipun dengan pemilihan prior yang tidak informatif. Dari hasil tersebut, maka sebuah perusahaan bisa memanfaatkan metode ini menguji tampilan laman website.
Google was able to increase profits by up to $200 million by conduction experiments where they tested some shades of blue of the advertisement link in their website display. However, finding the website display which provides the best performance from millions of visitors is not easy. One of the criteria that a website has a good performance is that it has a high number of click through rate. To solve this problem, one of the method that can be used is A/B testing. A/B testing works by dividing the website visitors into two groups; treatment group and control group. Each group will be presented with different website page variants. The responses from visitors are recorded and tested for knowing which variant performs better. At the testing stage, there are two methods that can be used, frequentist and Bayesian. The frequentist method makes predictions using only the data available from the experiments. While the Bayesian method uses priors that will be updated as the data is received. The output from Bayesian A/B testing method is a belief of range from the actual value of click through rate. This belief is expressed in the form of posterior distribution. From this research, Bayesian A/B testing method is able to provide quite good inference even though we select a non informative prior. From this result, a company can apply this method to test the website display.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gregorius Vidy Prasetyo
Abstrak :
ABSTRAK
Pada permasalahan seperti kesehatan atau dunia retail banyak dijumpai data-data yang memiliki kategori yang tidak seimbang. Sebagai contoh jumlah penderita penyakit tertentu relatif langka pada suatu studi atau jumlah transaksi yang terkadang merupakan transaksi palsu (fraud) jumlahnya secara signifikan lebih sedikit ketimbang transaksi normal. Kondisi ini biasa disebut sebagai kondisi data tidak seimbang dan menyebabkan permasalahan pada performa model, terutama pada kelas minoritas. Beberapa metode telah dikembangkan untuk mengatasi permasalahan data tidak seimbang, salah satu metode terkini untuk menanganinya adalah Easy Ensemble. Easy Ensemble diklaim dapat mengatasi efek negatif dari pendekatan konvensional seperti random-under sampling dan mampu meningkatkan performa model dalam memprediksi kelas minoritas. Skripsi ini membahas metode Easy Ensemble dan penerapannya dengan model Random Forest dalam mengatasi masalah data tidak seimbang. Dua buah studi empiris dilakukan berdasarkan kasus nyata dari situs kompetisi hacks.id dan kaggle.com. Proporsi kategori antara kelas mayoritas dan minoritas pada dua data di kasus ini adalah 70:30 dan 94:6. Hasil penelitian menunjukkan bahwa metode Easy Ensemble, dapat meningkatkan performa model klasifikasi Random Forest terhadap kelas minoritas dengan signifikan. Sebelum dilakukan resampling pada data (nhacks.id), nilairecall minority hanya sebesar 0.47, sedangkan setelah dilakukan resampling, nilainya naik menjadi 0.82. Begitu pula pada data kedua (kaggle.com), sebelum resampling nilai recall minority hanya sebesar 0.14, sedangkan setelah dilakukan resampling, nilai naik secara signifikan menjadi 0.71.
ABSTRACT
In the real world problem, there is a lot case of imbalanced data. As an example in medical case, total patients who suffering from cancer is much less than healthy patients. These condition might cause some issues in problem definition level, algorithm level, and data level. Some of the methods have been developed to overcome this issues, one of state-of-the-art method is Easy Ensemble. Easy Ensemble was claimed can improve model performance to classify minority class moreover can overcome the deï¬?ciency of random under-sampling. In this thesis discussed the implementation of Easy Ensemble with Random Forest Classifers to handle imbalance problem in a credit scoring case. This combination method is implemented in two datasets which taken from data science competition website, nhacks.id and kaggle.com with class proportion within majority and minority is 70:30 and 94:6. The results show that resampling with Easy Ensemble can improve Random Forest classifier performance upon minority class. This been shown by value of recall on minority before and after resampling which increasing significantly. Before resampling on the first dataset (nhacks.id), value of recall on minority is just 0.49, but then after resampling, the value of recall on minority is increasing to 0.82. Same with the second dataset (kaggle.com), before the resampling, value of recall on minority is just 0.14, but then after resampling, the value of recall on minority is increasing significantly to 0.71.
2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Edbert Theda
Abstrak :
=Memberikan proteksi terhadap kemungkinan terjadinya kerugian merupakan hal yang sangat penting dalam perusahaan asuransi. Dalam bisnis asuransi, menghitung cadangan adalah suatu tindakan yang wajib dilakukan untuk mengantisipasi klaim polis asuransi yang tidak terduga. Setiap perusahaan asuransi tentu harus mengestimasi cadangan klaim yang dibutuhkan. Chain Ladder merupakan salah satu cara menghitung cadangan klaim yang telah digunakan secara luas dalam industri asuransi. Dengan menggunakan data masa lalu, cadangan klaim dihitung dengan mengestimasi faktor perkembangan klaim yang dibayarkan dari waktu ke waktu. Perusahaan asuransi dapat memperoleh gambaran mengenai besarnya modal yang harus disiapkan untuk mengatasi klaim yang dapat saja terjadi. Adapun perusahaan juga dapat melakukan estimasi cadangan klaim yang lebih baik dengan memanfaatkan informasi mengenai informasi individu yang berkaitan dengan klaim yang dibayarkan. Salah satu metode yang dapat digunakan untuk mengkombinasikan informasi individu dengan data pembayaran klaim adalah dengan menggunakan model Neural Network, yang akan menghitung faktor perkembangan klaim berdasarkan kedua informasi tersebut. Faktor perkembangan melalui model Neural Network tersebut digunakan pada metode Chain ladder untuk menghitung cadangan klaim yang dibutuhkan. Secara umum, tugas akhir ini membahas mengenai metode Chain Ladder yang memanfaatkan model Neural Network. Di akhir tugas akhir ini, dilakukan simulasi numerik yang menggunakan data klaim dari salah satu perusahaan asuransi di New York. Didapatkan hasil bahwa dengan menggunakan metode Chain Ladder saja didapatkan cadangan klaim sebesar 42,705 juta dollar dan dengan menggunakan model Neural Network serta Chain Ladder didapatkan cadangan klaim sebesar 44,708 juta dollar. ......Providing protection against payment problems is very important in insurance company. In the insurance business, calculating claims reserves is an action that must be taken to submit unexpected insurance policy claims. Each insurance company must estimate the required claims reserves. Chain Ladder is one way to calculate claims reserves that have been widely used in the insurance industry. By using past data, claims reserves have been calculated by estimating development factor of claims that have been paid from time to time. So insurance companies can get a picture of the amount of capital that must be prepared to deal with claims that can occur at any time. Each company can provide a better claim estimate by using information about individual information related to supported claims. One method that can be used to combine individual information with payment data claims using the Neural Network model, which calculate the development factors of claims based on that information. The development factors through the Neural Network model are used in the Chain ladder method to calculate the required claims reserves. In general, this thesis discuss the Chain Ladder method that uses the Neural Network model. The claims reserves results obtained that by using the Child Ladder method amounted to 42.705 million dollars and by using the Neural Network model and the Chain Ladder obtained claim reserves of 44.708 million dollars.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rio Fandi Dianco
Abstrak :
Naluri alamiah manusia untuk mendapatkan keuntungan sebesar mungkin dengan pengorbanan yang kecil telah memicu terjadinya kompetisi diantara para penyedia jasa asuransi untuk memberikan premi asuransi serendah mungkin sesuai dengan risiko dari pengguna jasa asuransi. Menanggapi hal ini, dibentuk alat ukur risiko yaitu teori kredibilitas. Teori kredibilitas Buhlmann-Straub merupakan salah satu alat ukur risiko yang sering digunakan dalam industri asuransi. Teori ini akan memberikan setiap individu nilai premium sebagai rata-rata berbobot dari rata-rata klaim individu dan rata-rata klaim kelompok. Teori ini berhasil dalam menjustifikasi besaran bobot yang harus diberikan dan tidak diperlukan asumsi bahwa setiap klaim memiliki ukuran risiko yang homogen. Sayangnya, pengaplikasian teknik ini belum memanfaatkan informasi dari masing-masing individu seperti umur, tempat tinggal, dan lain sebagainya yang berkaitan dengan risiko individu. Menanggapi hal ini, dibentuk regression tree credibility model yang mengkombinasikan teori kredibilitas Buhlmann-Straub dengan algoritme machine learning yaitu regression tree. Model ini akan memanfaatkan informasi setiap individu untuk mengelompokkan setiap individu. Sayangnya, regression tree terkenal sebagai model yang cenderung memiliki variansi tinggi. Menanggapi ini, tugas akhir ini akan mengajukan random forest credibility model yang mengkombinasikan teori kredibilitas Buhlmann-Straub dengan algoritme random forest, yaitu algoritme yang dikembangkan dari regression tree dengan variansi yang lebih rendah. Kemudian, tugas akhir ini akan membandingkan peforma random forest credibility model dengan teori kredibilitas Buhlmann-Straub dan regression tree credibility model pada data asuransi kesehatan Amerika serikat. Melalui data ini, telah ditunjukkan bahwa random forest credibility model memiliki peforma yang lebih baik dibandingkan model lainnya dengan nilai rata-rata prediction error 10$ lebih rendah dibandingkan regression tree credibility model dan 20$ lebih rendah dibandingkan teori kredibilitas Buhlmann-Straub. ......Man's desire to gain more profit with less sacrifice has driven the insurer to give a reasonable amount of premium based on individual risk. Thus the insurer builds a model to quantify the risk. One of this model is called credibility theory and Buhlmann-Straub is one the models that is widely used. This particular model assigns each individual amount of premium based on the weighted average of mean of individual amount claim and mean of group's amount of claim. This model accommodates the choice of value of the weight to be assigned and also each claim does not need to have the same amount of constant measuring exposure of risk.  Unfortunately, this model lacks the ability to utilize the individual information such as age, gender, and the others. To handle this, regression tree credibility model is proposed. Combining Buhlmann-Straub credibility theorem with regression tree, this model has the capability to utilize the information to further improve the calculation of individual premium.  Unfortunately, regression tree is a model with high variance. Thus this thesis propose random forest credibility model which combines Buhlmann-Straub credibility theorem with random forest algorithm, the development algorithm of regression tree which has lower variance. Furthermore, this thesis will compare the performance of random forest credibility model against Buhlmann-Straub credibility theorem and regression tree credibility model on United State of America's health insurance data. Through this data, random forest credibility model is proven to be a better model with the value of average prediction error 10$ lower than regression tree model and 20$ lower than Buhlmann-Straub credibility theorem.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Faathir Chikal Asyuraa
Abstrak :
Permasalahan Multi-Armed Bandit adalah permasalahan dalam reinforcement learning yang berfokus pada rancangan eksperimen, diberikan sebuah himpunan opsi yang disebut arms yang dapat dipilih berkali-kali, bagaimana cara menyeimbangkan antara mengeksplorasi arm yang ada untuk mengumpulkan informasi atau mengeksploitasi arm yang terlihat terbaik untuk memaksimalkan keuntungan. Oleh karena itu, Multi-Armed Bandit menjadi alternatif yang lebih dinamis dari percobaan acak. Contoh dari aplikasi Multi-Armed Bandit adalah menentukan artwork film yang harus ditunjukkan untuk menarik pengunjung untuk menonton film tersebut. Distribusi Bernoulli dengan parameter θ dipilih untuk memodelkan respons dari pengunjung setelah melihat artwork film. Kondisi tidak stasioner pada θ dapat diimplementasikan untuk mengakomodasi periode keunggulan berbeda dalam artwork film. Kondisi tidak stasioner pada studi ini dimodelkan melalui piecewise-stationary, yaitu θ dapat berubah nilai, namun tetap konstan di setiap periode yang didefinisikan. Pada penelitian ini, digunakan beberapa policy seperti Epsilon Greedy, SoftMax, Upper Confidence Bounds, Thompson Sampling, Sliding Window Upper Confidence Bounds, Discounted Upper Confidence Bounds, dan juga Discounted Thompson Sampling, untuk menangani permasalahan Multi-Armed Bandit dengan Piecewise-Stationary Bernoulli Arms. Simulasi dilakukan pada kondisi yang berbeda-beda untuk menguji performa policy tersebut dalam berbagai kondisi yang ada. Berdasarkan simulasi tersebut, Discounted Thompson Sampling policy menunjukkan performa yang sangat baik dalam menangani kondisi stasioner maupun piecewise-stationary. ......The Multi-Armed Bandit problem is a problem in reinforcement learning that focuses on how to design an experiment, given a set of options called arms that could be tried many times, how to balance between exploring the available arms to gather information or exploiting the seemingly best arm to maximize profit. Because of this, Multi-Armed Bandit has gained its popularity as a more dynamic approach to a randomized trial. An example of Multi-Armed Bandit is in determining recommending a film artwork to show to a visitor. Bernoulli distribution with parameter θ is chosen to model the respons of the visitor whether they watch the film or not. Non-stationary condition on θ can be implemented to accommodate various trends in film artworks, the non-stationary condition in this study is modeled through Piecewise-Stationary. In this study, several policies are used, such as Epsilon Greedy, SoftMax, Upper Confidence Bounds, Thompson Sampling, Sliding Window Upper Confidence Bounds, Discounted Upper Confidence Bounds, and Discounted Thompson Sampling, in handling Multi-Armed Bandit with Piecewise-Stationary Bernoulli Arms. Multiple simulations have been done to empirically evaluate the performance of the policies. Based on the simulation, Discounted Thompson Sampling policy shows a remarkable performance in tackling stationary and piecewise-stationary condition.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Abyoso Hapsoro Nurhadi
Abstrak :
Berdasarkan data World Health Organization (WHO) hingga 6 Januari 2022, terdapat 4.264.669 kasus terkonfirmasi COVID-19 dengan jumlah kematian sebanyak 144.116 pasien di Indonesia. Figur ini meningkat drastis saat dibandingkan data WHO hingga 25 April 2021 sebesar 1.636.792 kasus terkonfirmasi dengan jumlah kematian sebanyak 44.500 pasien. Varian B.1.617.2 atau lebih umum dikenal sebagai Delta dinyatakan hadir di Indonesia pada 3 Mei 2021 dengan dua kasus positif terdeteksi di Jakarta. Varian ini memiliki daya tular yang lebih tinggi dan mengakibatkan gejala COVID-19 lebih parah sehingga menjadi varian yang mendominasi persebaran COVID-19 di Indonesia. Menurut revisi protokol tatalaksana COVID-19 edisi ketiga, seorang pasien COVID-19 dapat dibedakan menjadi lima kategori berdasarkan severitas kasus yang diderita dengan tingkat risiko tertinggi yaitu kritis. Pasien COVID-19 yang digolongkan kategori kritis menunjukkan gejala Acute Respiratory Distress Syndrome (ARDS), sepsis, dan syok sepsis. Dengan menganalisisis berbagai faktor yang terkait dengan gejala-gejala tersebut, dapat dibangun sebuah pemahaman berbentuk model Machine Learning untuk mengestimasi tingkat risiko kasus seorang pasien COVID-19. Model Machine Learning yang dibangun mencakup berbagai model, seperti model berbasis tree maupun berbasis ensemble. Dalam penelitian ini, tingkat risiko disimplikasi menjadi dua, yaitu severe dan non-severe berdasarkan urgensi perawatan khusus di rumah sakit. Untuk menentukan model optimal, digunakan metrik evaluasi Recall guna memberi perhatian kepentingan pasien tergolong kasus severe berhasil dideteksi severe dengan benar. Digunakan data pasien positif COVID-19 pada salah satu rumah sakit di Jakarta dari Januari 2020 hingga Agustus 2021 yang dibagi menjadi dua periode, sebelum dan sesudah adanya varian Delta. Dengan pembagian data ini, dapat dibangun tiga model Machine Learning yaitu model sebelum Delta, model setelah Delta, dan model keseluruhan. Dari ketiga model yang terbangun, akan diperiksa apakah ada perbedaan yang signifikan. Lebih lanjut, model-model Machine Learning yang terbentuk akan diuji tingkat kepercayaan terhadap prediksinya menggunakan metode Conformal. Diperoleh model Random Forest berhasil mengklasifikasikan data COVID-19 dengan lebih baik dibanding model-model lainnya. Model Random Forest pada seluruh variabel respon mencapai Recall 86,49%. Dengan identifikasi 4 variabel terpenting, model mencapai Recall 80,18%. Mendukung hasil ini, model percaya 90% dengan prediksi yang dihasilkan. ......According to World Health Organization (WHO) data to 6 January 2022, there have been 4.264.669 confirmed cases of COVID-19 with 144.116 patient deaths in Indonesia. This figure has significantly increased when compared with WHO data to 25 April 2021, where there were 1.636.792 confirmed cases with 44.500 patient deaths. The B.1.617.2 variant or more commonly known as Delta was announced to be present in Indonesia on 3 May 2021 with two positive cases detected in Jakarta. This variant is more contagious and causes worse COVID-19 symptoms which made it the dominating variant of COVID-19 distribution in Indonesia. According to the revision of COVID-19 governance protocol third edition, a patient of COVID-19 can be differentiated to five categories depending on the severity of their case with the highest risk being critical. A patient of COVID-19 that is categorized as critical will show symptoms of Acute Respiratory Distress Syndrome (ARDS), sepsis, and sepsis shock. Through analyzing the factors that are related to these symptoms, we can build an understanding in the form of Machine Learning to estimate a COVID-19 patient’s degree of severity. The Machine Learning model that will built encompasses many models, such as tree-based models and ensemble-based models. In this research, this degree is simplified into two, which are severe and non-severe with accordance to the urgency of special care in hospitals. To determine optimal models, the Recall evaluation metric is used as a means to give better attention to making sure severe patient cases are properly classified as severe. The data used will be positive COVID-19 patients in a Jakarta-based hospital from January 2020 until August 2021 which is split into two periods of before and after the presence of Delta variant. With this division, we can build three Machine Learning models which has it learn before Delta, after Delta, and overall. From each of these built models, we will then determine if there exists a significant difference between them. Furthermore, the Machine Learning models that are built will be tested in its confidence on their own prediction using the Conformal method. We procure that Random Forest model classifies COVID-19 data better than all other models. Random Forest built on all response variables achieve 86,49% Recall. With the identification of 4 most important variables, the model achieves 80,18%. Supporting this result, the model has 90% faith in its prediction.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library