Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 107698 dokumen yang sesuai dengan query
cover
Hendrico Kristiawan
"Pertanyaan konsultasi pada sebuah forum daring perlu dijawab oleh dokter spesialis yang tepat agar jawaban yang diberikan akurat dan bermanfaat bagi pengguna yang bertanya. Terkait hal tersebut, penelitian ini membahas tentang pengembangan model yang dapat secara otomatis mengarahkan sebuah pertanyaan konsultasi kesehatan ke dokter dengan spesialisasi yang sesuai. Lebih jauh lagi, model yang dibangun merupakan model klasifikasi multi-label karena sebuah pertanyaan dapat terasosiasi dengan lebih dari satu spesialisasi. Penelitian ini dimulai dengan mengevaluasi keefektifan metode pemetaan berbasis aturan dalam memprediksi data yang dianotasi oleh pakar, dan diperoleh hasil yang menunjukkan tingkat keberhasilan yang cukup. Selanjutnya, dikembangkan sebuah model machine learning yang melakukan klasifikasi domain spesialis dokter. Pelatihan model dilakukan dengan berbagai metode, termasuk supervised, unsupervised, serta semi-supervised learning. Model terbaik ditemukan melalui metode domain adaptive pre-training dengan IndoBERT-large sebagai model acuan dan melibatkan unsupervised learning. Selain itu, model supervised learning juga digunakan dengan menggunakan model konvensional, dan hasilnya digunakan untuk analisis kontribusi dari fitur-fitur yang digunakan dalam klasifikasi. Terakhir, penelitian ini mengevaluasi kembali anotasi yang dilakukan oleh manusia dengan menggunakan kata kunci sebagai pendekatan untuk mengurangi kesalahan dalam dataset. Dengan pendekatan ini, berhasil ditemukan beberapa kesalahan anotasi pada dataset yang dianotasi oleh manusia.

The consultation questions on an online forum need to be answered by the appropriate specialist doctors to provide accurate and beneficial answers to the users asking the questions. In relation to this, this study discusses the development of a model that can automatically direct a health consultation question to a doctor with the corresponding specialization. Furthermore, the constructed model is a multi-label classification model because a question can be associated with more than one specialization. There are several issues addressed in this work. This research begins by evaluating the effectiveness of rule-based mapping methods in predicting data annotated by experts, and the results show a satisfactory level of success. Furthermore, a multi-label classification model is developed to classify the specialist domains of doctors. The model training is performed using various methods, including supervised learning, unsupervised learning, and semi-supervised learning. The best model is found through domain adaptive pre-training using IndoBERT-large as the reference model and involving unsupervised learning. Additionally, the supervised learning model is also used with a conventional model, and the results are used to analyze the contribution of the features used in the classification. Lastly, this research re-evaluates the annotations made by humans using keyword-based approaches to reduce errors in the dataset. With this approach, several annotation errors were successfully identified in the dataset annotated by humans.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nabila Dita Putri
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.

Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kaysa Syifa Wijdan Amin
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.

Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gilang Catur Yudishtira
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.

Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Bagaskara Ghanyvian Istiqlal
"Kualitas tidur yang baik sangatlah penting untuk berbagai aspek kehidupan seperti kesehatan fisik, kesehatan mental, keselamatan, konsentrasi, performa, penyembuhan, dan lain-lain. Kualitas tidur tidak hanya mencakup aspek fisiologis, tetapi juga memperhatikan aspek mental seperti: kondisi setelah tidur, kepuasan dengan tidur, dan pengaruh pada kehidupan sehari-hari. Penelitian ini mengusulkan penggabungan data objektif yang berasal dari Fitbit dan kuesioner subjektif untuk mengklasifikasi kualitas tidur menggunakan K-Nearest Neighbor. Klasifikasi ini bertujuan untuk mempelajari fitur-fitur yang paling pengaruh dalam kualitas tidur. Data objektif yang berisikan data fisiologis dan aspek tidur terukur oleh Fitbit, serta data subjektif mengenai aspek mental, keduanya dijadikan fitur deskriptif dalam model. Analisa fitur yang paling berpengaruh dilakukan dari dua sudut pandang model, yaitu fitur target kualitas tidur subjektif dan fitur target kualitas objektif. Kedua model dilatih dengan serangkaian data preprocessing yang termasuk didalamnya terdapat seleksi fitur dan ekstraksi fitur. Seleksi fitur berbasis ANOVA F Test akan dibandingkan dengan ekstraksi fitur Principal Component Analysis (PCA) dan Neighborhood Component Analysis(NCA). Seleksi fitur ANOVA F-Test lebih baik dari PCA dan NCA dengan peningkatan skor sebesar 0,06-0,08 pada model objektif, dan 0,01-0,06 pada model subjektif. Skor terbaik terbaik dari model subjektif yaitu 0,52 dengan parameter jumlah fitur = 3 dan k-neighbors = 27. Skor terbaik terbaik dari model objektif yaitu 0,72 dengan parameter jumlah fitur = 7 dan k-neighbors = 4. Pada akhirnya, ditemukan 3 Fitur yang paling berpengaruh dalam klasifikasi subjektf, dan 7 fitur yang paling berpengaruh dalam klasifikasi objektif.

Good quality sleep is very important for various aspects of life such as physical health, mental health, safety, concentration, performance, healing, and others. Sleep quality does not only include physiological aspects, but also pay attention to mental aspects such as condition after sleep, satisfaction with sleep, and influence on daily life. This study proposes combining objective data from Fitbit and subjective questionnaires to classify sleep quality using K-Nearest Neighbor. This classification aims to study the features that have the most influence in sleep quality. Objective data containing physiological data and sleep aspects measured by Fitbit, as well as subjective data on mental aspects, are both used as descriptive features in the model. The analysis of the most influential features is carried out from two viewpoints of the model, namely the subjective sleep quality target feature and the objective quality target feature. Both models are trained with a series of preprocessing data which includes feature selection and feature extraction. ANOVA F Test based on feature selection will be compared with feature extraction of Principal Component Analysis (PCA) and Neighborhood Component Analysis (NCA). ANOVA F-Test feature selection is better than PCA and NCA with an increase in scores of 0.06-0.08 in the objective model, and 0.01-0.06 in the subjective model. The best score of the subjective model is 0.52 with the parameter number of features = 3 and k-neighbors = 27. The best score of the objective model is 0.72 with the parameter number of features = 7 and k-neighbors = 4. In the end, it was found 3 the most influential features in the subjective classification, and 7 the most influential features in the objective classification."
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Shinta Nataya Paramesti
"Identifikasi wajah berdasarkan ciri bibir berpengaruh pada keberhasilan pencarian citra wajah orang dikarenakan adanya variasi bentuk bibir yang dapat menjadi pembeda tiap individu. Untuk mempercepat pencarian pelaku kriminal, sebuah sistem aplikasi identifikasi wajah berdasarkan ciri bibir menjadi suatu kebutuhan. Sistem tersebut harus dapat mengekstrak ciri bibir dari sebuah citra digital menggunakan metode ekstraksi ciri yang akurat dan cepat.
Penelitian ini melakukan studi analisis kinerja metode eigenface dengan eigen fuzzy set (himpunan fuzzy eigen) untuk ekstraksi ciri bibir dalam sistem identifikasi wajah. Eigenface adalah metode ekstraksi ciri yang telah terbukti keberhasilannya dalam mengekstrak ciri wajah, sedangkan metode eigen fuzzy set dikembangkan berdasarkan teori himpunan fuzzy dan dapat digunakan untuk analisa citra. Metode deteksi bibir otomatis berdasarkan ciri warna juga dievaluasi efektifitasnya untuk perolehan citra dalam penelitian ini. Analisis dilakukan dengan metode analisis statistik desktiptif dan statistik inferensi. Uji coba dilakukan untuk dua skenario yang dibedakan berdasarkan citra bibir hasil segmentasi manual dan otomatis.
Hasil uji coba menunjukkan bahwa hasil deteksi otomatis hanya efektif mendeteksi bibir sebanyak 61.4% dan precision-recall perolehan wajah pada skenario 2 lebih rendah dari skenario 1. Metode eigen fuzzy set memiliki waktu komputasi lebih rendah dibandingkan metode eigenface. Sedangkan nilai precision-recall tertinggi dihasilkan oleh metode eigenface dengan rata-rata nilai 0.22%. Dari hasil ini disimpulkan bahwa metode ekstraksi ciri eigenface lebih efektif dibandingkan eigen fuzzy set. Sistem identifikasi wajah dengan metode eigenface untuk ekstraksi ciri kedepannya dapat dikembangkan menjadi sistem identifikasi wajah berbasis komponen wajah."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Aldi Naufal Fitrah
"Dengan bertambahnya jumlah pengguna internet seiring waktu, bertambah pula jumlah data yang dihasilkan dari aktivitas yang berasal dari media sosial. Data tersebut dapat digunakan untuk berbagai keperluan, salah satunya untuk keperluan moderasi supaya aktivitas pengguna internet tetap tunduk pada hukum yang berlaku. Namun, diperlukan cara yang optimal untuk melakukan proses tersebut mengingat data yang jumlahnya sangat besar. Penelitian ini mengajukan sebuah platform yang dapat menjadi salah satu pilihan untuk memproses data media sosial yang berjumlah besar tersebut. Rancangan platform pada penelitian ini ditujukan untuk dapat memiliki throughput yang besar. Selain itu, platform dirancang untuk dapat dimodifikasi demi memenuhi berbagai kebutuhan. Karenanya, aspek extensibility juga menjadi perhatian utama dalam proses pengembangan platform. Kedua tujuan utama dalam pengembangan platform ini dapat diwujudkan dengan bantuan sebuah klaster Apache Kafka yang membuat platform memiliki sifat loosely-coupled dan juga extensible. Dengan berpusat pada klaster Apache Kafka, proses pengolahan data yang ada dapat dilakukan secara paralel, dan terbukti dapat meningkatkan throughput dari platform secara keseluruhan. Sebagai pembanding, penelitian ini diuji coba dengan suatu skenario bersama dengan platform Tweetream yang dikembangkan oleh Susanto (2022). Hasil dari uji coba tersebut membuktikan bahwa platform pada penelitian ini dapat mengungguli Tweetream.

As the number of internet users increases over time, so does the amount of data generated from activities originating from social media. This data can be used for various purposes, one of which is for moderation purposes so that the activities of internet users remain subject to applicable laws. However, an optimal way to do the process is needed considering the huge amount of data. This research proposes a platform that can be one of the options for processing large amounts of social media data. The design of the platform in this research is intended to have a large throughput. In addition, the platform is designed to be modifiable to meet various needs. Therefore, extensibility is also a major concern in the platform development process. These two main objectives in the development of the platform can be realized with the help of an Apache Kafka cluster that makes the platform loosely-coupled and extensible. By centering on the Apache Kafka cluster, the data processing can be done in parallel, which has been proven to increase the throughput of the platform as a whole. For comparison, this study was tested in a scenario with the Tweetream platform developed by Susanto (2022). The results of the test proved that the platform in this study can outperform Tweetream."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sukmasari Triana Gita Putri
"Selama pandemi ini, para pemangku kepentingan pariwisata dan perhotelan di Indonesia harus menyesuaikan strategi mereka untuk bertahan hidup. Meskipun sebagian besar penduduk Indonesia aktif dan konsumtif di Internet, mereka membutuhkan dorongan motivasi seperti keterlibatan untuk mengeluarkan uang demi mendapatkan waktu bersantai. Penelitian ini menganalisis aktivitas pemasaran media sosial, menganalisis customer engagement yang terjadi, dan mengkaji pengaruh social media marketing (SMM) terhadap customer engagement hotel mewah saat terjadi pandemi dengan memanfaatkan big data. Dalam menganalisis SMM dan customer engagement, peneliti memanfaatkan data real time dari akun media sosial hotel kemudian menggunakan natural language processing (NLP) serta pelabelan data untuk mengolahnya. Analisis pengaruh menggunakan regresi data panel dari hasil analisis sebelumnya. Hasil yang didapatkan adalah gambaran SMM terkait dengan dimensi hiburan, terkini, interaksi, kustomisasi, serta aktivitas engagement pada media sosial. Dimensi hiburan dan terkini terwakili dengan 17 kata yang telah diuji keabsahannya. Dimensi interaksi meningkat pada akhir tahun 2020, sedangkan dimensi kustomisasi tidak banyak digunakan oleh pihak hotel. Customer engagement juga meningkat pada akhir tahun 2020. Diketahui bahwa penggambaran pengaruh yang dimiliki SMM terhadap customer engagement sesuai dengan model random-effect. Customer engagement yang terjadi di masa pandemi tidak hanya dipengaruhi oleh dimensi hiburan, terkini, interaksi, dan customisasi. Para pemasar dan pelaku bisnis perhotelan bisa mendapatkan perspektif baru tentang cara mengatasi SMM dan peningkatan engagement di Instagram selama pandemi ini. Berdasarkan studi sebelumnya yang telah dilakukan pada merek mewah, studi ini akan lebih bermanfaat bagi stakeholders pariwisata dan perhotelan.

During this pandemic, stakeholders of tourism and hospitality in Indonesia have to adjust their strategy to survive. Even though most Indonesia users are active and consumptive on the Internet, they need motivational drives such as an engagement to spend money for leisure. This research will examine the impact of social media marketing (SMM) on customer engagement in luxury hotels during the pandemic situations by utilizing the real time benefits of big data. Firstly, formed panel data of SMM and customer engagement. Researchers scripted real time data from social media accounts of the hotels then use natural processing language (NLP) and automated text analysis to processed the data. Then, for the impact analysis, researchers utilized a panel data regression from the transformed data panel. The results were describing the SMM related to four dimensions which are entertainment, trendiness, interaction, customization, and also the engagement activities. The results discovered that the random-effect model was suitable to determine the influence of SMM on customer engagement. During the pandemic, customer engagement was influenced by other unobservable variables besides entertainment, trendiness, customization, and interaction dimension. The marketer and hoteliers can get new perspectives about overcoming SMM on Instagram during this pandemic. Based on the previous study that has been done in luxury brands, this study will be more useful for tourism and hospitality stakeholders. "
Jakarta: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Rahmad Nur Iman
"Penelitian ini bertujuan untuk mengetahui tingkat kesadaran pengguna terkait informasi data pribadi, dan berbagai informasi data pribadi yang terdaftar di media sosial pengguna. Penelitian ini menggunakan pendekatan kualitatif dengan wawancara metode dan studi literatur. Subjek penelitian ini adalah mahasiswa S1 di Universitas Muhammadiyah Malang Universitas Indonesia dengan total 8 orang, yang ditentukan oleh a model convenience sampling. Hasilnya menunjukkan tahap kesadaran muncul ketika pengguna berpikir kritis dalam keputusan dimasukkannya pribadi informasi data. Hasil penelitian juga menunjukkan bahwa pengguna tahu beragam informasi data pribadi, yang sesuai untuk latar belakang setiap pengguna. Di Selain itu, perlu diperhatikan bahwa pengguna media sosial memperhatikan informasi data pribadi karena kekhawatiran tentang potensi penyalahgunaan informasi data pribadi, yang berasal dari pengguna lain dan penyedia media sosial tersebut. Penelitian ini mengidentifikasi bahwa pengguna media sosial harus memberikan diri mereka sendiri pengetahuan penggunaan media sosial. Pengetahuan seperti itu juga harus disertai dengan pengetahuan tentang pentingnya data pribadi bagi pengguna.

This study aims to determine the users level of awareness related to personal data information, and various personal data information that is registered on the users social media. This study uses a qualitative approach with interview methods and literature studies. The subjects of this study were S1 students at the University of Muhammadiyah Malang University of Indonesia with a total of 8 people, which was determined by a convenience sampling model. The results indicate the stage of awareness arises when users think critically in the decision of the inclusion of personal data information. The results also show that users know a variety of personal data information, which is appropriate for each users background. In addition, it should be noted that social media users pay attention to personal data information because of concerns about the potential misuse of personal data information, which comes from other users and social media providers. This research identifies that social media users must give themselves knowledge use of social media. Such knowledge must also be accompanied by knowledge of the importance of personal data for users."
Depok: Fakultas Ilmu Pengetahuan Budaya Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sangeeta Gupta
"The massive amounts of data collected from numerous sources like social media, e-commerce websites are a challenging aspect for analysis using the available storage technologies. Relational databases are a traditional approach of data storage more suitable for structured data formats and are constrained by Atomicity, Consistency, Isolation, and Durability (ACID) properties. In the modern world, data in the form of word documents, pdf files, audio and video formats are unstructured. Therefore, tables and schema definition are not a major concern, Relational databases, such as Mysql, may not be suitable to serve such Bigdata. An alternate approach is to use the emerging Nosql databases. In this work, a comprehensive performance and scalability evaluation of large web collection data in data stores, such as Nosql-Cassandra and relational-Mysql, is presented. These systems are evaluated with data and workloads that can be found related to Bigdata, yielding scalability of applications. The insights presented in this work serve not only for performance and scalability, but also as lessons learned and experiences relating to the configuration complexity and evaluation in sorting out the complex queries of what data storage can be used on which usage cases for large data sets. The results show how the Bigdata collected across the Web with billions of records generating continuously are poorly evaluated with Mysql in terms of ‘write’ operations, but how these perform well with Nosql-Cassandra. This paper yields a new approach which is unique in representing Nosql-Cassandra’s poor performance in retrieval of records and disk utilisation with ever-increasing loads. The results presented in this paper show an improvement in ‘read’ performance with the proposed architecture and configuration over Mysql, achieving cost saving benefits to any organisation willing to use Nosql-Cassandra for managing Bigdata for heavy loads."
Depok: Faculty of Engineering, Universitas Indonesia, 2015
UI-IJTECH 6:4 (2015)
Artikel Jurnal  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>