Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 5 dokumen yang sesuai dengan query
cover
Muhammad Fairuzi Teguh
Abstrak :
Open Information Extraction (Open IE) merupakan topik yang telah diteliti cukup lama terutama pada bahasa Inggris. Pada pekerjaan open information extraction, dikembangkan banyak model baik yang melakukan ekstraksi relasi umum maupun yang berfokus pada relasi khusus, misalnya relasi numerik. Pada bahasa Indonesia, telah dikembangkan beberapa model open information extraction namun belum ada model yang berfokus pada relasi numerik. Padahal, sangat banyak informasi yang disajikan dalam bentuk numerik sehingga informasi tersebut belum dapat dimanfaatkan dengan baik. Karena itu, pada riset ini kami berfokus pada ekstraksi relasi numerik pada teks berbahasa Indonesia. Tantangan dalam pekerjaan ini adalah banyaknya relasi yang mungkin dari ekspresi numerik serta kategori ekspresi numerik yang beragam yaitu kardinal, kuantitas, persen, dan uang. Selain itu, banyak juga ekspresi numerik yang tidak menyatakan sebuah relasi numerik. Kontribusi riset ini adalah model ekstraksi atribut numerik dari teks berbahasa Indonesia. Walaupun pekerjaan ini adalah pilot task, model kami memperoleh hasil yang cukup baik dengan precision score 61.06%. ......Open Information Extraction (Open IE) is a widely studied topic, especially in English. In open information extraction research, many models have been developed for general relation extraction or for specific relations, for instance, numerical relations. In Indonesian language, there have been some works on open information extraction models but none is focusing on numerical relations. With so much information given in numerical expression, it is so unfortunate if that information can not be used. Thus, in this research, we focus on numerical relation extraction in Indonesian texts. The challenge in this work is a huge number of relations that can be produced from numerical expressions as well as several categories of numerical expressions: cardinal, quantity, percent, and money. Furthermore, many numerical expressions do not express any numerical relation. Our contribution is a numerical relation extraction model from Indonesian texts. While this work is a pilot task, our model obtained a good result with precision score of 61.06%.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gusman Dharma Putra
Abstrak :
Jenis bencana alam, lokasi, dan waktu kejadian adalah informasi minimal bisa mengindikasi terjadinya sebuah bencana alam. Salah satu sumber informasi kejadian bencana alam adalah dari berita di media siber. Suatu sistem informasi tentang bencana alam bisa memanfaatkan berita di media siber sebagai sumber data, namun harus mengubah data teks berita menjadi bentuk data terstruktur. Teknik penambangan teks yang bisa digunakan untuk mendapatkan data terstruktur dari suatu kumpulkan teks. Penelitian ini melakukan eksplorasi efektivitas teknik penambangan data untuk mengekstrak informasi jenis bencana alam, lokasi, dan waktu kejadian. Metode web scraping digunakan untuk mengumpulkan data teks berita dari media siber dan anotasi manual dilakukan untuk membuat data gold standard. Penelitian ini menggunakan klasifikasi teks dengan machine learning untuk mengetahui jenis bencana alam yang diberitakan. Klasifikasi biner diterapkan untuk mengetahui pemberitaan tentang bencana angin topan, banjir, erupsi, gempa, karhutla, kekeringan, longsor, dan tsunami. Algoritma yang diuji untuk klasifikasi teks adalah Multinomial Naive Bayes, Support Vector Machine, Random Forest, Linear Regression dan Adaboost. Penelitian ini memanfaatkan aplikasi Stanford NER untuk mengetahui entitas lokasi di suatu teks, kemudian gazetteer digunakan untuk pemetaan wilayah administrasi. Penelitian ini menggunakan pencocokan pola teks dengan regular expression untuk mengekstrak informasi tanggal kejadian bencana alam. Nilai F1 dari model klasifikasi penelitian ini untuk berita bencana angin topan, banjir, erupsi, gempa, karhutla, kekeringan, longsor, dan tsunami adalah 0,731, 0,767, 0,760, 0,761, 0,749, 0,680, 0,763, dan 0,600. Sedangkan Nilai F1 untuk hasil ekstraksi lokasi dan waktu adalah 0,795 dan 0,881. ......The minimal information to notice the occurrence of a natural disaster is its type, location, and event time. News in the cyber media can be a source of information to discover disaster events. Furthermore, natural disaster information systems can utilize that news as the data source. The news needs to be converted into structured data to be processed by system information. Text mining is a method to extract structured information from a text collection. This research explored the effectiveness of data mining to extract natural disaster type, location, and event time reported by news in cyber media. The web scraping method was used to collect news in cyber media and manual annotation was performed to create gold-standard data. This study used text classification with a machine learning approach to identify the types of natural disasters reported. Binary classification was applied to label news for following disaster types: hurricanes, floods, eruptions, earthquakes, forest and land fires, droughts, landslides, and tsunami. This research evaluated Multinomial Naive Bayes, Support Vector Machines, Random Forests, Linear Regression, and AdaBoost algorithm for text classification tasks. This study utilized the Stanford NER application to recognize location entities in a text, then the gazetteer was used to get administrative area information. This study applied text patterns with regular expressions to extract date information of disaster events. The F1 value of 8 classification model in this research for following disaster news type: hurricanes, floods, eruptions, earthquakes, forest and land fires, droughts, landslides, and tsunami, are 0.731, 0.767, 0.760, 0.761, 0.749, 0.780, 0.680, 0.763, and 0.600. The F1 value of method to extract location and event time information are 0.795 and 0.881.

 

Depok: Fakultas Ilmu Komputer Universitas Indonesia , 2020
TA-Pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Wongkar, Enggelin Giacinta
Abstrak :
With the vast development of data to become informations on the Internet, everything online seems to explode at a rapid rate. These informations, including online news which is created as a complement to the original printed media, has even overtaken the latter. Subdirectorate of Household National Account and Non-profit Institution of Statistics Indonesia is in charge for the work of media research. In the process of media research, time and human resources are two important elements but yet having problem of ineffective and inefficient process. This study aimed to overcome that problem by developing a web crawler system that could do summarization automatically from online news sites (currently from Bisnis and Kontan) with output in Microsoft Word format file and minimizing number of similar news. This system is developed using several techniques in information technologies such as crawling and wrapping method and cosine similarity method to minimalize similar news. The result shows the process of media research by using this system much more effective and efficient.
Jakarta: Sekolah Tinggi Ilmu Statistik (STIS-Statistics Institute Jakarta, 2014
JASKS 6:2 (2014)
Artikel Jurnal  Universitas Indonesia Library
cover
Abstrak :
The rapid growth of internet causes the abudance of textual information. It is necessary to have smart tools and methods than can access text content as needed....
Artikel Jurnal  Universitas Indonesia Library
cover
Budi Hartadi
Abstrak :
ABSTRAK
Undang-Undang adalah Peraturan Perundang-undangan yang dibentuk oleh Dewan Perwakilan Rakyat dengan persetujuan Presiden. Undang-Undang memiliki sifat mengikat secara umum. Semua ketentuan pada Undang-Undang berlaku untuk seluruh rakyat Indonesia, termasuk ketentuan pidana di dalamnya. Oleh karena itu, setiap warga negara Indonesia perlu memahami informasi sanksi pidana pada Undang-Undang. Melalui penelitian ini, peneliti mengajukan metode untuk mendapatkan informasi pidana dari Undang-Undang. Pendekatan yang dilakukan adalah dengan melakukan klasifikasi tiap pasal, ayat, dan poin huruf pada Undang-Undang. Penelitian ini menggunakan tiga metode klasifikasi, yaitu Support Vector Machine, Classification and Regression Tree, dan Ripple Down Rules Learner. Hasil pengujian menunjukkan bahwa metode Classification and Regression Tree memberikan hasil terbaik, dengan F1-score mencapai 93,3 .
ABSTRACT
Law is a set of provisions and rules formed by People 39 s Representative Council with the agreement of President. Law generally binds every people in Indonesia. In other words, all provisions in Law apply to all people in Indonesia, including the punishment provisions. Because of that, every Indonesian people needs to understand the punishment provisions in Law documents. In this research, we propose a method to get all the punishment provisions from Law text. The approach taken is by doing classification on every articles, verses, and points in Law document. We use three classification methods in this research, which are Support Vector Machine, Classification and Regression Tree, and Ripple Down Rules Learner. Experiment results show that Classification and Regression Tree gives the best results, with F1 score reaching 93,3 .
Depok: 2018
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library