<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving DTD v1.0 20120330//EN" "JATS-journalarchiving.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:ali="http://www.niso.org/schemas/ali/1.0">
  <front>
    <article-meta>
      <title-group>
        <article-title>Analysis of Community Sentiments Regarding Plans to Relocate National Capital Using the Naïve Bayes Method</article-title>
        <subtitle>Analisa Sentimen Masyarakat Tentang Rencana Pemindahan Ibukota Negara Dengan Metode Naïve Bayes</subtitle>
      </title-group>
      <contrib-group content-type="author">
        <contrib id="person-492d595e8d3729762c6210a8685531ac" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <given-names>Tomi Eko Hidayat</given-names>
          </name>
          <email>tomiehidayat@umsida.ac.id</email>
          <xref ref-type="aff" rid="aff-1" />
        </contrib>
        <contrib id="person-5760ca4949fd62211a7966a539551b83" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <given-names>Mochamad Alfan Rosid</given-names>
          </name>
          <email>alfanrosid@umsida.ac.id</email>
          <xref ref-type="aff" rid="aff-2" />
        </contrib>
        <contrib id="person-93d5b2fe2e06536054c8504be5e08c5d" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <given-names>Ika Ratna Indra Astutik</given-names>
          </name>
          <email>ikaratna@umsida.ac.id</email>
          <xref ref-type="aff" rid="aff-3" />
        </contrib>
      </contrib-group>
      <aff id="aff-1">
        <institution content-type="orgname">Universitas Muhammadiyah Sidoarjo</institution>
        <institution content-type="orgdiv1">Prodi Informatika</institution>
        <country>Indonesia</country>
      </aff>
      <aff id="aff-2">
        <institution content-type="orgname">Universitas Muhammadiyah Sidoarjo</institution>
        <institution content-type="orgdiv1">Prodi Informatika</institution>
        <country>Indonesia</country>
      </aff>
      <aff id="aff-3">
        <institution content-type="orgname">Universitas Muhammadiyah Sidoarjo</institution>
        <institution content-type="orgdiv1">Prodi Informatika</institution>
        <country>Indonesia</country>
      </aff>
      <history>
        <date date-type="received" iso-8601-date="2020-07-29">
          <day>29</day>
          <month>07</month>
          <year>2020</year>
        </date>
      </history>
      <abstract>
        <p id="paragraph-edb299d6506151f1c6b5b14ad3091186">
          <italic id="_italic-1">The development of social media at this time can not be stopped. Social media has been used by most Indonesian people. Moving the capital to a hot issue discussed on social media. The government plans to move the capital to the island of Borneo. Of course, news about the news was much responded by netizens on social media. In this study the author tries to dig deeper into community sentiments about the plan to move the capital by utilizing the comments page on Twitter Media</italic>
          <italic id="_italic-2">. </italic>
          <italic id="_italic-3">The method used in this research is Naïve Bayes Classifier, a classic method that has a pretty good accuracy. Naive Bayes Classifier is a probabilistic classification based on the Bayes theorem, taking into account naïv independence assumptions. In addition to using the naïve bayes method, in this study the researchers also used word weighting. The weighting word used is TF-IDF, which is a combination of term frequency and inverse document frequency. By using 3 testing methods, namely Confusion matrix, Precission and Recall, and K-Fold Cross Validation. The results obtained in this study are 3 document classifications, namely Positive, Negative and Neutral. Testing is done by dividing the document into 2 subsets, namely training data and test data and the resulting accuracy of 64.6%.</italic>
        </p>
      </abstract>
    </article-meta>
  </front>
  <body id="body">
    <sec id="heading-107f8c7df94115a607479cce1f52f2e1">
      <title>Pendahuluan</title>
      <p id="_paragraph-15">Pemindahan ibukota menjadi isu yang hangat dibicarakan di media sosial. Pemerintah berencana memindahkan ibukota ke pulau Kalimantan. Dikutip dari laman berita liputan 6 pada tanggal September 26, 2019, presiden Jokowi membenarkan tentang pemindahan ibukota tersebut. Namun untuk kota yang akan dijadikan sebagai ibukota masih dilakukan analisa lebih dalam oleh pemerintah. Ibukota Negara sendiri merupakan kota yang menjadi tempat pusat kedudukan suatu Negara baik administratif, legislatif, eksekutif, dan yudikatif suatu Negara. Tentunya kabar tentang pemberitaan tersebut banyak ditanggapi oleh netizen di media sosial[1].</p>
      <p id="_paragraph-16">Perkembangan media sosial saat ini memang sudah tidak bisa terbendung[2][3]. Media sosial telah digunakan oleh sebagian besar masyarakat Indonesia. Dikutip dari laman resmi kominfo pada September 26, 2019 bahwa pengguna internet di Inodenesia sebanyak 63 Juta pengguna dan 95% pengguna tersebut menggunakan internet sebagai media sosial. Menurut data dari PT Bakrie Telecom, twitter memiliki 19,5 Juta Pengguna di Indonesia.</p>
      <p id="_paragraph-17">Pada penelitian ini penulis mencoba menggali lebih dalam sentimen masyarakat tentang rencana pemindahan ibukota. Menurut Kamus Besar Bahasa Indonesia, sentimen merupakan pendapat yang didasarkan atas perasaan yanqg berlebihan terhadap sesuatu. Sentimen disini dilontarkan kedalam bentuk tulisan di media sosial dan merupakan komentar publik terhadap kondisi tertentu. Komentar tersebut akan diolah untuk menjadi informasi dengan menggunakan suatu tools dan menghasilkan data mining berupa teks. Teks mining mempunyai tujuan untuk menggali data dan informasi dari beberapa dokumen. Sumber data yang digunakan dalam teks mining berasal dari kalimat atau sekumpulan teks yang memiliki format tidak terstruktur ataupun semi terstruktur[4].</p>
      <p id="_paragraph-18">Untuk mengolah data ini penulis menggunakan metode Naïve Bayes untuk menentukan sentimen positif , negative, dan netral terkait masalah diatas. Naïve bayes juga sudah digunakan oleh Agnes Rossi Trisna Lestari untuk menganalisa Sentimen Tentang Opini Pilkada Dki 2017 Pada Dokumen Twitter Berbahasa Indonesia Menggunakan Näive Bayes dan Pembobotan Emoji[5]. Dari penelitian tersebut didapatkan tingkat akurasi sistem pada pembobotan tekstual sebesar 68,52%, pada pembobotan nontesktual 75,93%, dan pada penggabungan kedua pembobotan 74,81%, dengan kesimpulan penggabungan kedua pembobotan dapat menambah akurasi sistem. Selain itu penelitian oleh Didik Garbian Nugroho juga menggunakan metode naïve bayes untuk menganalisa sentimen publik terhadap ojek online. Diperoleh kesimpulan dari penelitian tersebut yakni tingkat akurasi mencapai 80% berdasarkan 800 data tweet yang terdiri dari 300 data latih dan 500 data uji[6].</p>
      <p id="_paragraph-19">Naïve Bayes Classifier memang banyak digunakan untuk melakukan penelitian terhadap analisa sentimen publik di suatu website maupun media sosial. Naïve bayes classifier merupakan teknik pembelajaran mesin yang berbasis probabilistik[7][8]. Naïve bayes merupakan metode yang cukup sederhana untuk klasifikasi terhadap teks namun memiliki akurasi dan performasi yang cukup tinggi. Analisa sentimen yang dibangun dengan menggunakan metode naïve bayes memiliki akurasi 83%. Perbandingan metode Naïve Bayes, KNN, dan gabungan dari K-Means dan LVQ dalam mengklasifikasi kategori buku berbahasa Indonesia dengan jumlah data 200 buku yang terdiri dari 150 buku sebagai data latih dan 50 buku sebagai data uji. Hasil dari penelitian tersebut didapatkan tingkat akurasi metode KNN sebesar 96%, Naïve Bayes 98%, dan K-Means kombinasi LVQ 92,2%.</p>
      <p id="_paragraph-20">Perbandingan beberapa metode seperti metode Naïve Bayes, K-nearest Neighbor, dan gabungan K-means dan LVQ dalam mengklasifikasikan kategori buku berbahasa Indonesia dengan data yang digunakan berjumlah 200 buku dengan variabel berupa judul buku dan synopsis buku dan dibagi menjadi 150 buku digunakan sebagai data latih, sedangkan 50 buku digunakan sebagai data uji. Dari hasil penelitian yang dilakukan, metode KNN memperoleh akurasi sebesar 96%, kemudian Naïve Bayes sebesar 98%, lalu kombinasi K-Means dan LVQ menghasilkan akurasi sebesar 92,2%. Naïve bayes mendapatkan hasil akurasi tertinggi [2]. Dari penelitian yang dilakukan oleh Ni Wayan Sumartini Saraswati tentang sentimen analisis dihasilkan bahwa metode SVM dan NBC memiliki tingkat akurasi yang sama baiknya. SVM unggul pada klasifikasi opini positif sedangkan Naïve Bayes Classifier lebih unggul pada klasifikasi opini negatif, data yang digunakan yaitu opini Bahasa Indonesia pada twitter[4].</p>
      <p id="_paragraph-21">Berdasarkan latar belakang ini penulis melakukan penelitian terhadap sentiment masyarakat di media sosial twitter tentang pemindahan ibukota negara dengan menggunakan metode Naïve Bayes Classifier. Naïve bayes classifier dipilih karena memiliki metode yang tidak rumit namun bisa menghasilkan akurasi yang baik. Hasil yang akan diperoleh dari penelitian ini berupa klasifikasi sentimen masyarakat yang terbagi menjadi 3 klasifikasi yaitu positif, netral, dan negatif.</p>
    </sec>
    <sec id="heading-4de9d4945dc5d7cc32849a1abddecac3">
      <title>Metode Penelitian</title>
      <sec id="heading-1093d0b38f374904d9aa81cd6003a48e">
        <title>Pengumpulan data</title>
        <p id="_paragraph-24">Metode pengumpulan data yang digunakan adalah dengan 2 cara, yaitu studi literasi yang berasal dari buku serta jurnal tentang Analisa sentimen, Pembobotan kata, serta teks mining. Yang kedua melakukan proses crawling data twitter dengan menggunakan RStudio dengan kata kunci ibukota baru dan ibukota pindah dengan mention twitter kepada akun @jokowi, @tribunnews, @kompas dan @pak_jk. Data tersebut nantinya akan dibagi menjadi 2 bagian, yaitu data latih dan data uji, sebelum itu, data tersebut dilakukan tahap <italic id="_italic-6">pre-processing</italic> atau pembersihan data.</p>
      </sec>
      <sec id="heading-1ccfa6de1742db2e2425f04260b9e886">
        <title>Tahap <italic id="_italic-7">Preprocessing</italic></title>
        <p id="_paragraph-26">Tahap preprocessing disini adalah pembersihan data, fungsi dari tahap ini adalah agar akurasi yang didapat menjadi baik. Tahap preprocessing terdiri dari 4 bagian, yaitu[9][10] :</p>
        <list list-type="bullet" id="list-c95c3810b95a9ce6be1e82584ae7884e">
          <list-item>
            <p>Tahap Case Folding : Tahap ini merupakan proses mengubah seluruh kalimat menjadi huruf kecil</p>
          </list-item>
          <list-item>
            <p>Tahap Tokenizing : Tahap ini adalah tahap pemenggalan kalimat menjadi string/kata.</p>
          </list-item>
          <list-item>
            <p>Tahap Stemming : Tahap ini merupakan merubah kata menjadi kata dasarnya.</p>
          </list-item>
          <list-item>
            <p>Tahap Tagging : Tahap ini hanya dilakukan pada dokumen yang memiliki kata lampau, seperti Bahasa inggris, untuk dokumen berbahasa Indonesia tidak dilakukan tahap ini.</p>
          </list-item>
        </list>
      </sec>
      <sec id="heading-fe1577410c61a87e7705bc4d8f358557">
        <title>Pembobotan Kata</title>
        <p id="_paragraph-28">Pembobotan kata adalah pemberian nilai pada tiap kata berdasarkan indeks. Pembobotan kata yang digunakan pada penelitian ini adalah dengan TF IDF. TF IDF merupakan hasil perkalian dari Term Frequency atau jumlah kemunculan kata pada tiap dokumen serta Inverse Document Frequency atau kemunculan sebuah term dalam dokumen yang paling sedikit. Rumus dari TF IDF yaitu pada <xref id="xref-37e1b581848c785f0d3b6f1c3a0c9f01" ref-type="disp-formula" rid="block-formula-20bfd267bf903438e9d9a4156490766e">(1)</xref>:</p>
        <disp-formula id="block-formula-20bfd267bf903438e9d9a4156490766e" content-type="math/tex">
          <label>(1)</label>
          <tex-math><![CDATA[W𝑡,𝑑 = W𝑡𝑓𝑡,𝑑 𝑥 idf𝑡]]></tex-math>
        </disp-formula>
        <p id="_paragraph-30"><italic id="_italic-19">W</italic><italic id="_italic-20"><sub id="_subscript-8">𝑡𝑓𝑡</sub></italic><italic id="_italic-21"><sub id="_subscript-9">,</sub></italic><italic id="_italic-22"><sub id="_subscript-10">𝑑</sub></italic><italic id="_italic-23">: </italic>Nilai <italic id="_italic-24">term frequency</italic></p>
        <p id="_paragraph-31"><italic id="_italic-25">idf</italic><italic id="_italic-26"><sub id="_subscript-11">𝑡</sub></italic><italic id="_italic-27">: </italic>Nilai <italic id="_italic-28">Inverse Document Frequency </italic></p>
      </sec>
      <sec id="heading-11e2ce8938a5655feb52bd1e3ae9c5bd">
        <title>Naïve Bayes Classifier</title>
        <p id="_paragraph-33">Naïve Bayes Classifier merupakan metode yang sangat sering digunakan dalam data mining maupun teks mining, kemudahan dalam penggunaan metode ini adalah menjadi alasan digunakannya metode ini[11]. Naïve bayes Classifier merupakan metode pengklasifikasian probabilistik berdasarkan teorema bayes dengan mempertimbangkan asumsi kemandirian naïve. Selain penggunaan metode yang mudah, akurasi yang didapat dari metode ini cukup akurat. Berikut persamaan umum dalam <xref id="xref-1535df608f185e5125c6443658aede11" ref-type="disp-formula" rid="block-formula-d07b7ff8eb921a0cfa0e2d69860c468c">(2)</xref> metode naïve bayes :</p>
        <disp-formula id="block-formula-d07b7ff8eb921a0cfa0e2d69860c468c" content-type="math/tex">
          <label>(2)</label>
          <tex-math><![CDATA[P(Cj|Wi) =(  P(Cj) x P(Wi|Cj))/(P(Wi))]]></tex-math>
        </disp-formula>
        <p id="_paragraph-35"><italic id="_italic-29">P(C</italic><italic id="_italic-30"><sub id="_subscript-12">j</sub></italic><italic id="_italic-31">|W</italic><italic id="_italic-32"><sub id="_subscript-13">i</sub></italic><italic id="_italic-33">)</italic> :<italic id="_italic-34">Posterior</italic>, adalah kemunculan peluang pada kategori j tertentu ketika terdapat kemunculan kata i</p>
        <p id="_paragraph-36"><italic id="_italic-35">P(C</italic><italic id="_italic-36"><sub id="_subscript-14">j</sub></italic><italic id="_italic-37">)</italic>:Prior, adalah peluang kemunculan dokumen pada kategori j</p>
        <p id="_paragraph-37"><italic id="_italic-38">P(W</italic><italic id="_italic-39"><sub id="_subscript-15">i</sub></italic><italic id="_italic-40">|C</italic><italic id="_italic-41"><sub id="_subscript-16">j</sub></italic><italic id="_italic-42">) </italic>: <italic id="_italic-43">Likelihood</italic> atau <italic id="_italic-44">Conditional Probability</italic>, adalah peluang sebuah kata i masuk ke dalam kategori j</p>
        <p id="_paragraph-38"><italic id="_italic-45">P(W</italic><italic id="_italic-46"><sub id="_subscript-17">i</sub></italic><italic id="_italic-47">) </italic>: Evidence, adalah peluang kemunculan sebuah kata</p>
        <p id="_paragraph-39"><italic id="_italic-48">i</italic> : indeks kata yang berawal dari 1 sampai dengan kata ke-k</p>
        <p id="_paragraph-40"><italic id="_italic-49">j</italic> : indeks kategori yang berawal dari 1 sampai dengan kategori ke-n</p>
        <p id="_paragraph-41">Menghitung jumlah dokumen pada kategori tertentu digambarkan pada persamaan <xref id="xref-924e96009ed2aca778e6ec539fe0c0f8" ref-type="disp-formula" rid="block-formula-48321e84287845d57b4fb517c9640392">(3)</xref> berikut:</p>
        <disp-formula id="block-formula-48321e84287845d57b4fb517c9640392" content-type="math/tex">
          <label>(3)</label>
          <tex-math><![CDATA[P(Cj) =   N(Cj) / N]]></tex-math>
        </disp-formula>
        <p id="_paragraph-43"><italic id="_italic-56">N(C</italic><italic id="_italic-57"><sub id="_subscript-20">j</sub></italic><italic id="_italic-58">) : </italic>jumlah dokumen latih yang masuk dalam kategori j</p>
        <p id="_paragraph-44"><italic id="_italic-59">N :</italic> jumlah keseluruhan dokumen</p>
        <p id="_paragraph-45"><italic id="_italic-60">Multinomial Model </italic>merupakan model probabilitas yang peneliti gunakan. Berikut merupakan persamaan <xref id="xref-166f2b397dbdf742f88247b85e29735f" ref-type="disp-formula" rid="block-formula-d3752073586d7e2cfdd31b89340e45f0">(4)</xref> <italic id="_italic-61">Multinomial Model</italic></p>
        <disp-formula id="block-formula-d3752073586d7e2cfdd31b89340e45f0" content-type="math/tex">
          <label>(4)</label>
          <tex-math><![CDATA[P(w|c) =(Count (w,c)+1)/(Count(c)+|V|)]]></tex-math>
        </disp-formula>
        <p id="_paragraph-47">Count( <italic id="italic-44970044e97c94bfb857798334baccaf">w,c </italic>) = jumlah kemunculan kata w pada kategori c</p>
        <p id="_paragraph-48">Count( <italic id="italic-598a406f0c4b14eba3129f098ce6a194">c</italic> ) = jumlah total kemunculan semua kata pada kategori c</p>
        <p id="_paragraph-49">|V| = jumlah term unik atau fitur</p>
        <sec id="heading-c4d57ee598e3896df7b9db529094e687">
          <title>Rencana Pengujian</title>
          <p id="_paragraph-51">Pengujian perhitungan akan dilakukan dengan 3 pengujian, yaitu :</p>
        </sec>
        <sec id="heading-38d7ca21d6be4b48d56475a6487c6d20">
          <title>
            <italic id="italic-1">Confusion</italic>
            <italic id="italic-2">Matrix</italic>
          </title>
          <p id="_paragraph-52"><italic id="_italic-62">Confusion</italic> <italic id="_italic-63">matrix</italic> atau <italic id="_italic-64">error</italic> <italic id="_italic-65">matrix</italic> adalah sebuah metode perhitungan akurasi terhadap sebuah sistem pada konsep data mining. Terdapat 4 istilah di dalam <italic id="_italic-66">Confusion</italic> <italic id="_italic-67">matrix</italic> yaitu, True Positif (TP), True Negatif (TN), False Positif (FP), dan False Negatif (FN).</p>
        </sec>
        <sec id="heading-35d4770a5d54bc00a78e4a29d04b77fc">
          <title>
            <italic id="italic-41d0c367a1b70b41f2240664f7814c67">Precision and Recall</italic>
          </title>
          <p id="_paragraph-53"><italic id="_italic-68">Precision</italic> merupakan tingkat ketepatan antara informasi yang diminta dengan jawaban yang diberikan oleh sistem. Sedangkan <italic id="_italic-69">Recall</italic> merupakan tingkat keberhasilan sistem menemukan kembali sebuah informasi.</p>
        </sec>
        <sec id="heading-419c13e5853609030c5da3f514d8ea00">
          <title>
            <italic id="italic-cfa2f42b80acaafefc22b15837aa5990">Cross</italic>
            <italic id="italic-d607ea168b04fa773d5bece4c38b48e0">Validation</italic>
          </title>
          <p id="_paragraph-54"><italic id="_italic-75">Cross</italic> <italic id="_italic-76">Validation</italic> adalah metode statistik untuk mengukur kinerja model algoritma dimana data dipisahkan menjadi 2 subset, yaitu data latih dan data uji. Pada penelitian ini penulis menggunakan 10 k-fold cross validation.</p>
        </sec>
      </sec>
    </sec>
    <sec id="heading-1f5feb507b474c36626b6785b50a4d71">
      <title>Hasil Penelitian Dan Pembahasan</title>
      <sec id="heading-e714a884ad528eec2c2e3442effcd2e0">
        <title>Input Data</title>
        <p id="_paragraph-57">Data yang dibutuhkan untuk melakukan sebuah percobaan yaitu dokumen yang mempunyai format csv. Dokumen yang di masukkan nantinya juga memiliki 2 kolom, yaitu kolom kalimat dan kolom kategori. Sebelumnya dokumen sudah diberikan kategori secara manual. Dokumen didapat dengan 2 cara, yaitu:</p>
        <list list-type="bullet" id="list-6c68930b44f3577e12c007f762acea09">
          <list-item>
            <p>Crawling data dari twitter menggunakan RStudio dengan keyword Ibukota Pindah dan Ibukota Baru</p>
          </list-item>
          <list-item>
            <p>Pencarian secara manual di twitter dengan keyword Ibukota Baru dan Ibukota Pindah dengan tujuan akun @jokowi, @TribunNews, @Kompascom, dan @pak_JK.</p>
          </list-item>
        </list>
        <p id="_paragraph-58">Dokumen yang didapat dari kedua jenis pencarian yaitu :</p>
        <list list-type="bullet" id="list-0e5cd49c9542c7b8cf92df4f8871bbf2">
          <list-item>
            <p>123 Dokumen dengan Kategori Positif.</p>
          </list-item>
          <list-item>
            <p>173 Dokumen dengan Kategori Negatif.</p>
          </list-item>
          <list-item>
            <p>204 Dokumen dengan Kategori Netral.</p>
          </list-item>
        </list>
      </sec>
      <sec id="heading-868c940054afe2506321525d29693415">
        <title>Preproses</title>
        <p id="_paragraph-60">Preproses merupakan proses yang dilakukan sebelum proses perhitungan, fungsi dari proses ini adalah membersihkan data dari hal – hal yang tidak diperlukan, misalnya simbol, angka, spasi, kata yang tidak diperlukan, dan lainnya. Preproses ini secara umum dibagi menjadi 4 tahapan yang telah dijelaskan pada poin 2.2.</p>
        <p id="_paragraph-61">Pada penelitian ini peneliti menggunakan library sastrawi yaitu library yang berasal dari stemmer nadzief adriani yang telah dilakukan penyempurnaan. Library Sastrawi digunakan karena library ini merupakan library yang dibangun berdasarkan algoritma Nadzief dan Adriani yang mempunyai tingkat akurasi baik dalam stemming bahasa indonesia. Library ini juga telah mendapat perbaikan dari algoritma aslinya.</p>
        <p id="_paragraph-62">Pada penelitian ini peneliti juga memasukkan proses stopword removal yaitu proses menghilangkan atau menghapus kata yang terlalu banyak muncul atau tidak diperlukan dalam perhitungan, fungsi dari proses ini adalah untuk memperbesar presentase proses klasifikasi data uji. Berikut merupakan <xref id="xref-09079550efea8aba8fb6626e79cbe1e1" ref-type="table" rid="_table-figure-5">Table 1</xref> daftar stopword yang telah penulis susun :</p>
        <table-wrap id="_table-figure-5">
          <label>Table 1</label>
          <caption>
            <title>Daftar Stopword</title>
            <p id="_paragraph-64" />
          </caption>
          <table id="_table-5">
            <tbody>
              <tr id="table-row-52144276aa7488da5bd367bebbf9a1e3">
                <td id="table-cell-c88ac805cbe677b15c34a34ea46d0a69">'gue', 'sedang', 'jadi', 'serta', 'tiap', 'pas', 'sih', 'kan', 'kita', 'siapa', 'biar', 'tahun', 'makin', 'aja', 'saja', 'demi', 'lah', 'bikin', 'apalagi', 'saja', 'memang', 'lain', 'supaya', 'para', 'karena', 'akan', 'kota', 'atau', 'bangun', 'sudah', 'harus', 'mana', 'tapi', 'nanti', 'sekarang', 'seperti', 'buat', 'rakyat', 'masih', 'lagi', 'sama', 'nya', 'bisa', 'bagaimana', 'belum', 'bukan', 'jangan', 'presiden', 'republik', 'perintah', 'kalimantan', 'lebih', 'baik', 'apa', 'jakarta', 'negara', 'indonesia', 'mau', 'joko', 'widodo', 'di', 'pindah', 'juga', 'itu', 'ada', 'dari', 'untuk', 'ini', 'pak', 'banyak', 'dengan', 'dan', 'kalau', 'ke', 'jadi', 'x', 'd', 'ya', 'yang', 'yg', 'tidak', 'tdk', 'gak', 'ibukota', 'baru', 'saya', 'aku', 'gua', 'gw', 'kamu', 'anda', 'lo', 'lu', 'loe', 'bas', 'kayak', 'ingin', 'benar',</td>
              </tr>
            </tbody>
          </table>
        </table-wrap>
      </sec>
      <sec id="heading-498dc41753964f53c19107645af5ae51">
        <title>Bagi data</title>
        <p id="_paragraph-66">Data yang didapat dari twitter dibagi menjadi 2 subset yaitu data latih serta data uji. Pembagian dilakukan secara acak. Dokumen dibagi menjadi 60% data latih serta 40% data uji dari total 500 data. Pembagian data secara acak dilakukan guna mendapatkan nilai rata – rata akurasi yang didapatkan dari beberapa percobaan.</p>
      </sec>
      <sec id="heading-26d64593d1bfb4a86413735ae0096467">
        <title>Proses Data Latih</title>
        <p id="_paragraph-68">Setelah pembagian data latih, proses selanjutnya adalah menghitung probabilitas pada data latih. Perhitungan ini dibagi menjadi beberapa sub berikut.</p>
        <sec id="heading-20bee888abd157a3ee24f88856978092">
          <title>Perhitungan Term Frequency</title>
          <p id="_paragraph-70">Term frequency merupakan banyaknya kemunculan kata dalam satu dokumen. Karena fokus pada pembobotan pada penelitian ini adalah TF-IDF sehingga perhitungan <italic id="_italic-79">term</italic> <italic id="_italic-80">frequency</italic> hanya dilakukan dengan mencari kata per kata dalam sebuah kalimat tanpa harus menggunakan rumus.</p>
        </sec>
        <sec id="heading-19a26b15815d65e539a9880ec9787956">
          <title>Perhitungan TF-IDF</title>
          <p id="_paragraph-72">TF-IDF merupakan hasil perkalian dari nilai term frequency dan inverse document frequency. Nilai term frequency telah dibahas pada sub bab sebelumnya. Nilai inverse document frequency didapatkan dari log(seluruh dokumen/document frequency). Document frequency merupakan banyaknya dokumen dimana sebuah kata muncul. Sama halnya dengan term frequency, document frequency pun tak memerlukan rumus untuk menghitung nilainya, hanya dengan mengecek jumlah seluruh kata yang sama dan muncul pada berapa dokumen. Hasil yang penulis lampirkan pada tabel berikut hanya 5 baris awal dan 5 baris akhir dari seluruh jumlah baris dalam <xref id="xref-feac14255eed99ef72dac09bf479e228" ref-type="table" rid="_table-figure-6">Table 2</xref> TF-IDF.</p>
          <table-wrap id="_table-figure-6">
            <label>Table 2</label>
            <caption>
              <title><italic id="italic-1ef85360a07abaa2cb3a76fbfa36c000"/>TF-IDF</title>
              <p id="_paragraph-74" />
            </caption>
            <table id="_table-6">
              <tbody>
                <tr id="table-row-e8233e39ecc683bd3281b0577be50f6e">
                  <td id="table-cell-7907d72cb9983c4977d5e71b3f6cef19">idterm</td>
                  <td id="table-cell-8f625e70e12ec1a881c4157cde50917d">term</td>
                  <td id="table-cell-7dcfee5dc3781ffbff60e19f0fc7dcef">tf</td>
                  <td id="table-cell-717c0a19660ddde4269d23bf9bce4542">df</td>
                  <td id="table-cell-1a8ce77f0ee48e8087d0beb84a3a6306">Idf = Log(d/df)</td>
                  <td id="table-cell-85561fa9b61ec2f72482df646b1972c0">tf*idf</td>
                </tr>
                <tr id="table-row-a7d891470cfebc44dc4e484ac7c5f734">
                  <td id="table-cell-cb109996dfb4ee98dc11bbc5fe9525f0">1</td>
                  <td id="table-cell-6610ed56b69cd89e2bca852c3c38416f">acara</td>
                  <td id="table-cell-8703cfb32c3c524a8892949127464c88">1</td>
                  <td id="table-cell-6e47d1757f6869ef022265ee170bda4e">2</td>
                  <td id="table-cell-e91fd47470d4332ef9b5054a61a29968">Log(300/2) = 2,17319</td>
                  <td id="table-cell-3c49b70ff416f5c613a5e6228ea82617">1 * 2,17319 = 2,17319</td>
                </tr>
                <tr id="table-row-2d030c23e949678f61fe427ef166f242">
                  <td id="table-cell-c7da39fbe7f8467f35082de31689ff56">2</td>
                  <td id="table-cell-413221e44655b8ee8c8e4091779094ee">taxiway</td>
                  <td id="table-cell-18ea33ab401c3ec5ea339b8a9d6b94f6">1</td>
                  <td id="table-cell-ed18fa330d340afefb09293a14a526c5">1</td>
                  <td id="table-cell-9ea85ff175f0d95b1cfa3f1bbc212c1c">Log(300/1) = 2,47422</td>
                  <td id="table-cell-4464b73381716b5904a3b7c0d860b115">1 * 2,47422 = 2,47422</td>
                </tr>
                <tr id="table-row-0d3c27da1cb33f5e3408f88481f7b013">
                  <td id="table-cell-f35898fcd7c586e440c6711c701a27e0">3</td>
                  <td id="table-cell-8f853ffb02d220b1c7f800e89d9aeeca">landas</td>
                  <td id="table-cell-455f020571403c94abc91418bb0663a0">1</td>
                  <td id="table-cell-2db71db8386f8538ea754ec4c7849a50">1</td>
                  <td id="table-cell-5b41f9e7aefc37f7986bd62e2b80e273">Log(300/1) = 2,47422</td>
                  <td id="table-cell-23c9562d74f964985d4cbedeaf0a727f">1 * 2,47422 = 2,47422</td>
                </tr>
                <tr id="table-row-6691600be5491b784147ba5b76f4d66a">
                  <td id="table-cell-1d8fe9650942b467ed52004d5c887237">4</td>
                  <td id="table-cell-b2cb7e506ba81ccdb49cf6026c464a19">udara</td>
                  <td id="table-cell-6f5fe3523e1ddaf8c13bf2387102f738">1</td>
                  <td id="table-cell-328ca2059816dee3e7d5d5628d849cc8">1</td>
                  <td id="table-cell-606803d957007ea80feef800e96a4413">Log(300/1) = 2,47422</td>
                  <td id="table-cell-40e0c325e1d2601136882dee7302d39f">1 * 2,47422= 2,47422</td>
                </tr>
                <tr id="table-row-1b14b6bdc44d37fb57f4e9a1a2145037">
                  <td id="table-cell-1e8ffd2679ac30691e095f69c684eea1">5</td>
                  <td id="table-cell-7ee5acad0e025128b25b9b432bac0eae">tadi</td>
                  <td id="table-cell-f93322b6942b85db5777728e0252ae74">1</td>
                  <td id="table-cell-584f39d929bdcbda2581023a6be89a59">1</td>
                  <td id="table-cell-e4ab860f8ebe53df2f6da269ff2ad205">Log(300/1) = 2,47422</td>
                  <td id="table-cell-e76896d0d1fa5aeb60fc2257e12c2e47">1 * 2,47422 = 2,47422</td>
                </tr>
                <tr id="table-row-6aa47dc4fb52a377b727872bcfc85ae7">
                  <td id="table-cell-20bea6dbabf685d92e8f652518c52f64">2535</td>
                  <td id="table-cell-b919c43c61d17ccff493bb211c051983">moga</td>
                  <td id="table-cell-06be948158bbb38d7a6c3ae8356ae871">1</td>
                  <td id="table-cell-ce2ea03cab36ff97ff0cd151aea2b924">12</td>
                  <td id="table-cell-faf24d1f2d26a23211ace4a1703efb0d">Log(300/12) = 1,39504</td>
                  <td id="table-cell-ba9a5ea224f6732e92fab3ac4de2283c">1 * 1,39504 = 1,39504</td>
                </tr>
                <tr id="table-row-45000fe8f901080b1dae2540fab802f8">
                  <td id="table-cell-4c6c01dbfe0ad4e15a338bf70155f3f1">2536</td>
                  <td id="table-cell-b55b96371663977d63972b9b2bfe25ec">manfaat</td>
                  <td id="table-cell-308e968a03d1848e8c5283903258325b">1</td>
                  <td id="table-cell-5645ea847d22e69a2dfb406504294d25">4</td>
                  <td id="table-cell-8e0ead9667f4eb0010dc4511452e287a">Log(300/4) = 1,87216</td>
                  <td id="table-cell-75a25b4784d41d0313b3c99cd0dcca1d">1 * 1,87216 = 1,87216</td>
                </tr>
                <tr id="table-row-eddd6ae519f13c351146c02217b4be48">
                  <td id="table-cell-a9fe6187a5cf94959c74131bf51ab130">2537</td>
                  <td id="table-cell-89acc3ed83a7d1c5abae6b086710a88f">dapat</td>
                  <td id="table-cell-69a7c23378dc28e4203306df0767c28d">1</td>
                  <td id="table-cell-c6ef95465bee4ac1f1a28bd82e8a3f6d">9</td>
                  <td id="table-cell-c5566920ef7948c9ffb2dcc58e44bd0f">Log(300/9) = 1,51977</td>
                  <td id="table-cell-e1935a87654bf87f2520b82c322e6ade">1 * 1,51977 = 1,51977</td>
                </tr>
                <tr id="table-row-3053f37372f490429c9a243535369c4e">
                  <td id="table-cell-75f001cfe09676f98cb4898f33417923">2538</td>
                  <td id="table-cell-b8cd5ae7c8b20c25fe742db70a9263c4">rejeki</td>
                  <td id="table-cell-519f0151abe337e295fe86733cb00372">1</td>
                  <td id="table-cell-ae1e356b60cf79d68c4bb638eb2592ce">1</td>
                  <td id="table-cell-7828c7639ff9154aa12146cd187b6929">Log(300/1) = 2,47422</td>
                  <td id="table-cell-d02636695499cb0b6eb37cee51a9a69a">1 * 2,47422 = 2,47422</td>
                </tr>
                <tr id="table-row-0050308f3d1471caafb5cd0940c0703a">
                  <td id="table-cell-1590efc36b9984fe6bc9d334fe2c5ba3">2539</td>
                  <td id="table-cell-748bb31bdef684ce1ce935bbec0f1fa5">barokah</td>
                  <td id="table-cell-1c8b1bb4fdd3d013d26aa5aa031471f4">1</td>
                  <td id="table-cell-e0a8cc91dd323567611b428761119818">1</td>
                  <td id="table-cell-0fd900e1e03713422ed2d4b947180bc1">Log(300/1) = 2,47422</td>
                  <td id="table-cell-60ab15b932d526426b134aa58faab5a9">1 * 2,47422 = 2,47422</td>
                </tr>
              </tbody>
            </table>
          </table-wrap>
        </sec>
        <sec id="heading-65ac7a9c98cd1e2f63ae4a637e94ea73">
          <title>Perhitungan NKelas</title>
          <p id="_paragraph-76">NKelas merupakan total nilai TF-IDF pada sebuah kata pada sebuah kategori. Misal kata “lahan” mempunyai nilai TF-IDF sebesar 1,69607 dan kata “lahan” muncul pada dokumen berkategori negatif sebanyak 6 kali. Sehingga nilai dari NKelas untuk kata “lahan” pada kategori Negatif yaitu 6 x 1,69607 = 10,17642. Sedangkan kata “lahan” tidak pernah muncul pada dokumen berkategori Positif dan Netral, sehingga nilai dari NKelas untuk kata “lahan” pada kategori Positif dan Netral adalah 0.</p>
        </sec>
        <sec id="heading-3078ed8e7abdca57fdc8b88d7cae316a">
          <title>Perhitungan Probabilitas Kelas</title>
          <p id="_paragraph-78">Probabilitas kelas merupakan Multinominal Naïve Bayes, tahap ini adalah tahap akhir dari prose data latih, karena pada tahap ini telah didapat nilai probabilitas pada tiap kata di tiap kategori. Nilai ini yang nantinya dijadikan acuan sebagai perhitungan proses Data Uji.</p>
          <p id="_paragraph-79">Berikut Contoh perhitungan pada kata “acara” :</p>
          <p id="_paragraph-80">Positif :</p>
          <p id="_paragraph-81">Kata acara mempunyai nilai NKelas Positif sebesar 0.</p>
          <p id="_paragraph-82">Jumlah kata pada Kategori Positif yaitu 663.</p>
          <p id="_paragraph-83">Jumlah seluruh kata unik dalam data latih yaitu 1242. Sehingga didapat perhitungan sebagai berikut <xref id="xref-e1f0dd547248802d28e70c16a2b3a37a" ref-type="disp-formula" rid="block-formula-8920a22511f8088ef4fbcdfdd4dcfb47">(5)</xref>:</p>
          <disp-formula id="block-formula-8920a22511f8088ef4fbcdfdd4dcfb47" content-type="math/tex">
            <label>(5)</label>
            <tex-math><![CDATA[(0 + 1)/(663+1242)  =  0,00052]]></tex-math>
          </disp-formula>
          <p id="_paragraph-85">Sehingga nilai Probabilitas kata “acara” pada Kategori Positif yaitu sebesar 0,00052</p>
          <p id="_paragraph-86">Negatif :</p>
          <p id="_paragraph-87">Kata acara mempunyai nilai NKelas Negatif sebesar 0.</p>
          <p id="_paragraph-88">Jumlah kata pada Kategori Negatif yaitu 916.</p>
          <p id="_paragraph-89">Jumlah seluruh kata unik dalam data latih yaitu 1242. Sehingga didapat perhitungan sebagai berikut <xref id="xref-4a6cac47b6a603f811792f5a11a5abce" ref-type="disp-formula" rid="block-formula-45e815b1a2dd674af2e76ac90803685c">(6)</xref> :</p>
          <disp-formula id="block-formula-45e815b1a2dd674af2e76ac90803685c" content-type="math/tex">
            <label>(6)</label>
            <tex-math><![CDATA[(0 + 1)/(916+1242)  =  0,00046]]></tex-math>
          </disp-formula>
          <p id="_paragraph-91">Sehingga nilai Probabilitas kata “acara” pada Kategori Negatif yaitu sebesar 0,00046</p>
          <p id="_paragraph-92">Netral :</p>
          <p id="_paragraph-93">Kata acara mempunyai nilai NKelas Netral sebesar 4,34638.</p>
          <p id="_paragraph-94">Jumlah kata pada Kategori Netral yaitu 960.</p>
          <p id="_paragraph-95">Jumlah seluruh kata unik dalam data latih yaitu 1242. Sehingga didapat perhitungan sebagai berikut <xref id="xref-3bb694155ebfb01c3ea8b925e2602196" ref-type="disp-formula" rid="block-formula-e7490dffc6161dcd231c60ec702653eb">(7)</xref> :</p>
          <disp-formula id="block-formula-e7490dffc6161dcd231c60ec702653eb" content-type="math/tex">
            <label>(7)</label>
            <tex-math><![CDATA[ (4,34638 + 1)/(960+1242)  =  0,00243]]></tex-math>
          </disp-formula>
          <p id="_paragraph-97">Sehingga nilai Probabilitas kata “acara” pada Kategori Netral yaitu sebesar 0,00243</p>
          <p id="_paragraph-98">Hasil yang penulis lampirkan pada tabel berikut hanya 5 baris awal dan 5 baris akhir dari seluruh jumlah baris dalam tabel Probabilitas Kelas,</p>
          <table-wrap id="_table-figure-7">
            <label>Table 3</label>
            <caption>
              <title>Probabilitas Kelas</title>
              <p id="_paragraph-100" />
            </caption>
            <table id="_table-7">
              <tbody>
                <tr id="table-row-26f605c86f7c3e537c99cdd902512a35">
                  <td id="table-cell-6f6448261a8bfa22dc9374141478feae" rowspan="2">term</td>
                  <td id="table-cell-2d4139b1617a084229a33d9a2101e6e5" colspan="3">Probabilitas Kelas</td>
                </tr>
                <tr id="table-row-d3a9427f02ec058f73cfd05b1e2102af">
                  <td id="table-cell-63fa079bd664853f19ca6bbdb5f8db51">Positif</td>
                  <td id="table-cell-b2434b9d1a676951eaea6aef475e824d">Negatif</td>
                  <td id="table-cell-a6b51e6176dde5c1b12f77701208bb51">Netral</td>
                </tr>
                <tr id="table-row-36da41b66b5dd12dd99efd8a8e474cba">
                  <td id="table-cell-8865202240e2c6a02f34b71480d61447">acara</td>
                  <td id="table-cell-f5d148ad4cbe9110a0a0ab3db100526e">0.00052</td>
                  <td id="table-cell-a7c761f594ab31c61bbfa3ca28eb5c8b">0.00046</td>
                  <td id="table-cell-863324a18ff3bc4802f90408ad94a0e5">0.00243</td>
                </tr>
                <tr id="table-row-f4ecd6bece6f0d0e2c114ac6fdca65f7">
                  <td id="table-cell-8d80e3f064f10d7c6c00c9a0a70edfcd">taxiway</td>
                  <td id="table-cell-563428c7fc8d9401c6967b9734419915">0.00052</td>
                  <td id="table-cell-7dccf215c9be6faec727b9963641748b">0.00046</td>
                  <td id="table-cell-4b6443ad2bbeec797d5eb2fadce5239d">0.00158</td>
                </tr>
                <tr id="table-row-c006c87a95e2200d830570fbe96de642">
                  <td id="table-cell-bc091bd5dbf46d983f2a847d56f504b0">landas</td>
                  <td id="table-cell-8c3bf80523a1f158d062c743abc4fce8">0.00052</td>
                  <td id="table-cell-513e94ed509e3e5d2e9cf9420b4ff7a7">0.00046</td>
                  <td id="table-cell-df2711418fd0b2283647d65e6fc5bc18">0.00158</td>
                </tr>
                <tr id="table-row-aca9316fdb853a62759c6f38cf6e3c60">
                  <td id="table-cell-aa4673b3f71a821d0c8a827c193fef00">udara</td>
                  <td id="table-cell-4c53e89acf347d097943c61fa50ed093">0.00052</td>
                  <td id="table-cell-9221121e997236e6b04674c5380d52e8">0.00046</td>
                  <td id="table-cell-0341074576d85c6fe37f2acdea3605ba">0.00158</td>
                </tr>
                <tr id="table-row-3a1bfa07454fe67af71fa1c426b10346">
                  <td id="table-cell-77d29be4640b0d4a0fbd293ef985c276">tadi</td>
                  <td id="table-cell-19c79c0c7b175a06c86415201b6433f5">0.00052</td>
                  <td id="table-cell-0bab619678b8a48d6a65a7ff6bf6d4f6">0.00046</td>
                  <td id="table-cell-57cfeecc029328ff52912a34e789ec60">0.00158</td>
                </tr>
                <tr id="table-row-f6a99084b93e0d35be2da19972eae3d5">
                  <td id="table-cell-6b53a6448e213073fbe02f4ce7b05616">moga</td>
                  <td id="table-cell-cb3babe3dbcfc90298755b5245816075">0.01151</td>
                  <td id="table-cell-7f9b73fed2eec1619f1a74f09afec0c8">0.00046</td>
                  <td id="table-cell-45b8ddacbcc2cc349a50e6473878c1d3">0.00045</td>
                </tr>
                <tr id="table-row-e6e5f5d6bbb909c1979c6211a1c352bc">
                  <td id="table-cell-4270c6680c97caa4c86b7e542cdc5386">manfaat</td>
                  <td id="table-cell-760cc803aa1c54030f379946aaff49ae">0.00151</td>
                  <td id="table-cell-d2f81c86b7315d0b26a55e93fd04680e">0.0022</td>
                  <td id="table-cell-919ef287922a5a8d0ae6b2e9d0ec06cd">0.0013</td>
                </tr>
                <tr id="table-row-aa4b8b00eedbba77ae7b3c6856917995">
                  <td id="table-cell-515652845c1191c0b91955bd626f7017">dapat</td>
                  <td id="table-cell-2e26f393f8e9d5de8603af39c2fca519">0.00451</td>
                  <td id="table-cell-d8fc7026d226f288b1bfb1adfddd8cfe">0.00046</td>
                  <td id="table-cell-36522d41b2333d8ff178e35a42c3c85b">0.00322</td>
                </tr>
                <tr id="table-row-b34948d4c41fecf47852bfa4992969a9">
                  <td id="table-cell-db145178c450d3423a0f8812a0cd41ee">rejeki</td>
                  <td id="table-cell-4b08e602db94502e24c9ba68a9ca6eb2">0.00182</td>
                  <td id="table-cell-27f1ebd521f0a14654592e9afb0dce1a">0.00046</td>
                  <td id="table-cell-7c61cd3cd93e48801b5fb66866bb4cb6">0.00045</td>
                </tr>
                <tr id="table-row-40ad2fe20f5000a1d354f513ebe6afab">
                  <td id="table-cell-e79b6754e4df5b0850688ed80954e492">barokah</td>
                  <td id="table-cell-5ec666e985c331d6e370e8c7eb86419a">0.00182</td>
                  <td id="table-cell-fadb7e58d0ca356469e1e62d57c62aa9">0.00046</td>
                  <td id="table-cell-5cff84a858dd584825004dbab2deaeb4">0.00045</td>
                </tr>
              </tbody>
            </table>
          </table-wrap>
        </sec>
      </sec>
      <sec id="heading-511417cadd615bbc3d88a8e21d0b0156">
        <title>Data Uji</title>
        <p id="_paragraph-102">Setelah dilakukan proses data latih, selanjutnya adalah proses pengujian data. Data uji merupakan 40% dari total 500 data yang telah dibagi secara acak pada tahap Bagi Data. Proses pengujian diawali dengan menghitung nilai prior. Nilai prior merupakan nilai kemunculan suatu dokumen dalam sebuah kategori., yaitu jumlah dokumen dalam sebuah kategori dibagi dengan seluruh dokumen data latih.</p>
        <p id="_paragraph-103">Prior Positif = 74/300 = 0,24666666666667</p>
        <p id="_paragraph-104">Prior Negatif = 97/300 = 0,32333333333333</p>
        <p id="_paragraph-105">Prior Netral = 129/300 = 0,43</p>
        <p id="_paragraph-106">Setelah prior didapat, barulah dokumen akan dipecah menjadi string, dan nilai probabilitas string akan dikalikan dengan nilai prior tersebut.</p>
        <p id="_paragraph-107">Hasil yang dicantumkan pada <xref id="xref-490c2fa7122c4aef507568ea5e796fe0" ref-type="table" rid="_table-figure-8">Table 4</xref> di bawah ini merupakan hasil dari perhitungan 10 dokumen teratas pada data uji.</p>
        <table-wrap id="_table-figure-8">
          <label>Table 4</label>
          <caption>
            <title><italic id="_italic-86"/>Hasil Proses Data Uji 10 Dokumen</title>
            <p id="_paragraph-109" />
          </caption>
          <table id="_table-8">
            <tbody>
              <tr id="table-row-1125eb31b36d1e71353c8ae6d5e2435f">
                <td id="table-cell-8d7e93039b8d483933aa3ce69d37bc2e">Kalimat</td>
                <td id="table-cell-5d3c476c2c559d38fbbea436249cc76c">Positif</td>
                <td id="table-cell-7919baa9ac8b2d391861b00d5c85cd4a" colspan="2">Negatif</td>
                <td id="table-cell-d45fa34e39703097958060f0ed133c2d" colspan="2">Netral</td>
                <td id="table-cell-bd06c3f3fc7600550ee521d03e43208d">Prediksi</td>
              </tr>
              <tr id="table-row-3ea3b37f93748bf6944f621ddd622bb5">
                <td id="table-cell-108f0d4adf83778a659425a927013890">gerindra bilangin prabowo menteri tahan tahan pulau lapis alutsista infrastruktur tahan langsung batas malaysia laut china selatan satu infantri tambah</td>
                <td id="table-cell-4d5731973fb6734ecb75e20614ca2677">4,0344173853058E-44</td>
                <td id="table-cell-eb7c3c108d4c2c8e05d24eb2a7514a2a" colspan="2">2,4195105598393E-45</td>
                <td id="table-cell-722e3c365cb3ec7707c6b729e674f2cb" colspan="2">1,7060704364215E-43</td>
                <td id="table-cell-722119c8b86761871f057ae5bdb1b05b">Netral</td>
              </tr>
              <tr id="table-row-ab36747aa263479dc9119558194d3e6a">
                <td id="table-cell-65745c95c76afa9a11407be08620c524">acara taxiway landas udara tadi hendak inspirasi arsitek lupa masuk lapang raksasa</td>
                <td id="table-cell-e565ef6ea933f0a1818832be4d27c8ec">8,4556834634406E-40</td>
                <td id="table-cell-3d3f20e4871df4155e66b008ef7e5294" colspan="2">3,7556943056786E-39</td>
                <td id="table-cell-e0729c8a492f26e2c50d48f45279c704" colspan="2">1,4983071571131E-33</td>
                <td id="table-cell-b01ee2e6cc9bd6491ce7608248c8b3a8">Netral</td>
              </tr>
              <tr id="table-row-4ba9518b00f864f54d30982ca9fb1dcd">
                <td id="table-cell-2d4ef97bc82a777622172665c5486776">kosong besok najam pasir</td>
                <td id="table-cell-56c22f687b6422b890d6840e1b4bf2f7">5,7921122133333E-14</td>
                <td id="table-cell-1eb2319ce0633b2b0e83b17fd7d55b4a" colspan="2">5,667315598E-13</td>
                <td id="table-cell-e950c5f4c98a481514db3c05bdc6061b" colspan="2">1,8055872E-13</td>
                <td id="table-cell-d5cbe6bb0d68019841e211c27922d239">Negatif</td>
              </tr>
              <tr id="table-row-b77439ba4f77c4a48cb5dc62c445e1e7">
                <td id="table-cell-62df2d6be0759992ecad8a87e76aacba">niat balik hindar praktik sembah berhala kronis</td>
                <td id="table-cell-4ee4a795915dcb6210e049b19a60a7ac">0,00012826666666667</td>
                <td id="table-cell-22629a3dd67176e35749a8a81ab7720a" colspan="2">0,0010476</td>
                <td id="table-cell-d856058bf99574d31f461916732c6b93" colspan="2">0,0001935</td>
                <td id="table-cell-40e7cdfad87503e6c4561f14fc64bcb6">Negatif</td>
              </tr>
              <tr id="table-row-5bb5b82b20dd70cd78f7b4920a0a30a5">
                <td id="table-cell-21f6231b78974f4b2d297c4a739e229d">rumah punya jamban rumah kolong jalan tol</td>
                <td id="table-cell-df360b22d269c85cd830bdd6d20b380f" colspan="2">1,3317279894187E-20</td>
                <td id="table-cell-de55fcae77e3b901965d9589791a83da" colspan="2">8,4238670623333E-20</td>
                <td id="table-cell-5bf0cfc62a675d380d0d14c7f41100ba">5,404840712064E-17</td>
                <td id="table-cell-e5314c9e3f968eb3148f806088e14a8b">Netral</td>
              </tr>
              <tr id="table-row-9f6e89650dbcfcb217dfe55a1335cf83">
                <td id="table-cell-83546a5af6a40b31ea006451555bf736">lari masalah gerindra ahok</td>
                <td id="table-cell-cbd0f1d53af08a0cba602e7f9399ff03" colspan="2">8,6071866666667E-7</td>
                <td id="table-cell-38aa0f13bb71cd89af3b2959e99f55ce" colspan="2">5,38059E-7</td>
                <td id="table-cell-8b75e9f41caaac4aa233614c752f3860">2,554587E-6</td>
                <td id="table-cell-30fa8b008e0dd8123b08e1c19fa66f53">Netral</td>
              </tr>
              <tr id="table-row-f627d254f6b4038aabdb7b7e3c37022f">
                <td id="table-cell-92f557365e11ccbf45b4dd5b00a14a9a">sayembaran gagas desain warganet sekali bulan agustus lalu umum ibu timur</td>
                <td id="table-cell-d42d1813ead1eb7cd98ba5dcb79aa13d" colspan="2">8,66662806382E-31</td>
                <td id="table-cell-c1b9e34e768b539151be729f9f3f96c9" colspan="2">1,534773785933E-32</td>
                <td id="table-cell-56765a6fa777077df48d27944596da56">1,3658006140257E-29</td>
                <td id="table-cell-c1565ec39b452adbb87ca79922ba5479">Netral</td>
              </tr>
              <tr id="table-row-589ff02f0153d764410fd7cc08aae4cf">
                <td id="table-cell-a10afe8e957737f0b856ce918a5e98dd">mega proyek hambalang mega proyek moga nasib hambalang</td>
                <td id="table-cell-b7c94109752db7c715895332d9ece1a0" colspan="2">3,5082123073365E-22</td>
                <td id="table-cell-81955a104d20738b051425d58c7bad5d" colspan="2">7,4945851702288E-20</td>
                <td id="table-cell-d0d440b6040bbedf335eb54d8ce61f5f">1,6067786484375E-24</td>
                <td id="table-cell-87ddc62bb1cfb3a604374890669c9e90">Negatif</td>
              </tr>
              <tr id="table-row-5eccdaf28551ff2f83addf77684d1c75">
                <td id="table-cell-eab803de03e78c94dbc786d76292ecea">agustus lalu cara resmi umum timur rencana sebut mulai</td>
                <td id="table-cell-caca592cb52af087f70e53d695e82218" colspan="2">8,4081878901902E-25</td>
                <td id="table-cell-9343b24be4f1f24f70e3704489f2e685" colspan="2">1,811566455061E-24</td>
                <td id="table-cell-398d3376b2979f238a53278f9f64a1c6">3,9815304203167E-23</td>
                <td id="table-cell-9fd1548d6d5405ed5d50418f8450a0fe">Netral</td>
              </tr>
              <tr id="table-row-bba3959337ee20b391116b3954565459">
                <td id="table-cell-98cb97139512d8aa282517ba7fb5a7a4">triliun hongkong demikian peras naik tagih bpjs</td>
                <td id="table-cell-1408ae4402c569f0e700c6b9640f038c" colspan="2">8,804224E-11</td>
                <td id="table-cell-83133eca8fa9774009ad8824b2d163b1" colspan="2">1,0292365517E-7</td>
                <td id="table-cell-687ea0ba072a48866a3ff054af7d97af">1,0361925E-10</td>
                <td id="table-cell-762145b0919f26a5b108dd24b2e178c2">Negatif</td>
              </tr>
            </tbody>
          </table>
        </table-wrap>
      </sec>
      <sec id="heading-2c7ba044ca352e6b88eab9e237e00297">
        <title>Pengujian</title>
        <p id="_paragraph-111">Dalam sebuah penelitian, tahap pengujian adalah hal yang sangat penting, tahap pengujian ini bisa menyimpulkan seberapa besar presentase dari metode yang digunakan dalam penelitian bisa berjalan. Dalam penelitian ini, penulis menggunakan 3 tahapan metode pengujian, yaitu :</p>
        <sec id="heading-dd21c2bb7f50903aa2649e94fac34cfa">
          <title>
            <italic id="italic-8c0a7ff7d933f0319d117bb44f814330">Confussion Matrix</italic>
          </title>
          <p id="_paragraph-112"><italic id="_italic-87">Confussion</italic> <italic id="_italic-88">matrix</italic> atau <italic id="_italic-89">matrix</italic> <italic id="_italic-90">error</italic> ini digunakan untuk memasukkan menjabarkan nilai kebenaran dan nilai <italic id="_italic-91">error</italic> yang dihasilkan dalam data uji ke dalam sebuah matrik. Pada umumnya <italic id="_italic-92">confussion</italic> <italic id="_italic-93">matrix</italic> terdiri dari <italic id="_italic-94">matrix</italic> 2 x 2, namun pada penelitian ini, penulis menggunakan <italic id="_italic-95">matrix</italic> 3 x 3 dikarenakan jumlah kategori yang dihasilkan dari proses klasifikasi pada penelitian ini berupa 3 klasifikasi. Berikut <xref id="xref-7a88a3438a471c6cc0430970c1fa2b9d" ref-type="table" rid="_table-figure-9">Table 5</xref> <italic id="_italic-96">Confussion</italic> <italic id="_italic-97">Matrix</italic> :</p>
          <table-wrap id="_table-figure-9">
            <label>Table 5</label>
            <caption>
              <title><italic id="italic-eb888d96344ec0bf6ea468c7fc9fdbb9"/>Confussion Matrix 3 x 3</title>
              <p id="_paragraph-114" />
            </caption>
            <table id="_table-9">
              <tbody>
                <tr id="table-row-117d43d28e40553fd70b4452c5297c48">
                  <td id="table-cell-adab89c66dbdc4c6b1a8d86e34d73c2e" colspan="5">Kategori</td>
                </tr>
                <tr id="table-row-9aa141645583b546193541d68e2be759">
                  <td id="table-cell-a50a560de9ab21f31894ef005d25a3c9" rowspan="4">Prediksi</td>
                  <td id="table-cell-f35f839a0e5ea0b6039a2c241a010d46">Positif</td>
                  <td id="table-cell-b45b13b6fb6e453bc844790286284156">Negatif</td>
                  <td id="table-cell-553807004421da4d58b9e98645659ab6">Netral</td>
                </tr>
                <tr id="table-row-64334ae262be2eded73a3c42d1688e8b">
                  <td id="table-cell-8a88d0e1386136b46a4bd225e6aed032">Positif</td>
                  <td id="table-cell-8715224acf5ae2a7a547fa52222e2921">PP</td>
                  <td id="table-cell-3629b8376b8928415c7a8b206b878b90">NgP</td>
                  <td id="table-cell-403a730184b2ae5bc7d8e225f077aa2c">NtP</td>
                </tr>
                <tr id="table-row-fb7c568f2975e8d7141f9be60f67591a">
                  <td id="table-cell-0f12fee994fd25dc4639e946d41d2692">Negatif</td>
                  <td id="table-cell-657f9ecaded6f375813ddb67d600dc92">PNg</td>
                  <td id="table-cell-6d302510a9cbdf7bc71b66e619ffecc7">NgNg</td>
                  <td id="table-cell-c2ed6145c791d6354c38b809914f18fb">NtNg</td>
                </tr>
                <tr id="table-row-ffff7cf15878bda29c5fe26dea8c6de2">
                  <td id="table-cell-04ddf239da340e091a2513d4d28f0f79">Netral</td>
                  <td id="table-cell-8bb40611a80861a08c348bda8d5c17dd">PNt</td>
                  <td id="table-cell-7ac1cd249d09abe574d6c0e3bcb4a7b7">NgNt</td>
                  <td id="table-cell-bd3c0c1804a6673ad3051895d9a42966">NtNt</td>
                </tr>
              </tbody>
            </table>
          </table-wrap>
          <p id="_paragraph-115">Baris Kolom yang berwarna biru merupakan klasifikasi yang terprediksi dengan benar dan kolom baris yang berwarna oranye terprediksi salah oleh sistem.</p>
          <p id="_paragraph-116">Keterangan :</p>
          <p id="_paragraph-117">PP = Kategori Positif yang terprediksi Positif (Benar).</p>
          <p id="_paragraph-118">NgP = Kategori Negatif yang terprediksi Positif (Salah).</p>
          <p id="_paragraph-119">NtP = Kategori Netral yang terprediksi Positif (Salah).</p>
          <p id="_paragraph-120">PNg = Kategori Positif yang terprediksi Negatif (Salah).</p>
          <p id="_paragraph-121">NgNg = Kategori Negatif yang terprediksi Negatif (Benar).</p>
          <p id="_paragraph-122">NtNg = Kategori Netral yang terprediksi Negatif (Salah).</p>
          <p id="_paragraph-123">PNt = Kategori Positif yang terprediksi Netral (Salah).</p>
          <p id="_paragraph-124">NgNt = Kategori Negatif yang terprediksi Netral (Salah).</p>
          <p id="_paragraph-125">NtNt = Kategori Netral yang terprediksi Netral (Benar).</p>
          <p id="_paragraph-126">Berikut merupakan tampilan dari <italic id="_italic-100">Confussion</italic> <italic id="_italic-101">matrix</italic> pada sistem, <xref id="xref-5e5ece3ec449cab4c3ed0274169418d9" ref-type="fig" rid="figure-panel-576cf8df36a0fee25498b2a5290b99d7">Figure 1</xref>.</p>
          <fig id="figure-panel-576cf8df36a0fee25498b2a5290b99d7">
            <label>Figure 1</label>
            <caption>
              <title>Tampilan Confussion Matrix</title>
              <p id="paragraph-ea3870feea7b8a8da6d0864705eaa71e" />
            </caption>
            <graphic id="graphic-c0548ec66dd3871453dbf160848c0593" mimetype="image" mime-subtype="png" xlink:href="capture1.png" />
          </fig>
          <p id="_paragraph-128">Dari tampilan diatas dapat disimpulkan bahwa 23 dokumen terklasifikasi positif dengan benar, 59 dokumen terklasifikasi negative dengan benar, dan 51 dokumen terklasifikasi netral dengan benar. Selain itu dokumen terklasifikasi salah oleh sistem. Nilai diatas adalah acuan perhitungan dari metode pengujian selanjutnya, yaitu <italic id="_italic-104">precision</italic> <italic id="_italic-105">and</italic> <italic id="_italic-106">recall</italic>.</p>
        </sec>
        <sec id="heading-b80e6246de3d89ce1566e031f642cfda">
          <title>
            <italic id="_italic-122">Precission</italic>
            <italic id="_italic-123">and</italic>
            <italic id="_italic-124">Recall</italic>
          </title>
          <p id="_paragraph-129"><italic id="_italic-107">Precision</italic> merupakan tingkat ketepatan antara informasi yang diminta dengan jawaban yang diberikan oleh sistem.</p>
          <p id="_paragraph-130">Sedangkan <italic id="_italic-108">Recall</italic> merupakan tingkat keberhasilan sistem menemukan kembali sebuah informasi.</p>
          <p id="_paragraph-131">Mengacu pada tabel <italic id="_italic-109">Confussion</italic> <italic id="_italic-110">matrix</italic>, perhitungan untuk <italic id="_italic-111">precission</italic> serta <italic id="_italic-112">recall</italic> pada matrixs 3 x 3 adalah sebagai berikut :</p>
          <p id="_paragraph-132"><italic id="_italic-113">Precission</italic> Positif = PP / PP+NgP+NtP x 100% = 23 / 23+8+7 x 100% = 60,5%</p>
          <p id="_paragraph-133"><italic id="_italic-114">Precission</italic> Negatif = NgNg / PNg+NgNg+NtNg x 100% = 59 / 15+59+17 x 100% = 64,8%</p>
          <p id="_paragraph-134"><italic id="_italic-115">Precission</italic> Netral = NtNt / PNt+NgNt+NtNt x 100% = 51 / 11+8+51 x 100% = 72,8%</p>
          <p id="_paragraph-135"><italic id="_italic-116">Recall</italic> Positif = PP/ PP+PNg+PNt x 100% = 23 / 23+15+11 x 100% = 49,9%</p>
          <p id="_paragraph-136"><italic id="_italic-117">Recall</italic> Negatif = NgNg / NgP+NgNg+NgNt x 100% = 59 / 8+59+8 x 100% = 78,6%</p>
          <p id="_paragraph-137"><italic id="_italic-118">Recall</italic> Netral = NtNt / NtP+NtNg+NtNt x 100% = 51 / 7+17+51 x 100% = 68%</p>
          <p id="_paragraph-138">Akurasi Program = PP+NgNg+NtNt / Jumlah Dokumen Data Uji = 23+59+51 / 200 = 66,83%</p>
          <p id="_paragraph-139">Berikut merupakan tampilan dari hasil precision and recall dan akurasi, <xref id="xref-839b1113fd528c247ec82408a76e6a01" ref-type="fig" rid="figure-panel-bf19b752855ffeab658140981a569d5f">Figure 2</xref> :</p>
          <fig id="figure-panel-bf19b752855ffeab658140981a569d5f">
            <label>Figure 2</label>
            <caption>
              <title>Tampilan Precission, Recall dan Akurasi</title>
              <p id="paragraph-57321477be1b76511a6678ebc7d2dab2" />
            </caption>
            <graphic id="graphic-1e4726ab5ac2d4d2cf096481099dd22f" mimetype="image" mime-subtype="png" xlink:href="capture2.png" />
          </fig>
          <p id="_paragraph-140">Hasil <xref id="xref-d25768e7093fc7c4d2888284ae64c5a9" ref-type="fig" rid="figure-panel-bf19b752855ffeab658140981a569d5f">Figure 2</xref>, diatas akan menjadi acuan untuk menghitung metode pengujian yang terakhir, yaitu K-Fold Cross Validation.</p>
        </sec>
        <sec id="heading-8615d501a764f63e75ea9da8442d24d9">
          <title>
            <italic id="_italic-125">K-Fold</italic>
            <italic id="_italic-126">Cross</italic>
            <italic id="_italic-127">Validation</italic>
          </title>
          <p id="_paragraph-142"><italic id="_italic-128">Cross Validation</italic> adalah metode statistik untuk mengukur kinerja model algoritma dimana data dipisahkan menjadi 2 subset, yaitu data latih serta data uji. Pada penelitian ini penulis menggunakan 10 <italic id="_italic-129">K-Fold Cross Validation</italic>, artinya penulis membagi data menjadi 2, yaitu data uji dan data latih yang dibagi secara acak dan untuk mendapatkan nilai pengujian dari metode uji ini adalah dengan melakukan 10 kali percobaan sehingga didapat nilai rata – rata akurasi dari sistem ini. Penulis telah melakukan 10 kali percobaan, dan berikut merupakan <xref id="xref-537dc5d53ff04f839a3af2b744493396" ref-type="table" rid="_table-figure-10">Table 6</xref> akurasi sistem dari masing – masing percobaan.</p>
          <table-wrap id="_table-figure-10">
            <label>Table 6</label>
            <caption>
              <title>10 K-Fold Cross Validation</title>
              <p id="_paragraph-144" />
            </caption>
            <table id="_table-10">
              <tbody>
                <tr id="table-row-481791a77bb5f55d783f0d9ab7b12a3b">
                  <td id="table-cell-ffa13e60c9c156632bcb94a47a748150">Percobaan Ke -</td>
                  <td id="table-cell-009d5694ddb827dab26032c8e62a2b56">Nilai Akurasi</td>
                </tr>
                <tr id="table-row-9c27db47b3a4b935982a5524cdbdd5f1">
                  <td id="table-cell-2464c81153ef617cba918654e7413fe3">1</td>
                  <td id="table-cell-5b9f42fc3729e9ef71ae22b3469a931c">58.7 %</td>
                </tr>
                <tr id="table-row-8fcf057bddb42994d1df37b0cb916de7">
                  <td id="table-cell-9d6cd5388a091ab30c52fa2290dd530b">2</td>
                  <td id="table-cell-b23aa084d74cfe49ce9d9f1dbeba90d6">64.8 %</td>
                </tr>
                <tr id="table-row-bdf9b97f66893576b594a10c5da3eb4e">
                  <td id="table-cell-6e7daab1fdba40ecc79f93e2e2a3a6b9">3</td>
                  <td id="table-cell-4e4f889ede188087791326020c9b5c3f">64.8 %</td>
                </tr>
                <tr id="table-row-103dda7e853b54987c7d96576365f222">
                  <td id="table-cell-1419d0fc48125123175f08c66152020c">4</td>
                  <td id="table-cell-ba1a87e92d8157dbc240783c0963ca93">64.8 %</td>
                </tr>
                <tr id="table-row-5835b7f79847e75d9f3f2e258efef2c1">
                  <td id="table-cell-e19834084f91e545d7176e2c2300573f">5</td>
                  <td id="table-cell-dcb4e097c90934cd19071a6f4e57d773">64.8 %</td>
                </tr>
                <tr id="table-row-7b929db538ea5e756ab51661aefdd768">
                  <td id="table-cell-8804353d832a9930af4650114352fd23">6</td>
                  <td id="table-cell-e840f44355c5a9647865f377f43447b0">64.8 %</td>
                </tr>
                <tr id="table-row-0a94c6216011eb561aca8b5078cb1787">
                  <td id="table-cell-6dcddb50097ec2066df7a66031a1c148">7</td>
                  <td id="table-cell-a749f751df791ba6985eaaa16ef1a331">64.8 %</td>
                </tr>
                <tr id="table-row-f437b2a9496c123a7f05e389d567ae93">
                  <td id="table-cell-9dd637ad54a76d3786bd8d70c8fcab90">8</td>
                  <td id="table-cell-bdf872408d44e1dc113eeda492d0d1bb">64.8 %</td>
                </tr>
                <tr id="table-row-d592d230ec752b1e84f259d8eda76bad">
                  <td id="table-cell-76295a1d6df6c0cd61433d425a7f4ed1">9</td>
                  <td id="table-cell-3f7482e59583613565fea204d98c113b">66.8 %</td>
                </tr>
                <tr id="table-row-e0c265284e7b18532bbcefb204c04ca0">
                  <td id="table-cell-13bd6888dd61c361f742d9edede1f225">10</td>
                  <td id="table-cell-66d00331f612b44e3d30b370390813f4">66.8 %</td>
                </tr>
              </tbody>
            </table>
          </table-wrap>
          <p id="_paragraph-145">Untuk menghitung rata – rata akurasi maka menjumlahkan 10 hasil akurasi tersebut dan membaginya dengan 10.</p>
          <p id="_paragraph-146">Rata – rata = 58,7% + 64,8%+ 64,8% + 64,8%+ 64,8% + 64,8% + 64,8% + 64,8% + 66, 8% + 66,8% / 10 = 64,6%</p>
          <p id="_paragraph-148">Dari hasil ketiga metode uji didapatkan hasil akurasi program sebesar 64,6%.</p>
        </sec>
      </sec>
    </sec>
    <sec id="heading-6c63fc39f5d447b35c645972d82ee64c">
      <title>Kesimpulan</title>
      <p id="_paragraph-150">Dari penelitian yang sudah dilakukan dapat disimpulkan bahwa prediksi dilakukan dengan menggunakan 3 kategori, yaitu Positif, Negatif dan Netral dengan menggunakan Metode Naïve Bayes Classifier dan Pembobotan TF-IDF. Penelitian dilakukan dengan membagi dokumen menjadi 2, yaitu Data Latih sebanyak 300 data dan Data Uji sebanyak 200 data dari Total 500 data. Hasil perhitungan dari gabungan antara k-fold cross validation, Precision Recall, dan coffussion Matrix didapat hasil akurasi sebesar 64,6%.</p>
    </sec>
  </body>
  <back />
</article>