Pemanfaatan platform twitter sebagai sumber data
Membuat word cloud untuk kata terbanyak
Untuk tutorial, silakan langsung ke bagian Mari Kita Mulai
Twitter merupakan salah satu media sosial populer didunia. Platform besutan Jack Dorsey @jack ini dibangun pada tahun 2006 di negeri paman sam yang awalnya bernama twttr. Twitter memiliki tampilan yang sederhana dan mudah dimengerti. Meski hanya dibatasi 280 huruf tiap postingan, tetap memiliki tempat tersendiri bagi penggunanya, khususnya anak muda.
Twitter awalnya bernama twttr
Trending merupakan fitur yang menjadi nilai jual dari platform ini. Demi memenuhi kebutuhan bersosial media untuk para netizen, platform ini terus menambah fitur-fitur baru seperti Fleets dan Space. Fleets adalah fitur dimana pengguna bisa menambahkan postingan yang akan hilang setelah 24 jam. Sedangkan Space merupakan tempat untuk melakukan siaran suara secara langsung, dimana semua orang bisa menjadi pembicara maupun hanya menjadi pendengar yang baik.
Disamping itu, twitter memiliki Developer tools yaitu Twiter API. Dengan tools tersebut, developer mampu memanen data yang ada pada platform dengan API yang sudah disediakan oleh pihak Twitter. Pengguna cukup mendaftarkan diri dengan akun twitter, maka mereka sudah bisa menikmati fitur-fitur yang ada didalamnya.
Mari Kita Mulai.
Tools yang diperlukan
Tweepy
NLTK
Cara Mendaftar Akun Twitter API.
Kunjungi link diatas atau klik disini untuk mendaftar Twitter API. Proses registrasi cukup menggunakan akun pribadi maupun akun alternatif, jika menghendaki.
Pilih pilihan yang sesuai. Karena tutorial ini adalah tugas kuliah, saya memilih Academic > Student.
Pastikan anda menjawab pertanyaan yang tertera dengan baik untuk menghindari lambatnya verifikasi oleh pihak Twitter.
Setelah akun berhasil dibuat, mulai buat aplikasi dengan klik Create Project pada halaman dashboard
Aplikasi yang telah dibuat dapat diakses melalui menu overview
Mendapatkan API Key, API Secret Key, Access Token, dan Access Token Secret
Untuk mendapatkannya, kunjungi halaman tempat aplikasi kita pada halaman berikut
Arahkan pada menu Keys and tokens Sesuai gambar.
Untuk menu consumer keys, kita akan mendapatkan key berikut saat menekan tombol “Regenerate”
API Key
API Secret Key
Sedangkan pada menu Authentication Tokens, kita akan mendapatkan key berikut
Bearer Token
Access Token
Access Token Secret
Pastikan kamu mencatat token tersebut, karena token tersebut hanya bisa dibuka sekali saja.
Waduh, saya terlanjut ngeclose tapi belum nyimpen. Gimana, dong?
Tenang, kamu dapat regenerate ulang token tersebut dengan catatan token lama kamu akan hangus dan tergantikan dengan token baru.
Menginstall Plugin
Pastikan Gephi telah terinstall.
Sebelum mulai mengolah, install terlebih dahulu plugin TwitterStreamingImporter pada menu Tools > Plugin
Tampilan setelah terinstall.
Buka Window > Twitter Streaming Importer untuk menampilan window Twitter Streaming Importer.
Window Twitter Streaming Importer muncul.
Mulai Mengambil Data dari Twitter
Klik tombol Credentials pada menu Twitter Streaming Importer
Masukkan API Key, API Secret, Access Token, dan Access Token Secret.
Tambahkan keyword yang ingin dicari. Tekan Add.
Tips: Gunakan keyword yang sedang Trending untuk mempercepat perolehan data
Setelah keyword ditambahkan, klik connect untuk mulai mengambil data dari Twitter.
Jika dirasa data sudah cukup, klik disconnect.
Nodes adalah akun twitter, sedangkan Edges adalah tweet.
Export ke .csv
Klik Data Laboratory > Export table
Data yang sudah tereksport ke .csv dapat dibuka menggunakan Microsoft Excel
“Wah kok kacau gitu datanya, terus gimana mau baca?”
Data .csv tidak akan kita baca begitu saja melalui Excel. Kita akan mengolah data tersebut dengan script python yang dijalankan pada Google Colab.
Mapping Data.
import library yang diperlukan ke script python
import pandas as pd
import numpy as np
import re
import nltk
import matplotlib.pyplot as plt
%matplotlib inline
Upload file .csv ke Google Colab.
Tambahkan code berikut untuk membaca file .csv
dataset = pd.read_csv(“scraper irene.csv”)
scraper irene.csv adalah nama file .csv saya. Bisa disesuaikan dengan nama file masing-masing.
dataset.head()
label = dataset[‘Label’]label[:10]
Text Cleaning
NLTK
Stopword English
Menghapus tanda baca
Generating Word Cloud
Output