Tutorial Python Untuk Pemula : Menganalisis Data Netflix Pribadi - Prixleplusbas.xyz
News Update
Loading...

Sabtu, 05 Desember 2020

Tutorial Python Untuk Pemula : Menganalisis Data Netflix Pribadi

 Berapa banyak waktu yang saya habiskan untuk menonton The Office?

Itu adalah pertanyaan yang terus menerus muncul di kepala saya selama bertahun-tahun. Komedi situasi tercinta telah menjadi pilihan "pertunjukan kenyamanan / kebisingan latar belakang" teratas saya untuk waktu yang lama.

Dulu ini adalah pertanyaan yang tidak bisa saya jawab, karena data yang diizinkan Netflix untuk diunduh pengguna tentang aktivitas mereka sangat terbatas.

Namun, sekarang, Netflix memungkinkan Anda untuk mengunduh banyak sekali data tentang akun Anda. Dengan sedikit pemrograman Python dan pandas, sekarang kita bisa mendapatkan jawaban konkret untuk pertanyaan: berapa banyak waktu yang saya habiskan untuk menonton The Office?

Ingin mengetahui berapa banyak waktu yang Anda habiskan untuk menonton The Office , atau acara lainnya di Netflix?

Dalam tutorial ini, kami akan memandu Anda melalui cara melakukannya langkah demi langkah!

Memiliki sedikit pengalaman Python dan panda akan sangat membantu untuk tutorial ini, tetapi itu tidak sepenuhnya diperlukan. 

Tapi pertama-tama, mari kita jawab pertanyaan singkat. . .


Tidak Bisakah Saya Hanya Menggunakan Excel? Mengapa Saya Perlu Menulis Kode?

Bergantung pada berapa banyak Netflix yang Anda tonton dan berapa lama Anda menggunakan layanan ini, Anda mungkin dapat menggunakan Excel atau perangkat lunak spreadsheet lain untuk menganalisis data Anda.

Tapi ada kemungkinan hasil bagus itu akan sulit.

Dataset yang akan Anda dapatkan dari Netflix mencakup setiap kali video dengan durasi berapa pun diputar - termasuk trailer yang diputar otomatis saat Anda menelusuri daftar.

Jadi, jika Anda sering menggunakan Netflix atau sudah lama menggunakan layanan streaming, file yang sedang Anda kerjakan kemungkinan besar cukup besar. Data aktivitas menonton saya sendiri, misalnya, lebih dari 27.000 baris.

Membuka file sebesar itu di Excel bukanlah masalah. Tetapi untuk melakukan analisis kita, kita perlu melakukan banyak pemfilteran dan melakukan penghitungan. Dengan data sebanyak itu, Excel bisa menjadi sangat macet, terutama jika komputer Anda tidak terlalu kuat.

Menelusuri kumpulan data yang begitu besar mencoba menemukan sel dan rumus tertentu juga bisa menjadi membingungkan dengan cepat.

Python dapat menangani kumpulan data besar dan penghitungan seperti ini dengan lebih lancar karena tidak harus merender semuanya secara visual. Dan karena kita dapat melakukan semuanya hanya dengan beberapa baris kode, akan sangat mudah untuk melihat semua yang kita lakukan, tanpa harus menelusuri spreadsheet besar untuk mencari sel dengan rumus.

Langkah 1: Unduh Data Netflix Anda

Untuk keperluan tutorial ini, saya akan menggunakan data Netflix saya sendiri. Untuk mendapatkan milik Anda sendiri, pastikan Anda masuk ke Netflix lalu kunjungi halaman ini . Dari layar utama Netflix, Anda juga dapat menemukan halaman ini dengan mengklik ikon akun Anda di kanan atas, mengklik "Akun", lalu mengklik "Download informasi pribadi Anda" di halaman yang memuat.


Di halaman berikutnya, Anda akan melihat ini:


Kemudian, sayangnya, Anda harus menunggu. Netflix mengatakan bahwa menyiapkan laporan data Anda bisa memakan waktu hingga 30 hari. Saya pernah mendapat satu laporan dalam waktu 24 jam, tetapi satu lagi membutuhkan beberapa minggu. Pertimbangkan untuk menandai halaman ini sehingga Anda dapat kembali setelah mendapatkan data Anda.

Jika Anda mau, saya juga telah membuat contoh kecil dari data saya sendiri yang tersedia untuk diunduh di sini . Jika Anda mau, Anda dapat mengunduh file itu dan menggunakannya untuk mengerjakan proyek ini. Kemudian, ketika data Anda sendiri tersedia, cukup gantikan file Anda dengan yang sama, jalankan kode Anda lagi, dan Anda akan mendapatkan jawaban hampir seketika!

Netflix akan mengirimi Anda email saat laporan Anda tersedia untuk diunduh. Jika demikian, bertindak cepat karena unduhan akan "kedaluwarsa" dan hilang lagi setelah beberapa minggu!

Unduhan akan tiba sebagai file .zip yang berisi sekitar selusin folder, sebagian besar berisi tabel data dalam format .csv. Ada juga dua PDF dengan informasi tambahan tentang data.

Langkah 2: Biasakan diri Anda dengan Data

Ini adalah langkah penting dalam proses analisis data. Semakin baik kami memahami data kami, semakin besar peluang kami untuk menghasilkan analisis yang bermakna.

Mari kita lihat apa yang kita punya. Inilah yang akan kita lihat saat mengekstrak file:


Tujuan kami di sini adalah untuk mengetahui berapa banyak waktu yang saya habiskan untuk menonton Netflix. Content Interaction sepertinya folder yang paling mungkin berisi data itu. Jika kita membukanya, kita akan menemukan sebuah file bernama ViewingActivity.csv yang terlihat persis seperti yang kita inginkan - log dari semua yang telah kita lihat selama sejarah akun.


Melihat data tersebut, kami dapat dengan cepat menemukan satu tantangan potensial. Ada satu kolom,, Titleyang berisi judul acara dan episode, jadi kita perlu melakukan sedikit pekerjaan ekstra untuk memfilter episode The Office saja .

Pada titik ini, Anda akan tergoda untuk terjun langsung ke dalam analisis menggunakan data tersebut, tetapi mari pastikan kita memahaminya terlebih dahulu! Di file zip yang diunduh, ada file bernama Cover sheet.pdfyang berisi kamus data untuk semua file .csv, termasuk ViewingActivity.csv.

Kamus data ini dapat membantu kita menjawab pertanyaan dan menghindari kesalahan. Misalnya, melihat kamus tentang ViewingActivity.csv, kita dapat melihat bahwa kolom tersebut Start Timemenggunakan zona waktu UTC . Jika kami ingin menganalisis jam berapa kami paling sering menonton Netflix, misalnya, kami perlu mengonversi kolom ini ke zona waktu lokal kami.

Luangkan waktu untuk melihat-lihat data ViewingActivity.csvdan kamus data Cover sheet.pdfsebelum melanjutkan ke langkah berikutnya!

Langkah 3: Muat Data Anda ke Notebook Jupyter

Untuk tutorial ini, kami akan menganalisis data kami menggunakan Python dan panda di notebook Jupyter. Jika Anda belum menyiapkannya, Anda dapat menemukan panduan cepat dan ramah-pemula di awal tutorial ini , atau lihat postingan Jupyter Notebook untuk Pemula yang lebih mendalam .

Setelah kami membuka buku catatan, kami akan mengimpor perpustakaan panda dan membaca CSV data Netflix kami ke dalam bingkai data panda yang akan kami hubungi df:

import pandas as pd

df = pd.read_csv('ViewingActivity.csv')

Sekarang, mari kita lakukan pratinjau singkat pada data untuk memastikan semuanya sudah benar. Kita akan mulai dengan df.shape, yang akan memberi tahu kita jumlah baris dan kolom dalam kerangka data yang baru saja kita buat.

df.shape
(27354, 10)

Hasil itu berarti kami memiliki 27.353 baris dan 10 kolom. Sekarang, mari kita lihat seperti apa tampilannya dengan melihat dulu beberapa baris data pertama menggunakan df.head().

Untuk menjaga privasi, saya akan menambahkan argumen tambahan 1di dalam .head()tanda kurung sehingga hanya satu baris yang dicetak di posting blog ini. Namun, dalam analisis Anda sendiri, Anda dapat menggunakan default .head()untuk mencetak lima baris pertama.





Share with your friends

Give us your opinion

Notification
This is just an example, you can fill it later with your own note.
Done