[Part 1] การใช้งาน Google colab เบื้องต้น , ติดตั้ง Environment , เตรียมข้อมูล และ วิเคราะห์ข้อมูลเบื้องต้น
[Part 2] วิเคราะห์ข้อมูล, ตั้งสมมติฐาน และเลือกโมเดล
[Part 3] แก้ไขข้อมูล และสร้างข้อมูลใหม่
[Part 4] Data visualization
[Part 5] การคัดเลือกข้อมูล จะดรอปอะไรออกไปดีนะ?
[Part 6] การทำ Labelencoder
[Part 7] เตรียมข้อมูลเพื่อ Fit model
[Part 8] Training Model
[Part 9] Training Model แบบหลายๆ Model

ผ่านไปแล้ว 3 part แล้วนะครับ เดี๋ยวเรามาขึ้น Part 4 กัน ในหัวข้อ Data visualization กันครับ

ทำไมต้องทำ Data visualization?

ทำไมถึงต้องทำ Data visualization กันนะ นั่นก็เพราะว่าการดูข้อมูลเยอะๆ ในตารางเนี่ย มันดูยากมากๆ เราไม่รู้ถึงสัดส่วน แนวโน้ม หรือสิ่งต่างๆเลย ทำให้เราต้องทำให้ข้อมูลที่มี กลายเป็นรูปภาพ หรือกราฟต่างๆ ให้ดู และวิเคราะห์ง่ายขึ้น เดี๋ยวเรามาเริ่มกันเลย

1. มาดูกันว่า successful และ Un-successful มีกันกี่เปอร์เซ็นกันนะ

plt.style.use('seaborn-pastel')
fig, ax = plt.subplots(1, 1, dpi=100)
explode = [0,.1]
df.state.value_counts().head(5).plot.pie(autopct='%0.2f%%',explode=explode , figsize=(12, 6))
plt.title('rate state of Kickstarter Project Status')
plt.ylabel('')
plt.show()

จากรูปเราจะเห็นได้เลยว่า Un-successful มีมากกว่า successful อย่างชัดเจน

2. เรามาดูกันเถอะว่าโปรเจคประเภทไหนคู่แข่งเยอะที่สุด

plt.figure(figsize=(20,5))
sns.barplot(list_main_category.index, list_main_category.values, alpha=0.8)
plt.title('Number project of Category')
plt.ylabel('Number', fontsize=12)
plt.xlabel('Category', fontsize=12)
plt.show()

จากกราฟจะเห็นได้อย่างชัดเจนเลยครับว่าประเภท Flim & Video มีจำนวนโปรเจค มากกว่า นั่นแสดงให้เห็นได้ว่าถ้าเราจะทำโปรเจคไปแข่งเราอาจจะมีคู่แข่งเยอะมาก แต่ในทางกลับกันนี่อาจจะแสดงให้เห็นว่าโปรเจคประเภทนี้มีความนิยมสูง จึงทำให้ผู้ผลิตทำมันออกมาเยอะ

3. แล้วถ้าอยากรู้จำนวนโปรเจคแต่ละปีหละ?

plt.figure(figsize=(10,5))
fig = sns.countplot(df.launch_year)
plt.xlabel("Year")
plt.ylabel("Number of Campaigns")
plt.title("Number project in each year")
plt.show(fig)

ก็จะสังเกตได้อย่างชัดเจนเลยครับว่าเทรนการระดมทุนนี่มาแรงในช่วงปี 2014–2015 ซึ่งมีการเติบโตอย่างสูง และต่อมาก็ค่อยๆลดลงเรื่อยๆ ไม่รู้ว่าปี 2018 นี่เทรนจะเป็นเช่นไร คงต้องรอ Data set ชุดใหม่ออกมาครับ ฮ่าๆๆ

เป็นไงกันบ้างครับ การทำ Data visualization ก็ไม่ยากใช่มั๊ยหละ มันมีประโยชน์มากๆ ทำให้เราเห็นข้อมูลบางอย่างที่ไม่สามารถอ่านได้จากตาราง ผมก็หวังว่าจะเป็นประโยชน์กับทุกๆคนนะครับ ก็ขอฝากเพื่อนๆไปทำกันต่อนะครับ เผื่อจะได้เห็นข้อมูลดีๆ ที่คนอื่นๆไม่เห็น แล้วเดี๋ยวเราไปต่อกันใน Part ถัดไปนะครับ

[Data Sci workshop] มาลองใช้ google colab + Scikit learn วิเคราะห์โปรเจคที่จะ Success ในเว็บระดมทุน Kickstarter กันเถอะ [Part5]

สามารถเข้าไปดูไฟล์ Workshop ได้ที่นี่เลยยครับ >>>
https://colab.research.google.com/drive/1P09Xd-UKIrP_jQiDD43vdX91tGtd9JVX