[Part 1] การใช้งาน Google colab เบื้องต้น , ติดตั้ง Environment , เตรียมข้อมูล และ วิเคราะห์ข้อมูลเบื้องต้น
[Part 2] วิเคราะห์ข้อมูล, ตั้งสมมติฐาน และเลือกโมเดล
[Part 3] แก้ไขข้อมูล และสร้างข้อมูลใหม่
[Part 4] Data visualization
[Part 5] การคัดเลือกข้อมูล จะดรอปอะไรออกไปดีนะ?
[Part 6] การทำ Labelencoder
[Part 7] เตรียมข้อมูลเพื่อ Fit model
[Part 8] Training Model
[Part 9] Training Model แบบหลายๆ Model

ในบทความนี้เราจะมาเตรียมข้อมูลสำหรับ Fit model กันครับ โดยเราจะแบ่งข้อมูลออกเป็น 2 ส่วน คือ feature และ target variable ครับ

feature คืออะไร ?
feature คือข้อมูลที่เกี่ยวข้องทั้งหมดที่ไม่ใช่ผลลัพธ์ของการหาครับ ส่วนใหญ่จะแทน feature ด้วย X ครับ

target variable คืออะไร?
เอาง่ายๆ มันก็คือผลลัพธ์ที่เราต้องการหานั่นแหละครับ นิยมแทนด้วย y

และทั้ง X,y จะถูกนำข้อมูลมาแบ่งออกเป็น X_train, X_test, y_train และ y_test คือ เอาไว้สำหรับเทรนโมเดล และสำหรับทดสอบโมเดลครับ โดยส่วนใหญ่จะแบ่งออกเป็น 70:30 ครับ

เรามาหา X,y กันเลย โดยใช้คำสั่ง

X = df.drop("state", axis=1)
y = df['state']

X ก็คือ Drop ทุกอย่าง ยกเว้น State และ y ก็คือ เอาแค่ State ครับ

แล้วก็อย่าลืมตรวจดูข้อมูลด้วยนะครับ ว่าเราทำถูกหรือไม่ ก็ใช้

X.head()

และ

y.head()

หรือใช้วิธีดูอื่นๆอีก เช่น

[Data Sci workshop] มาลองใช้ google colab + Scikit learn วิเคราะห์โปรเจคที่จะ Success ในเว็บระดมทุน Kickstarter กันเถอะ [Part8]

สามารถเข้าไปดูไฟล์ Workshop ได้ที่นี่เลยยครับ >>>
https://colab.research.google.com/drive/1P09Xd-UKIrP_jQiDD43vdX91tGtd9JVX