วันนี้เราจะมาดูวิธีลดขนาดของ dataframe ตอนที่ทำงานบน dataset ใหญ่ ๆ เพื่อประหยัด
memory กันครับ
โดยวิธีที่แนะนำวันนี้ผมไม่ได้คิดเองแต่อย่างใด แต่เห็นใช้กันอย่างแพร่หลายใน
kaggle ครับ
เริ่มจาก import library ต่าง ๆ แหละ โหลด data ของเรามาก่อนครับ
Continue reading
เกริ่นนำ
ปกติเวลาเราทำงานกับ tabular data แล้วเนี่ยเราก็จะมักเก็บไฟล์เป็นแบบ csv
กันใช่มั้ยครับ เพราะมันสะดวกดี แต่จริง ๆ แล้วเจ้า csv
มันก็มีข้อเสียของมันคือค่อนข้างช้าครับ
วันนี้ผมเลยทำการทดสอบสั้น ๆ เพื่อเทียบประสิทธิภาพของ csv
เทียบกับไฟล์ฟอร์แมตยอดฮิตอีก 3 ตัวนั่นก็คือ parquet, pickle และ feather ครับ
เราลองมาดูกันว่าตัวไหนจะมีประสิทธิภาพดีที่สุด
เริ่มจากโหลด library ต่าง ๆ
Continue reading