วิธีลดขนาดของ dataframe ใน python

May 10, 2020

วันนี้เราจะมาดูวิธีลดขนาดของ dataframe ตอนที่ทำงานบน dataset ใหญ่ ๆ เพื่อประหยัด memory กันครับ โดยวิธีที่แนะนำวันนี้ผมไม่ได้คิดเองแต่อย่างใด แต่เห็นใช้กันอย่างแพร่หลายใน kaggle ครับ

เริ่มจาก import library ต่าง ๆ แหละ โหลด data ของเรามาก่อนครับ

เปรียบเทียบ performance ของ csv กับ parquet, pickle, และ feather

May 9, 2020

เกริ่นนำ

ปกติเวลาเราทำงานกับ tabular data แล้วเนี่ยเราก็จะมักเก็บไฟล์เป็นแบบ csv กันใช่มั้ยครับ เพราะมันสะดวกดี แต่จริง ๆ แล้วเจ้า csv มันก็มีข้อเสียของมันคือค่อนข้างช้าครับ วันนี้ผมเลยทำการทดสอบสั้น ๆ เพื่อเทียบประสิทธิภาพของ csv เทียบกับไฟล์ฟอร์แมตยอดฮิตอีก 3 ตัวนั่นก็คือ parquet, pickle และ feather ครับ เราลองมาดูกันว่าตัวไหนจะมีประสิทธิภาพดีที่สุด

เริ่มจากโหลด library ต่าง ๆ