Inspiration
ทีมของเราได้มีความสนใจในการแข่งขัน TMLCC ซึ่งโจทย์ในปีนี้คือการทำนายความสามารถในการดูดซับก๊าซของ Metal-Organic Frameworks (MOFs)
What it does
Machine learning model ของเราได้นำเครื่องมือ FLAML ที่ใช้ในการทำ hyperparameter tuning เพื่อหาโมเดลและพารามิเตอร์ที่เหมาะสมกับข้อมูล โดยจะนำโมเดลที่ถูกเลือก เช่น LGBMRegressor ในการทำนายค่า surface area ที่เรายังไม่ทราบก่อนเป็นอันดับแรก หลังจากได้ค่า surface area และปรับให้มีแค่ค่าที่มี surface area มากกว่า 0 แล้ว จึงได้เข้าสู่ขั้นตอนในการทำนาย Working Capacity ของ MOF ใน test set ซึ่งมีทั้งหมด 17,000 ตัว ใช้หลักการเดียวกับการทำนาย surface area โดยเรียนรู้จาก descriptor ที่เป็นคุณสมบัติเชิงกายภาพของโครงสร้าง MOF เช่น ปริมาตร พื้นที่ผิว โดยชุดข้อมูลฝึกสอนมีประมาณหกหมื่นกว่าโครงสร้าง
นอกจากนี้ เรายังพลอตกราฟเพื่อดูการกระจายและความสัมพันธ์ของข้อมูล เพื่อที่จะนำมาจัดการกับค่าที่เป็น missing values ด้วย
How we built it
เราใช้ภาษา Python 3 ในการเขียนโปรแกรมทั้งหมด เราใช้ libraries ต่อไปนี้ด้วย
- numpy : จัดการ array
- pandas : จัดการ data frame และทำความสะอาดชุดข้อมูล
- scikit-learn : LGBMRegressor , ExtraTreeEstimator
- matplotlib : พลอตกราฟ
- flaml: Hyperparameter tuning and select the best model เรายังได้ใช้ Deepnote ในการเทรนโมเดลอีกด้วย ซึ่ง Deepnote คือ data science platform ที่เอาไว้ใช้สำหรับการเขียนโปรแกรมภาษา Python แบบที่เป็น cell ซึ่งเป็น Jupyter-based notebook
Challenges we ran into
สามารถตัดสินใจเลือกแนวทางในการจัดการข้อมูลได้ในเวลาอันสั้น เช่น ตัดสินใจที่จะ predict surface area ก่อน เนื่องจากยังไม่สามารถดึงค่า surface area มาโดยวิธีการอื่นได้
Accomplishments that we're proud of
โมเดลของเราสามารถทำนายค่า Working Capacity ได้อย่างมีประสิทธิภาพในกรอบระยะเวลาที่จำกัด โดยโมเดลที่ดีที่สุดมีค่า error LMAE อยู่ที่ 1.2446496068
What we learned
- ได้เรียนรู้และทำความเข้าใจกับ MOFs รวมถึงความรู้ทางเคมีบางส่วนที่เกี่ยวข้อง
- ได้รับความรู้เกี่ยวกับการทำ machine learning จากวิทยากร
- ได้ฝึกฝนการเขียนโค้ดมากขึ้น เนื่องจากเราต้องปรับโค้ดให้เหมาะกับเครื่องมือที่เลือกใช้ รวมไปถึงการจัดการข้อมูล เช่น การแทนที่ค่าที่เป็น missing values โดยอาศัยจากสิ่งที่วิเคราะห์ออกมาได้
- ได้เข้าร่วมการแข่งขัน Data science สำหรับวิทยาศาสตร์ที่จัดขึ้นมาเป็นครั้งแรก
What's next for TMLCC Machine learning project
- ทางทีมได้ใช้เวลาที่มีในการเรียนรู้อย่างเต็มที่ ได้ทดลองใช้ภาษา python ในการแก้ปัญหาและการแข่งขันจริงตามที่ตั้งใจไว้ค่ะ ถ้ามีโอกาสก็จะไม่พลาดกิจกรรมดี ๆ ที่ทำให้เราฝึกฝนในสิ่งที่เรียนมาได้อย่างเต็มที่แบบนี้อีกค่ะ
Log in or sign up for Devpost to join the conversation.