Inspiration

ทีมของเราได้มีความสนใจในการแข่งขัน TMLCC ซึ่งโจทย์ในปีนี้คือการทำนายความสามารถในการดูดซับก๊าซของ Metal-Organic Frameworks (MOFs)

What it does

Machine learning model ของเราได้นำเครื่องมือ FLAML ที่ใช้ในการทำ hyperparameter tuning เพื่อหาโมเดลและพารามิเตอร์ที่เหมาะสมกับข้อมูล โดยจะนำโมเดลที่ถูกเลือก เช่น LGBMRegressor ในการทำนายค่า surface area ที่เรายังไม่ทราบก่อนเป็นอันดับแรก หลังจากได้ค่า surface area และปรับให้มีแค่ค่าที่มี surface area มากกว่า 0 แล้ว จึงได้เข้าสู่ขั้นตอนในการทำนาย Working Capacity ของ MOF ใน test set ซึ่งมีทั้งหมด 17,000 ตัว ใช้หลักการเดียวกับการทำนาย surface area โดยเรียนรู้จาก descriptor ที่เป็นคุณสมบัติเชิงกายภาพของโครงสร้าง MOF เช่น ปริมาตร พื้นที่ผิว โดยชุดข้อมูลฝึกสอนมีประมาณหกหมื่นกว่าโครงสร้าง

นอกจากนี้ เรายังพลอตกราฟเพื่อดูการกระจายและความสัมพันธ์ของข้อมูล เพื่อที่จะนำมาจัดการกับค่าที่เป็น missing values ด้วย

How we built it

เราใช้ภาษา Python 3 ในการเขียนโปรแกรมทั้งหมด เราใช้ libraries ต่อไปนี้ด้วย

  • numpy : จัดการ array
  • pandas : จัดการ data frame และทำความสะอาดชุดข้อมูล
  • scikit-learn : LGBMRegressor , ExtraTreeEstimator
  • matplotlib : พลอตกราฟ
  • flaml: Hyperparameter tuning and select the best model เรายังได้ใช้ Deepnote ในการเทรนโมเดลอีกด้วย ซึ่ง Deepnote คือ data science platform ที่เอาไว้ใช้สำหรับการเขียนโปรแกรมภาษา Python แบบที่เป็น cell ซึ่งเป็น Jupyter-based notebook

Challenges we ran into

สามารถตัดสินใจเลือกแนวทางในการจัดการข้อมูลได้ในเวลาอันสั้น เช่น ตัดสินใจที่จะ predict surface area ก่อน เนื่องจากยังไม่สามารถดึงค่า surface area มาโดยวิธีการอื่นได้

Accomplishments that we're proud of

โมเดลของเราสามารถทำนายค่า Working Capacity ได้อย่างมีประสิทธิภาพในกรอบระยะเวลาที่จำกัด โดยโมเดลที่ดีที่สุดมีค่า error LMAE อยู่ที่ 1.2446496068

What we learned

  • ได้เรียนรู้และทำความเข้าใจกับ MOFs รวมถึงความรู้ทางเคมีบางส่วนที่เกี่ยวข้อง
  • ได้รับความรู้เกี่ยวกับการทำ machine learning จากวิทยากร
  • ได้ฝึกฝนการเขียนโค้ดมากขึ้น เนื่องจากเราต้องปรับโค้ดให้เหมาะกับเครื่องมือที่เลือกใช้ รวมไปถึงการจัดการข้อมูล เช่น การแทนที่ค่าที่เป็น missing values โดยอาศัยจากสิ่งที่วิเคราะห์ออกมาได้
  • ได้เข้าร่วมการแข่งขัน Data science สำหรับวิทยาศาสตร์ที่จัดขึ้นมาเป็นครั้งแรก

What's next for TMLCC Machine learning project

  • ทางทีมได้ใช้เวลาที่มีในการเรียนรู้อย่างเต็มที่ ได้ทดลองใช้ภาษา python ในการแก้ปัญหาและการแข่งขันจริงตามที่ตั้งใจไว้ค่ะ ถ้ามีโอกาสก็จะไม่พลาดกิจกรรมดี ๆ ที่ทำให้เราฝึกฝนในสิ่งที่เรียนมาได้อย่างเต็มที่แบบนี้อีกค่ะ

Built With

Share this project:

Updates