Inspiration

ทีมของเราได้เข้าร่วมแข่งขัน TMLCC ประจำปี 2021 ซึ่งได้รับโจทย์ให้สร้างโมเดลทำนายความสามารถในการดูดซับก๊าซของ Metal-Organic Frameworks (MOFs) จากข้อมูลที่ได้รับจากโครงการ

What it does

ทีมขมิ้บด๊าซซ โป่งโป๊ง เลือกใช้ Machine learning อย่างการทำ K-MEAN & LGBM regression และ Deep learning อย่าง Feed Forward neural network (FFNN) และ Convolutional Neural Network (CNN) ในการสร้างโมเดลทำนายที่หลากหลาย นอกจากนี้ เรายังมีการเพิ่มข้อมูลจากไฟล์ .xyz ของทางโครงการ ซึ่งสามารถแปลงเป็น SMILES และคำนวณค่าต่าง ๆ ทางเคมีเพิ่มเติม จนได้ข้อมูลรวม 70 ตัวแปรด้วยกัน

How we built it

ทีมของเราใช้ภาษา Python 3 ในการเขียนโปรแกรมทั้งหมด ประกอบกับ library ต่าง ๆ ดังนี้

  • open babel: สำหรับการแปลงไฟล์ .xyz เป็น SMILES
  • RDKit: สำหรับรับค่าทางเคมีจาก SMILES
  • numpy: สำหรับค่าคงที่ต่าง ๆ และการจัดการ array
  • pandas: สำหรับจัดการ Data frame ให้ได้ข้อมูลที่ต้องการ
  • matplotlib: สำหรับทำ Data visualization ระหว่างสร้างโมเดล
  • keras: สำหรับทำโมเดล Deep learning
  • scikit-learn: สำหรับทำโมเดล LGBM regression

Challenges we ran into

  • การ cleansing ข้อมูลที่ได้รับให้เกิดความถูกต้องสูงสุด เช่น ข้อมูล surface area บางตัวมีค่าน้อยกว่าหรือเท่ากับ 0 และ Heat adsorption CO2 บางตัวไม่มีค่า เป็นต้น
  • ต้องศึกษาการคำนวณเชิงเคมี รวมถึง library ที่เกี่ยวข้อง เพื่อหาข้อมูลมาประกอบการทำโมเดลให้ได้มากที่สุด ## Accomplishments that we're proud of
  • ทีมของเราสามารถสร้างโมเดลได้หลากหลาย และค่อนข้างมีประสิทธิภาพที่ดี โดยโมเดลที่ดีที่สุดคือ CNN ซึ่งมีค่า LMAE error อยู่ที่ 1.2662692262

What we learned

  • คุณสมบัติและความสำคัญของ MOFs
  • ความรู้เกี่ยวกับ Machine learning และ Deep learning
  • การประยุกต์ใช้ Machine learning ในการทำนายคุณสมบัติทางเคมีของ MOFs รวมถึง library ที่เกี่ยวข้อง
  • ได้เข้าร่วมการแข่งขัน Data science สำหรับวิทยาศาสตร์เป็นครั้งแรก

What's next for ขมิ้บด๊าซซ โป่งโป๊ง

ได้เวลาที่ทีมของเราจะโลดแล่นในวงการแข่งขัน Data science อย่างเต็มตัวแล้ว!

Built With

Share this project:

Updates