Inspiration
ทีมของเราได้เข้าร่วมแข่งขัน TMLCC ประจำปี 2021 ซึ่งได้รับโจทย์ให้สร้างโมเดลทำนายความสามารถในการดูดซับก๊าซของ Metal-Organic Frameworks (MOFs) จากข้อมูลที่ได้รับจากโครงการ
What it does
ทีมขมิ้บด๊าซซ โป่งโป๊ง เลือกใช้ Machine learning อย่างการทำ K-MEAN & LGBM regression และ Deep learning อย่าง Feed Forward neural network (FFNN) และ Convolutional Neural Network (CNN) ในการสร้างโมเดลทำนายที่หลากหลาย นอกจากนี้ เรายังมีการเพิ่มข้อมูลจากไฟล์ .xyz ของทางโครงการ ซึ่งสามารถแปลงเป็น SMILES และคำนวณค่าต่าง ๆ ทางเคมีเพิ่มเติม จนได้ข้อมูลรวม 70 ตัวแปรด้วยกัน
How we built it
ทีมของเราใช้ภาษา Python 3 ในการเขียนโปรแกรมทั้งหมด ประกอบกับ library ต่าง ๆ ดังนี้
- open babel: สำหรับการแปลงไฟล์ .xyz เป็น SMILES
- RDKit: สำหรับรับค่าทางเคมีจาก SMILES
- numpy: สำหรับค่าคงที่ต่าง ๆ และการจัดการ array
- pandas: สำหรับจัดการ Data frame ให้ได้ข้อมูลที่ต้องการ
- matplotlib: สำหรับทำ Data visualization ระหว่างสร้างโมเดล
- keras: สำหรับทำโมเดล Deep learning
- scikit-learn: สำหรับทำโมเดล LGBM regression
Challenges we ran into
- การ cleansing ข้อมูลที่ได้รับให้เกิดความถูกต้องสูงสุด เช่น ข้อมูล surface area บางตัวมีค่าน้อยกว่าหรือเท่ากับ 0 และ Heat adsorption CO2 บางตัวไม่มีค่า เป็นต้น
- ต้องศึกษาการคำนวณเชิงเคมี รวมถึง library ที่เกี่ยวข้อง เพื่อหาข้อมูลมาประกอบการทำโมเดลให้ได้มากที่สุด ## Accomplishments that we're proud of
- ทีมของเราสามารถสร้างโมเดลได้หลากหลาย และค่อนข้างมีประสิทธิภาพที่ดี โดยโมเดลที่ดีที่สุดคือ CNN ซึ่งมีค่า LMAE error อยู่ที่ 1.2662692262
What we learned
- คุณสมบัติและความสำคัญของ MOFs
- ความรู้เกี่ยวกับ Machine learning และ Deep learning
- การประยุกต์ใช้ Machine learning ในการทำนายคุณสมบัติทางเคมีของ MOFs รวมถึง library ที่เกี่ยวข้อง
- ได้เข้าร่วมการแข่งขัน Data science สำหรับวิทยาศาสตร์เป็นครั้งแรก
What's next for ขมิ้บด๊าซซ โป่งโป๊ง
ได้เวลาที่ทีมของเราจะโลดแล่นในวงการแข่งขัน Data science อย่างเต็มตัวแล้ว!
Built With
- keras
- open-babel
- python
- rdkit
- scikit-learn
Log in or sign up for Devpost to join the conversation.