🔹 แรงบันดาลใจของเรา
ทีมของเรามีความสนใจในการประยุกต์ใช้ความรู้ทางด้าน Machine learning (ML) ร่วมกับความรู้วิทยาศาสตร์ในสาขาต่าง ๆ เราจึงเข้าร่วมการแข่งขัน TMLCC ซึ่งเปิดโอกาสให้เราใช้ ML มาทำนายความสามารถในการดูดซับก๊าซของ Metal-Organic Frameworks (MOFs)
🔹 Features ที่เราใช้
◼ Energy-based features
Rdfpy: Radial basis distribution function (mean and max value) ref.
◼ Chemical features
MOFfeatures: Total degree of unsaturation, Metallic percentage, Nitrogen to oxygen, etc. ref.
Matminer: BandCenter, Stoichiometry, Meredig ref.
Deepchem: ElementNet features (a portion of each element in each formula) ref.
◼ Geometrical features
PorE: Pore distribution (max value), # pores, Porosity etc. ref.
Zeo++: Largest cavity diameter (LCD) and Pore limiting diameter (PLD) ref.
iRASPA: GSA, VSA, Void fraction ref.
cif file: Cell length, number of atoms, and coordinates.
◼ Remapped features
Functional group remap: Map to the new group (based on intermolecular forces), Map to number of functional groups ref.
Metal linker remap: Map to weight
◼ Crossed features Density x CO2/N2 selectivity, Surface area x CO2/N2 selectivity, Pore size max x Heat adsorption, etc.
🔹 โมเดลของเรา
เราใช้โมเดลหลัก ๆ 2 กลุ่ม ได้แก่
◼ Gradient Boosting Tree
- XGB Regressor
- Cat Boost Regressor
- LGBM Regressor
- Histogram-based Gradient Boosting Regressor
- Stacked generalized model of 1) to 4) with meta-model being Ridge regression
◼ Neural Networks (NNs)
- Small NNs: TabNet ref, and DeepInsight by Squeezenet1_1 ref.
- Big NNs: TabTransformer ref., 1D-CNN ref.
📌 Final prediction
Final prediction = weighted average ระหว่าง Gradient Boosting Tree (1-5) + DeepInsight + NN contributions
Weights ถูกคำนวณโดยใช้ Hyperopt (tree-based black-box optimization algorithm)
NN contributions = 0.5*TabNet + 0.25*TabTransformer + 0.25 * 1D-CNN
🔹 ความท้าทาย และความภาคภูมิใจของเรา
◼ ความท้าทาย 1: ข้อมูล Surface area, Void fraction และ Void volume | ข้อมูลเหล่านี้บางส่วนมีค่าเป็น 0 หรือ -1 และเราสามารถจัดการกับข้อมูลที่มีปัญหาเหล่านี้ได้ในที่สุด หลังจากพยายามมาหลากหลายวิธี จนเก็บเอาไปฝัน 👻 สุดท้ายเราคำนวณได้จาก iRASPA software โดยใช้ Command-line Utility ค้นพบโดยการลองกดทุกปุ่มในโปรแกรม
◼ ความท้าทาย 2: ความรู้ทางด้านฟิสิกส์ และเคมีที่จำกัด | เราไม่ได้เรียนทางด้านฟิสิกส์ หรือเคมีมาโดยเฉพาะ ซ้ำยังเคยติดศูนย์ 😭 ทำให้การทำความเข้าใจข้อมูล และทฤษฎีต่าง ๆ เพื่อหาความเชื่อมโยงของ Features หรือสร้าง Features ใหม่ ๆ เป็นเรื่องยากสำหรับทีมเรา แต่เราก็ใช้ความพยายามในการหาข้อมูลจนสามารถทำโมเดลในการทำนาย CO2 working capacity ได้สำเร็จ
◼ ความท้าทาย 3: Performance machine ของ Deepnote ดับบ่อย ทำให้การคำนวณ features ต่าง ๆ ใช้เวลานานกว่าที่ควรจะเป็น แต่เราไม่ย่อท้อ มีความมุมานะ นั่งกดรันใหม่ตลอดจนกว่าจะเสร็จ 🤘
◼ ความท้าทาย 4: ไม่มี GPU เป็นของตัวเอง (เราขอ resource จาก Deepnote ไม่ทันเวลา) ทำให้ไม่สามารถเทรนโมเดลที่ซับซ้อนได้ แต่เราก็ไม่ท้อเช่นกัน รันโมเดลใน Macbook จนควันขึ้น 🔥
🔹 สิ่งที่เราได้เรียนรู้
◼ ได้เรียนรู้ความรู้พื้นฐานของ MOFs เช่น โครงสร้าง คุณสมบัติทางกายภาพ และเคมีต่าง ๆ ของ MOFs
◼ ได้เรียนรู้การใช้ Library ต่าง ๆ ทางเคมี เช่น Rdkit, Deepchem, zeo++ เป็นต้น

Log in or sign up for Devpost to join the conversation.