🔹 แรงบันดาลใจของเรา

ทีมของเรามีความสนใจในการประยุกต์ใช้ความรู้ทางด้าน Machine learning (ML) ร่วมกับความรู้วิทยาศาสตร์ในสาขาต่าง ๆ เราจึงเข้าร่วมการแข่งขัน TMLCC ซึ่งเปิดโอกาสให้เราใช้ ML มาทำนายความสามารถในการดูดซับก๊าซของ Metal-Organic Frameworks (MOFs)

🔹 Features ที่เราใช้

Energy-based features

Rdfpy: Radial basis distribution function (mean and max value) ref.

Chemical features

MOFfeatures: Total degree of unsaturation, Metallic percentage, Nitrogen to oxygen, etc. ref.

Matminer: BandCenter, Stoichiometry, Meredig ref.

Deepchem: ElementNet features (a portion of each element in each formula) ref.

Geometrical features

PorE: Pore distribution (max value), # pores, Porosity etc. ref.

Zeo++: Largest cavity diameter (LCD) and Pore limiting diameter (PLD) ref.

iRASPA: GSA, VSA, Void fraction ref.

cif file: Cell length, number of atoms, and coordinates.

Remapped features

Functional group remap: Map to the new group (based on intermolecular forces), Map to number of functional groups ref.

Metal linker remap: Map to weight

Crossed features Density x CO2/N2 selectivity, Surface area x CO2/N2 selectivity, Pore size max x Heat adsorption, etc.

🔹 โมเดลของเรา

เราใช้โมเดลหลัก ๆ 2 กลุ่ม ได้แก่

Gradient Boosting Tree

  1. XGB Regressor
  2. Cat Boost Regressor
  3. LGBM Regressor
  4. Histogram-based Gradient Boosting Regressor
  5. Stacked generalized model of 1) to 4) with meta-model being Ridge regression

Neural Networks (NNs)

  1. Small NNs: TabNet ref, and DeepInsight by Squeezenet1_1 ref.
  2. Big NNs: TabTransformer ref., 1D-CNN ref.

📌 Final prediction

Final prediction = weighted average ระหว่าง Gradient Boosting Tree (1-5) + DeepInsight + NN contributions

Weights ถูกคำนวณโดยใช้ Hyperopt (tree-based black-box optimization algorithm)

NN contributions = 0.5*TabNet + 0.25*TabTransformer + 0.25 * 1D-CNN

🔹 ความท้าทาย และความภาคภูมิใจของเรา

ความท้าทาย 1: ข้อมูล Surface area, Void fraction และ Void volume | ข้อมูลเหล่านี้บางส่วนมีค่าเป็น 0 หรือ -1 และเราสามารถจัดการกับข้อมูลที่มีปัญหาเหล่านี้ได้ในที่สุด หลังจากพยายามมาหลากหลายวิธี จนเก็บเอาไปฝัน 👻 สุดท้ายเราคำนวณได้จาก iRASPA software โดยใช้ Command-line Utility ค้นพบโดยการลองกดทุกปุ่มในโปรแกรม

ความท้าทาย 2: ความรู้ทางด้านฟิสิกส์ และเคมีที่จำกัด | เราไม่ได้เรียนทางด้านฟิสิกส์ หรือเคมีมาโดยเฉพาะ ซ้ำยังเคยติดศูนย์ 😭 ทำให้การทำความเข้าใจข้อมูล และทฤษฎีต่าง ๆ เพื่อหาความเชื่อมโยงของ Features หรือสร้าง Features ใหม่ ๆ เป็นเรื่องยากสำหรับทีมเรา แต่เราก็ใช้ความพยายามในการหาข้อมูลจนสามารถทำโมเดลในการทำนาย CO2 working capacity ได้สำเร็จ

ความท้าทาย 3: Performance machine ของ Deepnote ดับบ่อย ทำให้การคำนวณ features ต่าง ๆ ใช้เวลานานกว่าที่ควรจะเป็น แต่เราไม่ย่อท้อ มีความมุมานะ นั่งกดรันใหม่ตลอดจนกว่าจะเสร็จ 🤘

ความท้าทาย 4: ไม่มี GPU เป็นของตัวเอง (เราขอ resource จาก Deepnote ไม่ทันเวลา) ทำให้ไม่สามารถเทรนโมเดลที่ซับซ้อนได้ แต่เราก็ไม่ท้อเช่นกัน รันโมเดลใน Macbook จนควันขึ้น 🔥

🔹 สิ่งที่เราได้เรียนรู้

◼ ได้เรียนรู้ความรู้พื้นฐานของ MOFs เช่น โครงสร้าง คุณสมบัติทางกายภาพ และเคมีต่าง ๆ ของ MOFs

◼ ได้เรียนรู้การใช้ Library ต่าง ๆ ทางเคมี เช่น Rdkit, Deepchem, zeo++ เป็นต้น

🔹 Contact

pongpisit.tha@gmail.com

supitcha.suks@gmail.com

Built With

Share this project:

Updates