Inspiration

เรามาเพื่อฝึกฝนพัฒนาเป็นยอดฝีมือด้านปัญญาประดิษฐ์แห่งวงการวัสดุโลก !!!

What it does

พัฒนา Deep neural networks ให้ deep ยิ่งขึ้น สู่การทำนาย work capacity การดูดซับ CO2 ของ MOFs ใน training set ที่แม่นสุดๆ และในส่วนของ test set นั้นก็แม่นยำยิ่งๆ ขึ้นไปพร้อมๆ กัน และนำหลายๆ ชุดคำตอบมาโหวตร่วมกันเพื่อเพิ่มประสิทธิภาพการทำนายใน test set

How we built it

Dataset

  • Prepare dataset
    • Exploratory data analysis
    • Data cleansing
    • เติมเต็ม surface area ที่หายไปด้วยค่าจาก polynomial fit เทียบกับ void fraction
  • Features extraction
    • Geometry: volume, weight, density, void fraction, void volume, and surface area.
    • State: heat adsorption and CO2/N2 selectivity.
    • Chemical properties: degree of unsaturation, metal percentage, radial distribution function, and etc. [1-3]
    • Topology: embedding numbers of linkers, topologies and functional groups and amounts of linkers per volume. [4]
    • etc.
  • Data Augmentation with Gaussian Noise for Classical Regression
  • Train dataset/Validation dataset = 80/20

Model

  • Classical Regression
    • Support Vector Regression
    • Random forest, best LMAE in phase II: 1.241
    • Extra Trees Regressor
    • Gradient boosting, best LMAE in phase II: 1.227
  • Deep Leaning
    • DNN, best LMAE in phase II: 1.185 😁 😆 😅
      1. Input features are separated into two types: categorical values & continuous values.
      2. Embedding Layers are used for changing categorical values to continuous values.
      3. Linear Layers
      4. Batchnorm1d
      5. LeakyReLU where negative slope is 0.2
      6. log(MAE + 5*MAPE) is used as our loss function where MAPE = Mean Absolute Percentage Error which is 2*|y_pred - y_true|/(|y_pred| + |y_true|)
      7. Adam optimizer with initial lr = 0.01
      8. Decay lr by 5% every 10 epochs
      9. Model training will automatically stop if there is no better validation LMAE for more than 200 epochs.
      10. final prediction is averaged from 10 predictions which are produced by 10 best validation lmae models
  • Graph Neural Networks
    • MEGNet [5], best LMAE in phase II: 1.420 😱 😨 😰
  • Ensemble Methods
    • Bagging
    • Voting

Challenges we ran into

  • นั่งนับ metal linkers และ organic linkers ครบ 17000 โครงสร้างในชุด test 😱
  • ลด loss ของ test set แต่ลดไม่ลง ลดน้ำหนักยังง่ายกว่า
  • ไม่มี GPU เป็นของตัวเอง ใช้ Google Colab Pro เป็นตัวหลัก
  • ใช้เวลาในการสร้าง features นานเนื่องจากมีโครงสร้างปริมาณมาก
  • ข้อจำกัดด้าน domain knowledges และความรู้เฉพาะทางอื่นๆ
  • เริ่มเรียนรู้การใช้ ensemble method ทำให้ยังมีความ improvise ปรับด้วยมือ

Accomplishments that we're proud of

  • เราได้ทดสอบโมเดลใหม่ๆ ที่ไม่เคยได้ลองใช้มาก่อน
  • แบ่งปันข้อมูลภายใน community และขอบคุณผู้เข้าร่วมแข่งทุกคนที่แบ่งปันข้อมูลอื่นๆ เช่นกันครับ
  • ได้โมเดลที่เรียบง่าย ไม่ซับซ้อน เข้าใจง่าย รันไม่นาน ฟีเจอร์ธรรมดา แต่ประสิทธิภาพโอเค
  • ปลุกจิตวิญญาณนักพัฒนาให้แก่กล้าขึ้น และได้เป็นส่วนหนึ่งของทีมนักพัฒนา ML ที่เข้าร่วมการแข่งขัน

What we learned

  • เราได้เรียนรู้เกี่ยวกับ MOF และประโยชน์ของมันมากขึ้น และเรียนรู้ว่างานทางวัสดุศาสตร์นั้นสามารถช่วยโลกของเราได้อย่างไร ทำให้เราเริ่มมีเป้าหมายในการทำงานด้านนี้มากขึ้นครับ 😁
  • โมเดลที่ดีก็พาเราไปถึงแค่จุดหนึ่ง ฟีเจอร์ที่ดีก็พาเราไปอยู่อีกจุดนึง แต่ถ้ารวมพลังของทั้งคู่ก็จะทวีพลานุภาพ ไม่ใช่แค่ 1+1 = 2 แต่เป็น 1 + 1 = 10
  • อะไรที่คิดว่าจะดีบางครั้ง พอลองแล้วมันก็ไม่ได้ดีอย่างที่คิด อะไรที่นึกไม่ถึงว่ามันจะช่วย พอนำมาลอง มันกลับช่วยได้
  • ได้รู้จักและเรียนรู้การประยุกต์ใช้โมเดลและระเบียบวิธีการต่างๆ เพื่อทำให้ค่าการทำนายออกมาดี ทำให้เราเห็นว่าหนทางด้าน ML นั้นกว้างใหญ่ยิ่งนัก

What's next for คุณตาขี่วาฬไปฟัดฉลาม

  • นำองค์ความรู้ที่ได้ตลอดหนึ่งเดือนไปพัฒนาโมเดลต่อ เพื่อใช้ในทางด้านวัสดุศาสตร์เช่น MOF รวมถึงนำไปประยุกต์ใช้กับวัสดุอื่นๆ ต่อไป
  • พักผ่อน การแข่งขันนี้ดูพลังชีวิตไปมาก น่าจะแก่ลง 10 ปี
  • ทบทวนตัวเอง ทบทวนวิธีการ สำรวจความผิดพลาดและสำเร็จ จากนั้นก็ก้าวต่อไป

Thank you

ขอบคุณทีมงานทุกคนที่สละเวลาจัดงานแข่งขันครั้งนี้ขึ้น ทางทีมได้รับความรู้และประสบการณ์มากมายจากงานแข่งขันครั้งนี้ และเราจะนำความรู้และประสบการณ์ที่ได้ไปพัฒนาตัวเองและต่อยอดความรู้ความสามารถเพื่อให้เป็นประโยชน์ต่อตนเองและสังคมต่อไป พวกเรารู้สึกขอบคุณจากใจ 🙏

References

[1] Altintas, C., Altundal, O. F., Keskin, S., & Yildirim, R. (2021). Machine Learning Meets with Metal Organic Frameworks for Gas Storage and Separation. Journal of Chemical Information and Modeling, 61(5), 2131-2146.
[2] Pardakhti, M., Moharreri, E., Wanik, D., Suib, S. L., & Srivastava, R. (2017). Machine learning using combined structural and chemical descriptors for prediction of methane adsorption performance of metal organic frameworks (MOFs). ACS combinatorial science, 19(10), 640-645.
[3] Dureckova, H., Krykunov, M., Aghaji, M. Z., & Woo, T. K. (2019). Robust machine learning models for predicting high CO2 working capacity and CO2/H2 selectivity of gas adsorption in metal organic frameworks for precombustion carbon capture. The Journal of Physical Chemistry C, 123(7), 4133-4139.
[4]: Moosavi, S. M., Nandy, A., Jablonka, K. M., Ongari, D., Janet, J. P., Boyd, P. G., ... & Kulik, H. J. (2020). Understanding the diversity of the metal-organic framework ecosystem. Nature communications, 11(1), 1-10.
[5] Chen, C., Ye, W., Zuo, Y., Zheng, C., & Ong, S. P. (2019). Graph networks as a universal machine learning framework for molecules and crystals. Chemistry of Materials, 31(9), 3564-3572.

Built With

Share this project:

Updates