Inspiration

พวกเราเป็นนิสิตชั้นปีที่ 3 จากคณะวิศวกรรมศาสตร์ ภาควิชาวิศวกรรมคอมพิวเตอร์ จุฬาลงกรณ์มหาวิทยาลัยครับ พวกเราพอมีความรู้และประสบกรณ์ด้าน Machine Learning มาบ้างจากการทำโปรเจคต์ต่างๆในภาควิชา แต่ไม่มีความรู้ในการประยุกต์ใช้กับงานทางด้านเคมีมาก่อนเลย เมื่อเห็นโจทย์ TMLCC ปีนี้เลยรู้สึกสนใจขึ้นมาครับ

What it does

Machine learning model ของเราใช้เทคนิค GNN, SAGE, SAGPooling, Deep Cross Network และ Voting Ensemble ในการทำนายค่า CO2 working capacity ของ MOFs ใน test set ซึ่งมีทั้งหมด 17,000 ตัว โดยเรียนรู้จาก descriptor ที่เป็นคุณสมบัติเชิงกายภาพของโครงสร้าง MOF เช่น ปริมาตร พื้นที่ผิว การดูดซับความร้อน ฯลฯ และข้อมูลโครงสร้างของ MOF ในรูปแบบของไฟล์ cif โดยชุดข้อมูลฝึกสอนมีทั้งหมด 68613 โครงสร้าง

นอกจากนี้ เรายังได้ใช้เทคนิค การทำ feature engineering โดยการคำนวนค่า surface area ใหม่ ด้วย Zeo++ เเละคำนวน 3D Energy grid landscape histogram ด้วย pyIsoP เพื่อนำมาใช้เป็น feature เพิ่มเติมในการทำนาย

How we built it

เราใช้ภาษา Python 3 ในการเขียนโปรแกรมทั้งหมด โดยได้ใช้ libraries ต่อไปนี้ด้วย

  • NumPy: จัดการ array
  • pandas : จัดการ data frame และทำความสะอาดชุดข้อมูล
  • scikit-learn: Regression model
  • matplotlib: พล็อตกราฟ
  • tensorboard : พล็อต UMAP, PCA
  • torch-geometric: Graph Neural Network Model
  • pyIsoP: generate 3D Energy grid landscape histogram

เรายังได้ใช้ Performance machine ของ Deepnote ในการ generate feature ซึ่งเนื่องจาก Performance machine นี้มีการทำงานด้วย CPU ถึง 16 cores จึงทำให้ทีมของเราสามารถพัฒนาโมเดลสำเร็จได้ทันเวลา (ช่วงช่วยกันขายของ* Deepnote คือ data science platform ที่เอาไว้ใช้สำหรับการเขียนโปรแกรมภาษา Python แบบ Cell หรือก็คือ Jupyter-based notebook นั่นเอง) deepnote

นอกจากนี้เรายังได้ใช้ GPU K80 ของ Google Colab และ Microsoft Azure (Free Credits) ในการเทรนโมเดลอีกด้วย

Challenges we ran into

  • มีข้อมูล .cif บางไฟล์ที่มีปัญหา จึงทำให้เราต้อง drop ข้อมูลเหล่านั้นทิ้งไปหลายพันตัว
  • ข้อมูลช่วงตัวที่ 63000 เป็นต้นไปมีปัญหาน่าปวดหัวค่อนข้างมาก
  • เนื่องจากกลุ่มของพวกเราไม่มีความรู้ทางด้านเคมีมาก่อนจึงทำให้ต้องลองผิดลองถูกกับข้อมูลนับครั้งไม่ถ้วน แต่ในท้ายที่สุดก็ผ่านมันไปได้
  • GPU ที่ Google Colab ให้มานั้นค่อนข้างจำกัด

ทั้งนี้ต้องขอขอบคุณพี่ๆภายใน community ที่คอยช่วยแนะนำ libraries ที่มีประโยชน์ แนะนำเปเปอร์ต่างๆ และแจ้งเรื่องข้อมูลบางตัวที่ผิดพลาดด้วยครับ

Accomplishments that we're proud of

โมเดลของเราสามารถทำนายค่า WC ได้อย่างมีประสิทธิภาพยอดเยี่ยม โดยโมเดลที่ดีที่สุดมีค่า error LMAE อยู่ที่ 1.174 จาก 28% ของ test set

What we learned

เราได้เรียนรู้ความสำคัญของ MOF และการประยุกต์ใช้ machine learning ในการทำนายหาคุณสมบัติทางเคมีของ MOF ได้แก้ปัญหาโจทย์ที่ไม่เคยทำมาก่อน เรียนรู้เทคนิคในการทำ model แบบใหม่ๆจากเปเปอร์มากมาย เรียนรู้สิ่งใหม่ ๆ จากวิทยากร ได้เข้าร่วมการแข่งขัน Data science สำหรับวิทยาศาสตร์ด้านเคมีที่จัดขึ้นมาเป็นครั้งแรก

What's next for F_together_strong

ทำการบ้านที่ดองไว้, เตรียมสอบปลายภาค และทำยังไงก็ได้ให้รอด F ครับ

References

  • Daiguo Deng, Xiaowei Chen, Ruochi Zhang, Zengrong Lei, Xiaojian Wang*, and Fengfeng Zhou*. XGraphBoost: Extracting Graph Neural Network-Based Features for a Better Prediction of Molecular Properties link
  • Ruoxi Wang, Bin Fu, Gang Fu, Mingliang Wang. Deep & Cross Network for Ad Click Predictions link
  • Benjamin J. Bucior, N. Scott Bobbitt, Timur Islamoglu, Subhadip Goswami, Arun Gopalan, Taner Yildirim, Omar K. Farha, Neda Bagheri, and Randall Q. Snurr. Energy-based descriptors to rapidly predict hydrogen storage in metal-organic frameworks link
  • Dejun Jiang, Zhenxing Wu, Chang-Yu Hsieh, Guangyong Chen, Ben Liao, Zhe Wang, Chao Shen, Dongsheng Cao, Jian Wu & Tingjun Hou. Could graph neural networks learn better molecular representation for drug discovery? A comparison study of descriptor-based and graph-based models link
  • William L. Hamilton, Rex Ying, Jure Leskovec. Inductive Representation Learning on Large Graphs link
  • Jie Zhou a, Ganqu Cui a, Shengding Hu a, Zhengyan Zhang a, Cheng Yang b, Zhiyuan Liu a, Lifeng Wang c, Changcheng Li c, Maosong Sun a. Graph neural networks: A review of methods and applications. link
  • Shugang Zhang, Mingjian Jiang, Shuang Wang, Xiaofeng Wang, Zhiqiang Wei, and Zhen Li. SAG-DTA: Prediction of Drug–Target Affinity Using Self-Attention Graph Network link
  • การใช้ Zeo++ เพื่อคำนวณหา Surface area ของ MOFs by คุณ Wachirapong Ratipapongthon link

Built With

Share this project:

Updates