Inspirasi
Tujuan kami dalam proyek ini adalah untuk memungkinkan para peneliti dan penggemar NLP Indonesia untuk mengakses tren terbaru dari teknologi deep learning di NLP dengan korpus pretraining yang besar dan model pretraining yang besar. Dengan begitu, kami yakin akan membawa penelitian NLP Indonesia ke level selanjutnya. Lebih jauh, kami membayangkan bahwa pekerjaan kami dapat memungkinkan kolaborasi masa depan antara peneliti NLP Indonesia dan beresonansi lebih jauh dengan mengundang lebih banyak orang untuk berkolaborasi dalam memajukan penelitian NLP Indonesia.
Apa yang proyek kami lakukan
Dalam proyek IndoNLU, kami memperkenalkan sumber daya besar pertama yang pernah ada untuk training, evaluasi, dan benchmark pada NLU tasks dalam Indonesia (IndoNLU). IndoNLU mencakup 12 tasks, mulai dari single sentence classification hingga pair-sentences sequence labeling dengan tingkat kompleksitas yang berbeda. Kumpulan data untuk tasks terletak pada domain dan gaya yang berbeda untuk memastikan keragaman tasks. Kami juga menyediakan satu set model Indonesia terlatih (IndoBERT) yang dilatih dari kumpulan data Indonesia (Indo4B) yang besar dan bersih yang dikumpulkan dari sumber yang tersedia untuk umum seperti teks media sosial, blog, berita, dan situs web. Kami merilis model dasar untuk semua 12 tasks, serta kerangka untuk evaluasi benchmark, sehingga memungkinkan semua orang untuk mengukur kinerja sistem mereka.
Bagaimana saya membangunnya
Kami membangun framework IndoNLU bersama dengan benchmark, pre-training dataset berskala besar , dan large pre-trained model. Kami membangun framework dari awal dengan menggunakan PyTorch dan HuggingFace. Kami mengumpulkan 12 tasjs untuk benchmark dari berbagai sumber yang dipublikasikan. Untuk pre-training dataset, kami mengumpulkan dataset dari 15 sumber yang tersedia untuk umum. Untuk pre-trained model, kami melatih model BERT dan ALBERT dengan kode resmi masing-masing model dan mengkonversi bobot model tersebut ke dalam format model PyTorch dan menghosting model tersebut di platform HuggingFace.
Tantangan yang saya hadapi
Kami menemukan banyak tantangan dalam proses pembuatan proyek ini. Pertama, terkait dengan model, kami kekurangan sumber daya komputasi untuk membangun large pre-trained model, dan kami berhasil menyelesaikannya melalui kolaborasi dengan berbagai pihak. Kedua, terkait dengan task benchmark dan pre-training dataset, kami memiliki masalah dengan pengumpulan tugas dan korpus pra-terlatih untuk Bahasa Indonesia, karena datanya tersebar dan beberapa sumber sulit untuk diakses.
Prestasi yang saya banggakan
Benchmark IndoNLU ini telah membantu dan akan terus membantu banyak peneliti Indonesia untuk melakukan penelitian tentang NLP dalam Bahasa Indonesia. Sumber daya yang disediakan, model dan kumpulan data juga telah menginspirasi orang lain untuk membangun model yang lebih baik dan mengumpulkan lebih banyak kumpulan data Bahasa Indonesia. Selain itu, dokumentasi penelitian ini telah diterima dalam AACL-IJCNLP 2020 untuk diterbitkan sebagai satu-satunya makalah penelitian Indonesia pada konferensi terkenal tersebut. Singkatnya kami bangga dapat berkontribusi untuk peneliti Indonesia karena kami juga bangga mewakili Indonesia dalam mempresentasikan makalah penelitian: "IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding the AACL-IJCNLP 2020"
Apa yang saya pelajari
Saat mengembangkan benchmark IndoNLU dan IndoTutorial ini, kami belajar banyak hal, yaitu membangun model BERT dari awal, membuat korpus pretrained skala besar, dan kami menjadi tahu dan belajar lebih banyak tentang banyak aplikasi tugas NLP Indonesia, seperti klasifikasi emosi, sentimen analisis, analisis sentimen berbasis aspek, entailment tekstual, penandaan bagian dari pembicaraan (POS tag), ekstraksi istilah (span extraction), dan tugas pengenalan entitas bernama (NER). Yang terpenting, kami belajar banyak tentang PyTorch dan betapa mudahnya menggunakannya dalam studi kasus dan proyek kami dalam menerapkan konsep yang ada dalam pikiran kami. Selain itu, kami juga belajar menggunakan pustaka PyTorch ternama Hugging Face dalam fungsi pemodelan yang telah mereka bangun yang terkait dengan BERT dan ALBERT.
Apa selanjutnya untuk IndoTutorial: Tutorial Finetuning IndoBERT dengan PyTorch
Kami selalu terbuka untuk kolaborasi dan perubahan yang lebih baik. Kami berencana membuat kompetisi NLP dan karenanya kami menyiapkan bagian papan peringkat di beranda indobenchmark.com kami dan juga menyiapkan portal pengiriman menggunakan CodaLab. Selain itu, kami berencana dan membuka diri untuk melakukan rangkaian seminar dan promosi tentang penelitian NLP dalam Bahasa Indonesia, dan kami juga berharap dapat memberikan lebih banyak bantuan dan bimbingan serta bekerjasama dengan banyak (jika tidak semua) peneliti NLP Indonesia di luar sana dan membantu periset NLP membuat dan membandingkan performa model NLP mereka dengan baseline di benchmark IndoNLU. Selanjutnya bagi kami adalah kemajuan penelitian NLP khususnya pada aplikasi tugas NLP menggunakan Bahasa Indonesia.
Log in or sign up for Devpost to join the conversation.