Aplikasi Web Image Caption menggunakan Neural Network (Part 1)

cover

Pernah membuka situs captionbot-nya Microsoft ? Situs ini merupakan situs dimana Anda hanya perlu mengunggah foto atau gambar yang Anda inginkan, kemudian situs tersebut akan generate caption atau keterangan apa saja yang bisa ditampilkan dari gambar yang Anda unggah.

Keren bukan ? AI dari situs tersebut akan menceritakan kepada Anda apa yang terjadi dalam gambar tersebut, selanjutnya kita sebut sebagai Caption. Bagaimana AI tersebut dapat bekerja ? Menggunakan Neural Network. Apa itu ANN (Artificial Neural-Network) ? Ada banyak sekali literatur yang bisa Anda jumpai di Internet. Silahkan lihat di Wikipedia .

Pada posting berikut, kita akan berbicara tentang sala satu bagian dari teknologi ANN, yaitu Recurrent Neural-Netwok atau RNN. Beberapa waktu lalu saya mendapatkan tugas pada mata kuliah AI, membahas tentang RNN sebagai salah satu cabang ANN. Saya sudah buat presentasinya, semoga bisa membantu Anda dalam memahami RNN :

dalam slide tersebut ada beberapa referensi yang mungkin Anda tertarik untuk mempelajarinya lebih jauh.

Mari kembali ke judul posting. Ketika saya mencari literasi tentang Recurrent Neural Network, saya menemukan source yang sangat membantu saya dalam memahami RNN, yaitu implementasi RNN kedalam sebuah aplikasi, NeuralTalk v2. NeuralTalk ini adalah aplikasi opensource dari Andrej Karpathy . NeuralTalk berjalan diatas framework Torch, salah satu Lua framework untuk AI. Prosesnya membuthkan source hardware yang lumayan besar, oleh karenanya disarankan berjalan diatas GPU, meskipun kita bisa memaksanya berjalan diatas CPU. NeuralTalk menggunakan metode Recurrent neural network untuk proses captioningnya, sedangkan data set atau data trainingnya menggunakan Convolutional Neural Network (CNN). Cara kerjanya Anda cukup menentukan data training dan folder dimana gambar atau foto-foto Anda berada, selanjutnya eksekusi file Lua yang ada pada project tersebut. Jika Anda tertarik, Anda bisa mencobanya langsung pada halaman github NeuralTalk V2 di : https://github.com/karpathy/neuraltalk2 .

ImageSub.

Pada saat saya mempresentasikan slide diatas, saya perlu mendemokan NeuralTalk tersebut sebagai salah satu contoh implementasi RNN, waktu itu saya belum tahu banyak web serupa seperti Captionbot-nya microsoft. Karena demo-page dari NeuralTalk sendiri hanya berisi gambar-gambar yang sudah diproses, tentunya untuk kebutuhan demo saya harus menyampaikannya lebih lengkap. Sehingga saya berfikir untuk memodifikasi NeuralTalk tersebut menjadi sebuah web aplikasi yang bisa berinteraksi seperti Captionbot. User bisa dengan sendirinya mengunggah foto atau gambar yang akan diproses. Untuk demonya, Anda bisa lihat pada video berikut :

Tertarik untuk mencoba dan mengembangkannya ? Saya akan posting link github dan tutorial cara instalasi serta penggunaannya di part selanjutnya.

Related Posts:

Leave a Reply

Your email address will not be published. Required fields are marked *