MeCabのAPIをLambdaにデプロイする
Posted at
https://github.com/hareku/mecab-api
形態素解析ツールであるMeCabを、LambdaとAPI Gatewayにデプロイするものを作りました。
MeCabを単体で使いたい時は無いですが、色々な場面から手軽にMeCabを使いたいときに便利だと思います。ちなみにLambdaのレスポンスは10ms程度でメモリも128MBしか使わないため、API Gatewayを含めて100万回叩いても1.5ドルぐらいに収まります。
メモリの都合上、数百MB以上の辞書は使えないので、50MB程度のIPA辞書を使用しています。もちろんLambda実行時にダウンロードしたりEFSでマウントする方法がありますが、遅くて高価なので推奨しません。
もっと低メモリでトークナイズを運用したい場合は、Subwordを基にしたSentencePieceがおすすめです。SentencePieceは学習済みの日本語モデルも1MB程度しかないので、サーバーレスとの相性も良いです。https://github.com/google/sentencepiece
About me
This blog's source code is published on GitHub.