エンジニアのブログです。

MeCabのAPIをLambdaにデプロイする

Posted at

https://github.com/hareku/mecab-api

形態素解析ツールであるMeCabを、LambdaとAPI Gatewayにデプロイするものを作りました。

MeCabを単体で使いたい時は無いですが、色々な場面から手軽にMeCabを使いたいときに便利だと思います。ちなみにLambdaのレスポンスは10ms程度でメモリも128MBしか使わないため、API Gatewayを含めて100万回叩いても1.5ドルぐらいに収まります。

メモリの都合上、数百MB以上の辞書は使えないので、50MB程度のIPA辞書を使用しています。もちろんLambda実行時にダウンロードしたりEFSでマウントする方法がありますが、遅くて高価なので推奨しません。

もっと低メモリでトークナイズを運用したい場合は、Subwordを基にしたSentencePieceがおすすめです。SentencePieceは学習済みの日本語モデルも1MB程度しかないので、サーバーレスとの相性も良いです。https://github.com/google/sentencepiece


About me
Creative Commons License

This blog's source code is published on GitHub.