Google Cloud Platform Memo: DatastoreとSerach APIを連携させる

Datastoreでは、複数のフィールドに対して不等式検索(!=や>など)やソートを行う場合、事前にIndexを構築しておく必要がある。しかも全ての検索条件の組み合わせごとにIndexが必要になるので、バックオフィス機能にありがちな複雑な条件での検索を行いたい場合、多くのIndexが必要だ。

ところが、Indexが増えるということは、そのぶん書き込みのコストとDatastoreの容量も大幅に増える。さらに、一つのプロジェクトに構築できるIndexの数は200までという上限もあるため、気軽にIndexを導入することは避けたいところだ。

こういったDatastore固有の制限の中で、RDBのような複雑な検索を行いたい場合、Search APIを活用するのは一つの手だ。Search APIの詳しい解説はこちらのブログがわかりやすい。

DatastoreとSearch APIを連携するにあたって重要なのはデータの一貫性だ。今回はこちらの記事を参考に実装してみた。というかそのまんまだけど(笑)

#!-*- coding:utf-8 -*-
from google.appengine.api import search
from google.appengine.ext import ndb
from google.appengine.ext import deferred

class UserModel(ndb.Model):
"""
ユーザーモデル
"""
user_name = ndb.StringProperty() # 名前
height = ndb.IntegerProperty() # 身長
birthday = ndb.DateProperty() # 誕生日
@classmethod
def put_search_document(cls, key_id):
model = ndb.Key(cls, key_id).get()
if model:
document = search.Document(
doc_id=key_id,
fields=[
search.TextField(name='user_name', value=model.user_name),
search.NumberField(name='height', value=model.height),
search.DateField(name='birthday', value=model.birthday),
])
index = search.Index(name="UserIndex")
index.put(document)
def _post_put_hook(self, future):
deferred.defer(UserModel.put_search_document,
self.key.id(),
_transactional=ndb.in_transaction())

ndb.Modelの _post_put_hook を利用してDatastore登録時にSearch APIにも登録を行う。この時、deferredライブラリを使うところがポイントだ。deferredライブラリの内部ではtaskqueueを利用しているため、データの一貫性は保たれている。ただし、多少のタイムラグがおきるので、そういうタイミングが厳密なケースでは、この方法はおすすめできない。

参考サイトの例では、Datastore側とSearch APIにバージョン番号をもたせて、さらに厳密なチェックしている。正直、そこまでするならDatastoreでなく、もういっそMySQLにすればいいじゃんとも思ったけど、それではGAEを利用するメリットが半減してしまう。なぜならMySQL(Cloud SQL)はオートスケールしないからだ。悩ましいところだ。

このSearch APIとDatastoreが統合したような、新Datastoreができれば最高なんだけどなぁ。なんかできそうな気もするけど。どうなんでしょ。

Google Cloud Platform Memo

2015/12/11

DatastoreとSerach APIを連携させる

0 件のコメント:

コメントを投稿