Line data Source code
1 : /*
2 : * contrib/pg_trgm/trgm_gist.c
3 : */
4 : #include "postgres.h"
5 :
6 : #include "access/reloptions.h"
7 : #include "access/stratnum.h"
8 : #include "fmgr.h"
9 : #include "port/pg_bitutils.h"
10 : #include "trgm.h"
11 : #include "varatt.h"
12 :
13 : /* gist_trgm_ops opclass options */
14 : typedef struct
15 : {
16 : int32 vl_len_; /* varlena header (do not touch directly!) */
17 : int siglen; /* signature length in bytes */
18 : } TrgmGistOptions;
19 :
20 : #define GET_SIGLEN() (PG_HAS_OPCLASS_OPTIONS() ? \
21 : ((TrgmGistOptions *) PG_GET_OPCLASS_OPTIONS())->siglen : \
22 : SIGLEN_DEFAULT)
23 :
24 : typedef struct
25 : {
26 : /* most recent inputs to gtrgm_consistent */
27 : StrategyNumber strategy;
28 : text *query;
29 : /* extracted trigrams for query */
30 : TRGM *trigrams;
31 : /* if a regex operator, the extracted graph */
32 : TrgmPackedGraph *graph;
33 :
34 : /*
35 : * The "query" and "trigrams" are stored in the same palloc block as this
36 : * cache struct, at MAXALIGN'ed offsets. The graph however isn't.
37 : */
38 : } gtrgm_consistent_cache;
39 :
40 : #define GETENTRY(vec,pos) ((TRGM *) DatumGetPointer((vec)->vector[(pos)].key))
41 :
42 :
43 2 : PG_FUNCTION_INFO_V1(gtrgm_in);
44 2 : PG_FUNCTION_INFO_V1(gtrgm_out);
45 8 : PG_FUNCTION_INFO_V1(gtrgm_compress);
46 8 : PG_FUNCTION_INFO_V1(gtrgm_decompress);
47 8 : PG_FUNCTION_INFO_V1(gtrgm_consistent);
48 8 : PG_FUNCTION_INFO_V1(gtrgm_distance);
49 8 : PG_FUNCTION_INFO_V1(gtrgm_union);
50 8 : PG_FUNCTION_INFO_V1(gtrgm_same);
51 8 : PG_FUNCTION_INFO_V1(gtrgm_penalty);
52 8 : PG_FUNCTION_INFO_V1(gtrgm_picksplit);
53 8 : PG_FUNCTION_INFO_V1(gtrgm_options);
54 :
55 :
56 : Datum
57 0 : gtrgm_in(PG_FUNCTION_ARGS)
58 : {
59 0 : ereport(ERROR,
60 : (errcode(ERRCODE_FEATURE_NOT_SUPPORTED),
61 : errmsg("cannot accept a value of type %s", "gtrgm")));
62 :
63 : PG_RETURN_VOID(); /* keep compiler quiet */
64 : }
65 :
66 : Datum
67 0 : gtrgm_out(PG_FUNCTION_ARGS)
68 : {
69 0 : ereport(ERROR,
70 : (errcode(ERRCODE_FEATURE_NOT_SUPPORTED),
71 : errmsg("cannot display a value of type %s", "gtrgm")));
72 :
73 : PG_RETURN_VOID(); /* keep compiler quiet */
74 : }
75 :
76 : static TRGM *
77 56518 : gtrgm_alloc(bool isalltrue, int siglen, BITVECP sign)
78 : {
79 56518 : int flag = SIGNKEY | (isalltrue ? ALLISTRUE : 0);
80 56518 : int size = CALCGTSIZE(flag, siglen);
81 56518 : TRGM *res = palloc(size);
82 :
83 56518 : SET_VARSIZE(res, size);
84 56518 : res->flag = flag;
85 :
86 56518 : if (!isalltrue)
87 : {
88 56518 : if (sign)
89 1128 : memcpy(GETSIGN(res), sign, siglen);
90 : else
91 55390 : memset(GETSIGN(res), 0, siglen);
92 : }
93 :
94 56518 : return res;
95 : }
96 :
97 : static void
98 95710 : makesign(BITVECP sign, TRGM *a, int siglen)
99 : {
100 : int32 k,
101 95710 : len = ARRNELEM(a);
102 95710 : trgm *ptr = GETARR(a);
103 95710 : int32 tmp = 0;
104 :
105 95710 : MemSet(sign, 0, siglen);
106 95710 : SETBIT(sign, SIGLENBIT(siglen)); /* set last unused bit */
107 944126 : for (k = 0; k < len; k++)
108 : {
109 848416 : CPTRGM(((char *) &tmp), ptr + k);
110 848416 : HASH(sign, tmp, siglen);
111 : }
112 95710 : }
113 :
114 : Datum
115 55638 : gtrgm_compress(PG_FUNCTION_ARGS)
116 : {
117 55638 : GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
118 55638 : int siglen = GET_SIGLEN();
119 55638 : GISTENTRY *retval = entry;
120 :
121 55638 : if (entry->leafkey)
122 : { /* trgm */
123 : TRGM *res;
124 48804 : text *val = DatumGetTextPP(entry->key);
125 :
126 48804 : res = generate_trgm(VARDATA_ANY(val), VARSIZE_ANY_EXHDR(val));
127 48804 : retval = (GISTENTRY *) palloc(sizeof(GISTENTRY));
128 48804 : gistentryinit(*retval, PointerGetDatum(res),
129 : entry->rel, entry->page,
130 : entry->offset, false);
131 : }
132 6834 : else if (ISSIGNKEY(DatumGetPointer(entry->key)) &&
133 6834 : !ISALLTRUE(DatumGetPointer(entry->key)))
134 : {
135 : int32 i;
136 : TRGM *res;
137 6834 : BITVECP sign = GETSIGN(DatumGetPointer(entry->key));
138 :
139 7280 : LOOPBYTE(siglen)
140 : {
141 7280 : if ((sign[i] & 0xff) != 0xff)
142 6834 : PG_RETURN_POINTER(retval);
143 : }
144 :
145 0 : res = gtrgm_alloc(true, siglen, sign);
146 0 : retval = (GISTENTRY *) palloc(sizeof(GISTENTRY));
147 0 : gistentryinit(*retval, PointerGetDatum(res),
148 : entry->rel, entry->page,
149 : entry->offset, false);
150 : }
151 48804 : PG_RETURN_POINTER(retval);
152 : }
153 :
154 : Datum
155 2688278 : gtrgm_decompress(PG_FUNCTION_ARGS)
156 : {
157 2688278 : GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
158 : GISTENTRY *retval;
159 : text *key;
160 :
161 2688278 : key = DatumGetTextPP(entry->key);
162 :
163 2688278 : if (key != (text *) DatumGetPointer(entry->key))
164 : {
165 : /* need to pass back the decompressed item */
166 0 : retval = palloc(sizeof(GISTENTRY));
167 0 : gistentryinit(*retval, PointerGetDatum(key),
168 : entry->rel, entry->page, entry->offset, entry->leafkey);
169 0 : PG_RETURN_POINTER(retval);
170 : }
171 : else
172 : {
173 : /* we can return the entry as-is */
174 2688278 : PG_RETURN_POINTER(entry);
175 : }
176 : }
177 :
178 : static int32
179 1296 : cnt_sml_sign_common(TRGM *qtrg, BITVECP sign, int siglen)
180 : {
181 1296 : int32 count = 0;
182 : int32 k,
183 1296 : len = ARRNELEM(qtrg);
184 1296 : trgm *ptr = GETARR(qtrg);
185 1296 : int32 tmp = 0;
186 :
187 11838 : for (k = 0; k < len; k++)
188 : {
189 10542 : CPTRGM(((char *) &tmp), ptr + k);
190 10542 : count += GETBIT(sign, HASHVAL(tmp, siglen));
191 : }
192 :
193 1296 : return count;
194 : }
195 :
196 : Datum
197 74140 : gtrgm_consistent(PG_FUNCTION_ARGS)
198 : {
199 74140 : GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
200 74140 : text *query = PG_GETARG_TEXT_P(1);
201 74140 : StrategyNumber strategy = (StrategyNumber) PG_GETARG_UINT16(2);
202 :
203 : /* Oid subtype = PG_GETARG_OID(3); */
204 74140 : bool *recheck = (bool *) PG_GETARG_POINTER(4);
205 74140 : int siglen = GET_SIGLEN();
206 74140 : TRGM *key = (TRGM *) DatumGetPointer(entry->key);
207 : TRGM *qtrg;
208 : bool res;
209 74140 : Size querysize = VARSIZE(query);
210 : gtrgm_consistent_cache *cache;
211 : double nlimit;
212 :
213 : /*
214 : * We keep the extracted trigrams in cache, because trigram extraction is
215 : * relatively CPU-expensive. When trying to reuse a cached value, check
216 : * strategy number not just query itself, because trigram extraction
217 : * depends on strategy.
218 : *
219 : * The cached structure is a single palloc chunk containing the
220 : * gtrgm_consistent_cache header, then the input query (4-byte length
221 : * word, uncompressed, starting at a MAXALIGN boundary), then the TRGM
222 : * value (also starting at a MAXALIGN boundary). However we don't try to
223 : * include the regex graph (if any) in that struct. (XXX currently, this
224 : * approach can leak regex graphs across index rescans. Not clear if
225 : * that's worth fixing.)
226 : */
227 74140 : cache = (gtrgm_consistent_cache *) fcinfo->flinfo->fn_extra;
228 74140 : if (cache == NULL ||
229 74028 : cache->strategy != strategy ||
230 74028 : VARSIZE(cache->query) != querysize ||
231 74028 : memcmp((char *) cache->query, (char *) query, querysize) != 0)
232 : {
233 : gtrgm_consistent_cache *newcache;
234 112 : TrgmPackedGraph *graph = NULL;
235 : Size qtrgsize;
236 :
237 112 : switch (strategy)
238 : {
239 56 : case SimilarityStrategyNumber:
240 : case WordSimilarityStrategyNumber:
241 : case StrictWordSimilarityStrategyNumber:
242 : case EqualStrategyNumber:
243 56 : qtrg = generate_trgm(VARDATA(query),
244 56 : querysize - VARHDRSZ);
245 56 : break;
246 14 : case ILikeStrategyNumber:
247 : #ifndef IGNORECASE
248 : elog(ERROR, "cannot handle ~~* with case-sensitive trigrams");
249 : #endif
250 : /* FALL THRU */
251 : case LikeStrategyNumber:
252 14 : qtrg = generate_wildcard_trgm(VARDATA(query),
253 14 : querysize - VARHDRSZ);
254 14 : break;
255 42 : case RegExpICaseStrategyNumber:
256 : #ifndef IGNORECASE
257 : elog(ERROR, "cannot handle ~* with case-sensitive trigrams");
258 : #endif
259 : /* FALL THRU */
260 : case RegExpStrategyNumber:
261 42 : qtrg = createTrgmNFA(query, PG_GET_COLLATION(),
262 42 : &graph, fcinfo->flinfo->fn_mcxt);
263 : /* just in case an empty array is returned ... */
264 42 : if (qtrg && ARRNELEM(qtrg) <= 0)
265 : {
266 0 : pfree(qtrg);
267 0 : qtrg = NULL;
268 : }
269 42 : break;
270 0 : default:
271 0 : elog(ERROR, "unrecognized strategy number: %d", strategy);
272 : qtrg = NULL; /* keep compiler quiet */
273 : break;
274 : }
275 :
276 112 : qtrgsize = qtrg ? VARSIZE(qtrg) : 0;
277 :
278 : newcache = (gtrgm_consistent_cache *)
279 112 : MemoryContextAlloc(fcinfo->flinfo->fn_mcxt,
280 : MAXALIGN(sizeof(gtrgm_consistent_cache)) +
281 112 : MAXALIGN(querysize) +
282 : qtrgsize);
283 :
284 112 : newcache->strategy = strategy;
285 112 : newcache->query = (text *)
286 : ((char *) newcache + MAXALIGN(sizeof(gtrgm_consistent_cache)));
287 112 : memcpy((char *) newcache->query, (char *) query, querysize);
288 112 : if (qtrg)
289 : {
290 104 : newcache->trigrams = (TRGM *)
291 104 : ((char *) newcache->query + MAXALIGN(querysize));
292 104 : memcpy((char *) newcache->trigrams, (char *) qtrg, qtrgsize);
293 : /* release qtrg in case it was made in fn_mcxt */
294 104 : pfree(qtrg);
295 : }
296 : else
297 8 : newcache->trigrams = NULL;
298 112 : newcache->graph = graph;
299 :
300 112 : if (cache)
301 0 : pfree(cache);
302 112 : fcinfo->flinfo->fn_extra = newcache;
303 112 : cache = newcache;
304 : }
305 :
306 74140 : qtrg = cache->trigrams;
307 :
308 74140 : switch (strategy)
309 : {
310 69338 : case SimilarityStrategyNumber:
311 : case WordSimilarityStrategyNumber:
312 : case StrictWordSimilarityStrategyNumber:
313 :
314 : /*
315 : * Similarity search is exact. (Strict) word similarity search is
316 : * inexact
317 : */
318 69338 : *recheck = (strategy != SimilarityStrategyNumber);
319 :
320 69338 : nlimit = index_strategy_get_limit(strategy);
321 :
322 69338 : if (GIST_LEAF(entry))
323 : { /* all leafs contains orig trgm */
324 68120 : double tmpsml = cnt_sml(qtrg, key, *recheck);
325 :
326 68120 : res = (tmpsml >= nlimit);
327 : }
328 1218 : else if (ISALLTRUE(key))
329 : { /* non-leaf contains signature */
330 0 : res = true;
331 : }
332 : else
333 : { /* non-leaf contains signature */
334 1218 : int32 count = cnt_sml_sign_common(qtrg, GETSIGN(key), siglen);
335 1218 : int32 len = ARRNELEM(qtrg);
336 :
337 1218 : if (len == 0)
338 0 : res = false;
339 : else
340 1218 : res = (((((float8) count) / ((float8) len))) >= nlimit);
341 : }
342 69338 : break;
343 380 : case ILikeStrategyNumber:
344 : #ifndef IGNORECASE
345 : elog(ERROR, "cannot handle ~~* with case-sensitive trigrams");
346 : #endif
347 : /* FALL THRU */
348 : case LikeStrategyNumber:
349 : case EqualStrategyNumber:
350 : /* Wildcard and equal search are inexact */
351 380 : *recheck = true;
352 :
353 : /*
354 : * Check if all the extracted trigrams can be present in child
355 : * nodes.
356 : */
357 380 : if (GIST_LEAF(entry))
358 : { /* all leafs contains orig trgm */
359 380 : res = trgm_contained_by(qtrg, key);
360 : }
361 0 : else if (ISALLTRUE(key))
362 : { /* non-leaf contains signature */
363 0 : res = true;
364 : }
365 : else
366 : { /* non-leaf contains signature */
367 : int32 k,
368 0 : tmp = 0,
369 0 : len = ARRNELEM(qtrg);
370 0 : trgm *ptr = GETARR(qtrg);
371 0 : BITVECP sign = GETSIGN(key);
372 :
373 0 : res = true;
374 0 : for (k = 0; k < len; k++)
375 : {
376 0 : CPTRGM(((char *) &tmp), ptr + k);
377 0 : if (!GETBIT(sign, HASHVAL(tmp, siglen)))
378 : {
379 0 : res = false;
380 0 : break;
381 : }
382 : }
383 : }
384 380 : break;
385 4422 : case RegExpICaseStrategyNumber:
386 : #ifndef IGNORECASE
387 : elog(ERROR, "cannot handle ~* with case-sensitive trigrams");
388 : #endif
389 : /* FALL THRU */
390 : case RegExpStrategyNumber:
391 : /* Regexp search is inexact */
392 4422 : *recheck = true;
393 :
394 : /* Check regex match as much as we can with available info */
395 4422 : if (qtrg)
396 : {
397 4342 : if (GIST_LEAF(entry))
398 : { /* all leafs contains orig trgm */
399 : bool *check;
400 :
401 4300 : check = trgm_presence_map(qtrg, key);
402 4300 : res = trigramsMatchGraph(cache->graph, check);
403 4300 : pfree(check);
404 : }
405 42 : else if (ISALLTRUE(key))
406 : { /* non-leaf contains signature */
407 0 : res = true;
408 : }
409 : else
410 : { /* non-leaf contains signature */
411 : int32 k,
412 42 : tmp = 0,
413 42 : len = ARRNELEM(qtrg);
414 42 : trgm *ptr = GETARR(qtrg);
415 42 : BITVECP sign = GETSIGN(key);
416 : bool *check;
417 :
418 : /*
419 : * GETBIT() tests may give false positives, due to limited
420 : * size of the sign array. But since trigramsMatchGraph()
421 : * implements a monotone boolean function, false positives
422 : * in the check array can't lead to false negative answer.
423 : * So we can apply trigramsMatchGraph despite uncertainty,
424 : * and that usefully improves the quality of the search.
425 : */
426 42 : check = (bool *) palloc(len * sizeof(bool));
427 10626 : for (k = 0; k < len; k++)
428 : {
429 10584 : CPTRGM(((char *) &tmp), ptr + k);
430 10584 : check[k] = GETBIT(sign, HASHVAL(tmp, siglen));
431 : }
432 42 : res = trigramsMatchGraph(cache->graph, check);
433 42 : pfree(check);
434 : }
435 : }
436 : else
437 : {
438 : /* trigram-free query must be rechecked everywhere */
439 80 : res = true;
440 : }
441 4422 : break;
442 0 : default:
443 0 : elog(ERROR, "unrecognized strategy number: %d", strategy);
444 : res = false; /* keep compiler quiet */
445 : break;
446 : }
447 :
448 74140 : PG_RETURN_BOOL(res);
449 : }
450 :
451 : Datum
452 5958 : gtrgm_distance(PG_FUNCTION_ARGS)
453 : {
454 5958 : GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
455 5958 : text *query = PG_GETARG_TEXT_P(1);
456 5958 : StrategyNumber strategy = (StrategyNumber) PG_GETARG_UINT16(2);
457 :
458 : /* Oid subtype = PG_GETARG_OID(3); */
459 5958 : bool *recheck = (bool *) PG_GETARG_POINTER(4);
460 5958 : int siglen = GET_SIGLEN();
461 5958 : TRGM *key = (TRGM *) DatumGetPointer(entry->key);
462 : TRGM *qtrg;
463 : float8 res;
464 5958 : Size querysize = VARSIZE(query);
465 5958 : char *cache = (char *) fcinfo->flinfo->fn_extra;
466 :
467 : /*
468 : * Cache the generated trigrams across multiple calls with the same query.
469 : */
470 5958 : if (cache == NULL ||
471 5950 : VARSIZE(cache) != querysize ||
472 5950 : memcmp(cache, query, querysize) != 0)
473 : {
474 : char *newcache;
475 :
476 8 : qtrg = generate_trgm(VARDATA(query), querysize - VARHDRSZ);
477 :
478 8 : newcache = MemoryContextAlloc(fcinfo->flinfo->fn_mcxt,
479 8 : MAXALIGN(querysize) +
480 8 : VARSIZE(qtrg));
481 :
482 8 : memcpy(newcache, query, querysize);
483 8 : memcpy(newcache + MAXALIGN(querysize), qtrg, VARSIZE(qtrg));
484 :
485 8 : if (cache)
486 0 : pfree(cache);
487 8 : fcinfo->flinfo->fn_extra = newcache;
488 8 : cache = newcache;
489 : }
490 :
491 5958 : qtrg = (TRGM *) (cache + MAXALIGN(querysize));
492 :
493 5958 : switch (strategy)
494 : {
495 5958 : case DistanceStrategyNumber:
496 : case WordDistanceStrategyNumber:
497 : case StrictWordDistanceStrategyNumber:
498 : /* Only plain trigram distance is exact */
499 5958 : *recheck = (strategy != DistanceStrategyNumber);
500 5958 : if (GIST_LEAF(entry))
501 : { /* all leafs contains orig trgm */
502 :
503 : /*
504 : * Prevent gcc optimizing the sml variable using volatile
505 : * keyword. Otherwise res can differ from the
506 : * word_similarity_dist_op() function.
507 : */
508 5880 : float4 volatile sml = cnt_sml(qtrg, key, *recheck);
509 :
510 5880 : res = 1.0 - sml;
511 : }
512 78 : else if (ISALLTRUE(key))
513 : { /* all leafs contains orig trgm */
514 0 : res = 0.0;
515 : }
516 : else
517 : { /* non-leaf contains signature */
518 78 : int32 count = cnt_sml_sign_common(qtrg, GETSIGN(key), siglen);
519 78 : int32 len = ARRNELEM(qtrg);
520 :
521 78 : res = (len == 0) ? -1.0 : 1.0 - ((float8) count) / ((float8) len);
522 : }
523 5958 : break;
524 0 : default:
525 0 : elog(ERROR, "unrecognized strategy number: %d", strategy);
526 : res = 0; /* keep compiler quiet */
527 : break;
528 : }
529 :
530 5958 : PG_RETURN_FLOAT8(res);
531 : }
532 :
533 : static int32
534 110780 : unionkey(BITVECP sbase, TRGM *add, int siglen)
535 : {
536 : int32 i;
537 :
538 110780 : if (ISSIGNKEY(add))
539 : {
540 55390 : BITVECP sadd = GETSIGN(add);
541 :
542 55390 : if (ISALLTRUE(add))
543 0 : return 1;
544 :
545 13198494 : LOOPBYTE(siglen)
546 13143104 : sbase[i] |= sadd[i];
547 : }
548 : else
549 : {
550 55390 : trgm *ptr = GETARR(add);
551 55390 : int32 tmp = 0;
552 :
553 554200 : for (i = 0; i < ARRNELEM(add); i++)
554 : {
555 498810 : CPTRGM(((char *) &tmp), ptr + i);
556 498810 : HASH(sbase, tmp, siglen);
557 : }
558 : }
559 110780 : return 0;
560 : }
561 :
562 :
563 : Datum
564 55390 : gtrgm_union(PG_FUNCTION_ARGS)
565 : {
566 55390 : GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
567 55390 : int32 len = entryvec->n;
568 55390 : int *size = (int *) PG_GETARG_POINTER(1);
569 55390 : int siglen = GET_SIGLEN();
570 : int32 i;
571 55390 : TRGM *result = gtrgm_alloc(false, siglen, NULL);
572 55390 : BITVECP base = GETSIGN(result);
573 :
574 166170 : for (i = 0; i < len; i++)
575 : {
576 110780 : if (unionkey(base, GETENTRY(entryvec, i), siglen))
577 : {
578 0 : result->flag = ALLISTRUE;
579 0 : SET_VARSIZE(result, CALCGTSIZE(ALLISTRUE, siglen));
580 0 : break;
581 : }
582 : }
583 :
584 55390 : *size = VARSIZE(result);
585 :
586 55390 : PG_RETURN_POINTER(result);
587 : }
588 :
589 : Datum
590 55390 : gtrgm_same(PG_FUNCTION_ARGS)
591 : {
592 55390 : TRGM *a = (TRGM *) PG_GETARG_POINTER(0);
593 55390 : TRGM *b = (TRGM *) PG_GETARG_POINTER(1);
594 55390 : bool *result = (bool *) PG_GETARG_POINTER(2);
595 55390 : int siglen = GET_SIGLEN();
596 :
597 55390 : if (ISSIGNKEY(a))
598 : { /* then b also ISSIGNKEY */
599 55390 : if (ISALLTRUE(a) && ISALLTRUE(b))
600 0 : *result = true;
601 55390 : else if (ISALLTRUE(a))
602 0 : *result = false;
603 55390 : else if (ISALLTRUE(b))
604 0 : *result = false;
605 : else
606 : {
607 : int32 i;
608 55390 : BITVECP sa = GETSIGN(a),
609 55390 : sb = GETSIGN(b);
610 :
611 55390 : *result = true;
612 6361346 : LOOPBYTE(siglen)
613 : {
614 6311662 : if (sa[i] != sb[i])
615 : {
616 5706 : *result = false;
617 5706 : break;
618 : }
619 : }
620 : }
621 : }
622 : else
623 : { /* a and b ISARRKEY */
624 0 : int32 lena = ARRNELEM(a),
625 0 : lenb = ARRNELEM(b);
626 :
627 0 : if (lena != lenb)
628 0 : *result = false;
629 : else
630 : {
631 0 : trgm *ptra = GETARR(a),
632 0 : *ptrb = GETARR(b);
633 : int32 i;
634 :
635 0 : *result = true;
636 0 : for (i = 0; i < lena; i++)
637 0 : if (CMPTRGM(ptra + i, ptrb + i))
638 : {
639 0 : *result = false;
640 0 : break;
641 : }
642 : }
643 : }
644 :
645 55390 : PG_RETURN_POINTER(result);
646 : }
647 :
648 : static int32
649 0 : sizebitvec(BITVECP sign, int siglen)
650 : {
651 0 : return pg_popcount(sign, siglen);
652 : }
653 :
654 : static int
655 9843902 : hemdistsign(BITVECP a, BITVECP b, int siglen)
656 : {
657 : int i,
658 : diff,
659 9843902 : dist = 0;
660 :
661 706151118 : LOOPBYTE(siglen)
662 : {
663 696307216 : diff = (unsigned char) (a[i] ^ b[i]);
664 : /* Using the popcount functions here isn't likely to win */
665 696307216 : dist += pg_number_of_ones[diff];
666 : }
667 9843902 : return dist;
668 : }
669 :
670 : static int
671 0 : hemdist(TRGM *a, TRGM *b, int siglen)
672 : {
673 0 : if (ISALLTRUE(a))
674 : {
675 0 : if (ISALLTRUE(b))
676 0 : return 0;
677 : else
678 0 : return SIGLENBIT(siglen) - sizebitvec(GETSIGN(b), siglen);
679 : }
680 0 : else if (ISALLTRUE(b))
681 0 : return SIGLENBIT(siglen) - sizebitvec(GETSIGN(a), siglen);
682 :
683 0 : return hemdistsign(GETSIGN(a), GETSIGN(b), siglen);
684 : }
685 :
686 : Datum
687 2353370 : gtrgm_penalty(PG_FUNCTION_ARGS)
688 : {
689 2353370 : GISTENTRY *origentry = (GISTENTRY *) PG_GETARG_POINTER(0); /* always ISSIGNKEY */
690 2353370 : GISTENTRY *newentry = (GISTENTRY *) PG_GETARG_POINTER(1);
691 2353370 : float *penalty = (float *) PG_GETARG_POINTER(2);
692 2353370 : int siglen = GET_SIGLEN();
693 2353370 : TRGM *origval = (TRGM *) DatumGetPointer(origentry->key);
694 2353370 : TRGM *newval = (TRGM *) DatumGetPointer(newentry->key);
695 2353370 : BITVECP orig = GETSIGN(origval);
696 :
697 2353370 : *penalty = 0.0;
698 :
699 2353370 : if (ISARRKEY(newval))
700 : {
701 2353370 : char *cache = (char *) fcinfo->flinfo->fn_extra;
702 2353370 : TRGM *cachedVal = (TRGM *) (cache + MAXALIGN(siglen));
703 2353370 : Size newvalsize = VARSIZE(newval);
704 : BITVECP sign;
705 :
706 : /*
707 : * Cache the sign data across multiple calls with the same newval.
708 : */
709 2353370 : if (cache == NULL ||
710 2353358 : VARSIZE(cachedVal) != newvalsize ||
711 2351304 : memcmp(cachedVal, newval, newvalsize) != 0)
712 : {
713 : char *newcache;
714 :
715 7526 : newcache = MemoryContextAlloc(fcinfo->flinfo->fn_mcxt,
716 7526 : MAXALIGN(siglen) +
717 : newvalsize);
718 :
719 7526 : makesign((BITVECP) newcache, newval, siglen);
720 :
721 7526 : cachedVal = (TRGM *) (newcache + MAXALIGN(siglen));
722 7526 : memcpy(cachedVal, newval, newvalsize);
723 :
724 7526 : if (cache)
725 7514 : pfree(cache);
726 7526 : fcinfo->flinfo->fn_extra = newcache;
727 7526 : cache = newcache;
728 : }
729 :
730 2353370 : sign = (BITVECP) cache;
731 :
732 2353370 : if (ISALLTRUE(origval))
733 0 : *penalty = ((float) (SIGLENBIT(siglen) - sizebitvec(sign, siglen))) / (float) (SIGLENBIT(siglen) + 1);
734 : else
735 2353370 : *penalty = hemdistsign(sign, orig, siglen);
736 : }
737 : else
738 0 : *penalty = hemdist(origval, newval, siglen);
739 2353370 : PG_RETURN_POINTER(penalty);
740 : }
741 :
742 : typedef struct
743 : {
744 : bool allistrue;
745 : BITVECP sign;
746 : } CACHESIGN;
747 :
748 : static void
749 88640 : fillcache(CACHESIGN *item, TRGM *key, BITVECP sign, int siglen)
750 : {
751 88640 : item->allistrue = false;
752 88640 : item->sign = sign;
753 88640 : if (ISARRKEY(key))
754 88184 : makesign(item->sign, key, siglen);
755 456 : else if (ISALLTRUE(key))
756 0 : item->allistrue = true;
757 : else
758 456 : memcpy(item->sign, GETSIGN(key), siglen);
759 88640 : }
760 :
761 : #define WISH_F(a,b,c) (double)( -(double)(((a)-(b))*((a)-(b))*((a)-(b)))*(c) )
762 : typedef struct
763 : {
764 : OffsetNumber pos;
765 : int32 cost;
766 : } SPLITCOST;
767 :
768 : static int
769 99928 : comparecost(const void *a, const void *b)
770 : {
771 99928 : if (((const SPLITCOST *) a)->cost == ((const SPLITCOST *) b)->cost)
772 88920 : return 0;
773 : else
774 11008 : return (((const SPLITCOST *) a)->cost > ((const SPLITCOST *) b)->cost) ? 1 : -1;
775 : }
776 :
777 :
778 : static int
779 7315508 : hemdistcache(CACHESIGN *a, CACHESIGN *b, int siglen)
780 : {
781 7315508 : if (a->allistrue)
782 : {
783 0 : if (b->allistrue)
784 0 : return 0;
785 : else
786 0 : return SIGLENBIT(siglen) - sizebitvec(b->sign, siglen);
787 : }
788 7315508 : else if (b->allistrue)
789 0 : return SIGLENBIT(siglen) - sizebitvec(a->sign, siglen);
790 :
791 7315508 : return hemdistsign(a->sign, b->sign, siglen);
792 : }
793 :
794 : Datum
795 564 : gtrgm_picksplit(PG_FUNCTION_ARGS)
796 : {
797 564 : GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
798 564 : OffsetNumber maxoff = entryvec->n - 1;
799 564 : GIST_SPLITVEC *v = (GIST_SPLITVEC *) PG_GETARG_POINTER(1);
800 564 : int siglen = GET_SIGLEN();
801 : OffsetNumber k,
802 : j;
803 : TRGM *datum_l,
804 : *datum_r;
805 : BITVECP union_l,
806 : union_r;
807 : int32 size_alpha,
808 : size_beta;
809 : int32 size_waste,
810 564 : waste = -1;
811 : int32 nbytes;
812 564 : OffsetNumber seed_1 = 0,
813 564 : seed_2 = 0;
814 : OffsetNumber *left,
815 : *right;
816 : BITVECP ptr;
817 : int i;
818 : CACHESIGN *cache;
819 : char *cache_sign;
820 : SPLITCOST *costvector;
821 :
822 : /* cache the sign data for each existing item */
823 564 : cache = (CACHESIGN *) palloc(sizeof(CACHESIGN) * (maxoff + 1));
824 564 : cache_sign = palloc(siglen * (maxoff + 1));
825 :
826 89204 : for (k = FirstOffsetNumber; k <= maxoff; k = OffsetNumberNext(k))
827 88640 : fillcache(&cache[k], GETENTRY(entryvec, k), &cache_sign[siglen * k],
828 : siglen);
829 :
830 : /* now find the two furthest-apart items */
831 88640 : for (k = FirstOffsetNumber; k < maxoff; k = OffsetNumberNext(k))
832 : {
833 7226304 : for (j = OffsetNumberNext(k); j <= maxoff; j = OffsetNumberNext(j))
834 : {
835 7138228 : size_waste = hemdistcache(&(cache[j]), &(cache[k]), siglen);
836 7138228 : if (size_waste > waste)
837 : {
838 968 : waste = size_waste;
839 968 : seed_1 = k;
840 968 : seed_2 = j;
841 : }
842 : }
843 : }
844 :
845 : /* just in case we didn't make a selection ... */
846 564 : if (seed_1 == 0 || seed_2 == 0)
847 : {
848 0 : seed_1 = 1;
849 0 : seed_2 = 2;
850 : }
851 :
852 : /* initialize the result vectors */
853 564 : nbytes = maxoff * sizeof(OffsetNumber);
854 564 : v->spl_left = left = (OffsetNumber *) palloc(nbytes);
855 564 : v->spl_right = right = (OffsetNumber *) palloc(nbytes);
856 564 : v->spl_nleft = 0;
857 564 : v->spl_nright = 0;
858 :
859 : /* form initial .. */
860 564 : datum_l = gtrgm_alloc(cache[seed_1].allistrue, siglen, cache[seed_1].sign);
861 564 : datum_r = gtrgm_alloc(cache[seed_2].allistrue, siglen, cache[seed_2].sign);
862 :
863 564 : union_l = GETSIGN(datum_l);
864 564 : union_r = GETSIGN(datum_r);
865 :
866 : /* sort before ... */
867 564 : costvector = (SPLITCOST *) palloc(sizeof(SPLITCOST) * maxoff);
868 89204 : for (j = FirstOffsetNumber; j <= maxoff; j = OffsetNumberNext(j))
869 : {
870 88640 : costvector[j - 1].pos = j;
871 88640 : size_alpha = hemdistcache(&(cache[seed_1]), &(cache[j]), siglen);
872 88640 : size_beta = hemdistcache(&(cache[seed_2]), &(cache[j]), siglen);
873 88640 : costvector[j - 1].cost = abs(size_alpha - size_beta);
874 : }
875 564 : qsort(costvector, maxoff, sizeof(SPLITCOST), comparecost);
876 :
877 89204 : for (k = 0; k < maxoff; k++)
878 : {
879 88640 : j = costvector[k].pos;
880 88640 : if (j == seed_1)
881 : {
882 564 : *left++ = j;
883 564 : v->spl_nleft++;
884 564 : continue;
885 : }
886 88076 : else if (j == seed_2)
887 : {
888 564 : *right++ = j;
889 564 : v->spl_nright++;
890 564 : continue;
891 : }
892 :
893 87512 : if (ISALLTRUE(datum_l) || cache[j].allistrue)
894 : {
895 0 : if (ISALLTRUE(datum_l) && cache[j].allistrue)
896 0 : size_alpha = 0;
897 : else
898 0 : size_alpha = SIGLENBIT(siglen) -
899 0 : sizebitvec((cache[j].allistrue) ? GETSIGN(datum_l) :
900 0 : GETSIGN(cache[j].sign),
901 : siglen);
902 : }
903 : else
904 87512 : size_alpha = hemdistsign(cache[j].sign, GETSIGN(datum_l), siglen);
905 :
906 87512 : if (ISALLTRUE(datum_r) || cache[j].allistrue)
907 : {
908 0 : if (ISALLTRUE(datum_r) && cache[j].allistrue)
909 0 : size_beta = 0;
910 : else
911 0 : size_beta = SIGLENBIT(siglen) -
912 0 : sizebitvec((cache[j].allistrue) ? GETSIGN(datum_r) :
913 0 : GETSIGN(cache[j].sign),
914 : siglen);
915 : }
916 : else
917 87512 : size_beta = hemdistsign(cache[j].sign, GETSIGN(datum_r), siglen);
918 :
919 87512 : if (size_alpha < size_beta + WISH_F(v->spl_nleft, v->spl_nright, 0.1))
920 : {
921 43504 : if (ISALLTRUE(datum_l) || cache[j].allistrue)
922 : {
923 0 : if (!ISALLTRUE(datum_l))
924 0 : memset(GETSIGN(datum_l), 0xff, siglen);
925 : }
926 : else
927 : {
928 43504 : ptr = cache[j].sign;
929 4738440 : LOOPBYTE(siglen)
930 4694936 : union_l[i] |= ptr[i];
931 : }
932 43504 : *left++ = j;
933 43504 : v->spl_nleft++;
934 : }
935 : else
936 : {
937 44008 : if (ISALLTRUE(datum_r) || cache[j].allistrue)
938 : {
939 0 : if (!ISALLTRUE(datum_r))
940 0 : memset(GETSIGN(datum_r), 0xff, siglen);
941 : }
942 : else
943 : {
944 44008 : ptr = cache[j].sign;
945 4724872 : LOOPBYTE(siglen)
946 4680864 : union_r[i] |= ptr[i];
947 : }
948 44008 : *right++ = j;
949 44008 : v->spl_nright++;
950 : }
951 : }
952 :
953 564 : v->spl_ldatum = PointerGetDatum(datum_l);
954 564 : v->spl_rdatum = PointerGetDatum(datum_r);
955 :
956 564 : PG_RETURN_POINTER(v);
957 : }
958 :
959 : Datum
960 56 : gtrgm_options(PG_FUNCTION_ARGS)
961 : {
962 56 : local_relopts *relopts = (local_relopts *) PG_GETARG_POINTER(0);
963 :
964 56 : init_local_reloptions(relopts, sizeof(TrgmGistOptions));
965 56 : add_local_int_reloption(relopts, "siglen",
966 : "signature length in bytes",
967 : SIGLEN_DEFAULT, 1, SIGLEN_MAX,
968 : offsetof(TrgmGistOptions, siglen));
969 :
970 56 : PG_RETURN_VOID();
971 : }
|