Branch data Line data Source code
1 : : /*-------------------------------------------------------------------------
2 : : *
3 : : * regc_pg_locale.c
4 : : * ctype functions adapted to work on pg_wchar (a/k/a chr),
5 : : * and functions to cache the results of wholesale ctype probing.
6 : : *
7 : : * This file is #included by regcomp.c; it's not meant to compile standalone.
8 : : *
9 : : * Portions Copyright (c) 1996-2026, PostgreSQL Global Development Group
10 : : * Portions Copyright (c) 1994, Regents of the University of California
11 : : *
12 : : * IDENTIFICATION
13 : : * src/backend/regex/regc_pg_locale.c
14 : : *
15 : : *-------------------------------------------------------------------------
16 : : */
17 : :
18 : : #include "catalog/pg_collation.h"
19 : : #include "common/unicode_case.h"
20 : : #include "common/unicode_category.h"
21 : : #include "utils/pg_locale.h"
22 : : #include "utils/pg_locale_c.h"
23 : :
24 : : static pg_locale_t pg_regex_locale;
25 : :
26 : :
27 : : /*
28 : : * pg_set_regex_collation: set collation for these functions to obey
29 : : *
30 : : * This is called when beginning compilation or execution of a regexp.
31 : : * Since there's no need for reentrancy of regexp operations, it's okay
32 : : * to store the results in static variables.
33 : : */
34 : : void
35 : 1161604 : pg_set_regex_collation(Oid collation)
36 : : {
37 : 1161604 : pg_locale_t locale = 0;
38 : :
39 [ + - ]: 1161604 : if (!OidIsValid(collation))
40 : : {
41 : : /*
42 : : * This typically means that the parser could not resolve a conflict
43 : : * of implicit collations, so report it that way.
44 : : */
45 [ # # # # ]: 0 : ereport(ERROR,
46 : : (errcode(ERRCODE_INDETERMINATE_COLLATION),
47 : : errmsg("could not determine which collation to use for regular expression"),
48 : : errhint("Use the COLLATE clause to set the collation explicitly.")));
49 : 0 : }
50 : :
51 : 1161604 : locale = pg_newlocale_from_collation(collation);
52 : :
53 [ + + ]: 1161604 : if (!locale->deterministic)
54 [ + - + - ]: 4 : ereport(ERROR,
55 : : (errcode(ERRCODE_FEATURE_NOT_SUPPORTED),
56 : : errmsg("nondeterministic collations are not supported for regular expressions")));
57 : :
58 : 1161600 : pg_regex_locale = locale;
59 : 1161600 : }
60 : :
61 : : /*
62 : : * The following functions overlap with those defined in pg_locale.c. XXX:
63 : : * consider refactor.
64 : : */
65 : :
66 : : static int
67 : 26930 : regc_wc_isdigit(pg_wchar c)
68 : : {
69 [ + + ]: 26930 : if (pg_regex_locale->ctype_is_c)
70 [ - + ]: 256 : return (c <= (pg_wchar) 127 &&
71 : 256 : (pg_char_properties[c] & PG_ISDIGIT));
72 : : else
73 : 26674 : return pg_regex_locale->ctype->wc_isdigit(c, pg_regex_locale);
74 : 26930 : }
75 : :
76 : : static int
77 : 4235 : regc_wc_isalpha(pg_wchar c)
78 : : {
79 [ + + ]: 4235 : if (pg_regex_locale->ctype_is_c)
80 [ - + ]: 128 : return (c <= (pg_wchar) 127 &&
81 : 128 : (pg_char_properties[c] & PG_ISALPHA));
82 : : else
83 : 4107 : return pg_regex_locale->ctype->wc_isalpha(c, pg_regex_locale);
84 : 4235 : }
85 : :
86 : : static int
87 : 12413 : regc_wc_isalnum(pg_wchar c)
88 : : {
89 [ + + ]: 12413 : if (pg_regex_locale->ctype_is_c)
90 [ - + ]: 127 : return (c <= (pg_wchar) 127 &&
91 : 127 : (pg_char_properties[c] & PG_ISALNUM));
92 : : else
93 : 12286 : return pg_regex_locale->ctype->wc_isalnum(c, pg_regex_locale);
94 : 12413 : }
95 : :
96 : : static int
97 : 4224 : regc_wc_isword(pg_wchar c)
98 : : {
99 : : /* We define word characters as alnum class plus underscore */
100 [ + + ]: 4224 : if (c == CHR('_'))
101 : 3 : return 1;
102 : 4221 : return regc_wc_isalnum(c);
103 : 4224 : }
104 : :
105 : : static int
106 : 6144 : regc_wc_isupper(pg_wchar c)
107 : : {
108 [ - + ]: 6144 : if (pg_regex_locale->ctype_is_c)
109 [ # # ]: 0 : return (c <= (pg_wchar) 127 &&
110 : 0 : (pg_char_properties[c] & PG_ISUPPER));
111 : : else
112 : 6144 : return pg_regex_locale->ctype->wc_isupper(c, pg_regex_locale);
113 : 6144 : }
114 : :
115 : : static int
116 : 2048 : regc_wc_islower(pg_wchar c)
117 : : {
118 [ - + ]: 2048 : if (pg_regex_locale->ctype_is_c)
119 [ # # ]: 0 : return (c <= (pg_wchar) 127 &&
120 : 0 : (pg_char_properties[c] & PG_ISLOWER));
121 : : else
122 : 2048 : return pg_regex_locale->ctype->wc_islower(c, pg_regex_locale);
123 : 2048 : }
124 : :
125 : : static int
126 : 2048 : regc_wc_isgraph(pg_wchar c)
127 : : {
128 [ - + ]: 2048 : if (pg_regex_locale->ctype_is_c)
129 [ # # ]: 0 : return (c <= (pg_wchar) 127 &&
130 : 0 : (pg_char_properties[c] & PG_ISGRAPH));
131 : : else
132 : 2048 : return pg_regex_locale->ctype->wc_isgraph(c, pg_regex_locale);
133 : 2048 : }
134 : :
135 : : static int
136 : 2048 : regc_wc_isprint(pg_wchar c)
137 : : {
138 [ - + ]: 2048 : if (pg_regex_locale->ctype_is_c)
139 [ # # ]: 0 : return (c <= (pg_wchar) 127 &&
140 : 0 : (pg_char_properties[c] & PG_ISPRINT));
141 : : else
142 : 2048 : return pg_regex_locale->ctype->wc_isprint(c, pg_regex_locale);
143 : 2048 : }
144 : :
145 : : static int
146 : 6144 : regc_wc_ispunct(pg_wchar c)
147 : : {
148 [ - + ]: 6144 : if (pg_regex_locale->ctype_is_c)
149 [ # # ]: 0 : return (c <= (pg_wchar) 127 &&
150 : 0 : (pg_char_properties[c] & PG_ISPUNCT));
151 : : else
152 : 6144 : return pg_regex_locale->ctype->wc_ispunct(c, pg_regex_locale);
153 : 6144 : }
154 : :
155 : : static int
156 : 10247 : regc_wc_isspace(pg_wchar c)
157 : : {
158 [ - + ]: 10247 : if (pg_regex_locale->ctype_is_c)
159 [ # # ]: 0 : return (c <= (pg_wchar) 127 &&
160 : 0 : (pg_char_properties[c] & PG_ISSPACE));
161 : : else
162 : 10247 : return pg_regex_locale->ctype->wc_isspace(c, pg_regex_locale);
163 : 10247 : }
164 : :
165 : : static pg_wchar
166 : 185 : regc_wc_toupper(pg_wchar c)
167 : : {
168 [ + + ]: 185 : if (pg_regex_locale->ctype_is_c)
169 : : {
170 [ + - ]: 7 : if (c <= (pg_wchar) 127)
171 : 7 : return pg_ascii_toupper((unsigned char) c);
172 : 0 : return c;
173 : : }
174 : : else
175 : 178 : return pg_regex_locale->ctype->wc_toupper(c, pg_regex_locale);
176 : 185 : }
177 : :
178 : : static pg_wchar
179 : 185 : regc_wc_tolower(pg_wchar c)
180 : : {
181 [ + + ]: 185 : if (pg_regex_locale->ctype_is_c)
182 : : {
183 [ + - ]: 7 : if (c <= (pg_wchar) 127)
184 : 7 : return pg_ascii_tolower((unsigned char) c);
185 : 0 : return c;
186 : : }
187 : : else
188 : 178 : return pg_regex_locale->ctype->wc_tolower(c, pg_regex_locale);
189 : 185 : }
190 : :
191 : :
192 : : /*
193 : : * These functions cache the results of probing libc's ctype behavior for
194 : : * all character codes of interest in a given encoding/collation. The
195 : : * result is provided as a "struct cvec", but notice that the representation
196 : : * is a touch different from a cvec created by regc_cvec.c: we allocate the
197 : : * chrs[] and ranges[] arrays separately from the struct so that we can
198 : : * realloc them larger at need. This is okay since the cvecs made here
199 : : * should never be freed by freecvec().
200 : : *
201 : : * We use malloc not palloc since we mustn't lose control on out-of-memory;
202 : : * the main regex code expects us to return a failure indication instead.
203 : : */
204 : :
205 : : typedef int (*regc_wc_probefunc) (pg_wchar c);
206 : :
207 : : typedef struct pg_ctype_cache
208 : : {
209 : : regc_wc_probefunc probefunc; /* regc_wc_isalpha or a sibling */
210 : : pg_locale_t locale; /* locale this entry is for */
211 : : struct cvec cv; /* cache entry contents */
212 : : struct pg_ctype_cache *next; /* chain link */
213 : : } pg_ctype_cache;
214 : :
215 : : static pg_ctype_cache *pg_ctype_cache_list = NULL;
216 : :
217 : : /*
218 : : * Add a chr or range to pcc->cv; return false if run out of memory
219 : : */
220 : : static bool
221 : 1571 : store_match(pg_ctype_cache *pcc, pg_wchar chr1, int nchrs)
222 : : {
223 : 1571 : chr *newchrs;
224 : :
225 [ + + ]: 1571 : if (nchrs > 1)
226 : : {
227 [ + - ]: 452 : if (pcc->cv.nranges >= pcc->cv.rangespace)
228 : : {
229 : 0 : pcc->cv.rangespace *= 2;
230 : 0 : newchrs = (chr *) realloc(pcc->cv.ranges,
231 : 0 : pcc->cv.rangespace * sizeof(chr) * 2);
232 [ # # ]: 0 : if (newchrs == NULL)
233 : 0 : return false;
234 : 0 : pcc->cv.ranges = newchrs;
235 : 0 : }
236 : 452 : pcc->cv.ranges[pcc->cv.nranges * 2] = chr1;
237 : 452 : pcc->cv.ranges[pcc->cv.nranges * 2 + 1] = chr1 + nchrs - 1;
238 : 452 : pcc->cv.nranges++;
239 : 452 : }
240 : : else
241 : : {
242 [ + - ]: 1119 : assert(nchrs == 1);
243 [ + + ]: 1119 : if (pcc->cv.nchrs >= pcc->cv.chrspace)
244 : : {
245 : 4 : pcc->cv.chrspace *= 2;
246 : 8 : newchrs = (chr *) realloc(pcc->cv.chrs,
247 : 4 : pcc->cv.chrspace * sizeof(chr));
248 [ + - ]: 4 : if (newchrs == NULL)
249 : 0 : return false;
250 : 4 : pcc->cv.chrs = newchrs;
251 : 4 : }
252 : 1119 : pcc->cv.chrs[pcc->cv.nchrs++] = chr1;
253 : : }
254 : 1571 : return true;
255 : 1571 : }
256 : :
257 : : /*
258 : : * Given a probe function (e.g., regc_wc_isalpha) get a struct cvec for all
259 : : * chrs satisfying the probe function. The active collation is the one
260 : : * previously set by pg_set_regex_collation. Return NULL if out of memory.
261 : : *
262 : : * Note that the result must not be freed or modified by caller.
263 : : */
264 : : static struct cvec *
265 : 83 : regc_ctype_get_cache(regc_wc_probefunc probefunc, int cclasscode)
266 : : {
267 : 83 : pg_ctype_cache *pcc;
268 : 83 : pg_wchar max_chr;
269 : 83 : pg_wchar cur_chr;
270 : 83 : int nmatches;
271 : 83 : chr *newchrs;
272 : :
273 : : /*
274 : : * Do we already have the answer cached?
275 : : */
276 [ + + ]: 172 : for (pcc = pg_ctype_cache_list; pcc != NULL; pcc = pcc->next)
277 : : {
278 [ + + + + ]: 133 : if (pcc->probefunc == probefunc &&
279 : 56 : pcc->locale == pg_regex_locale)
280 : 44 : return &pcc->cv;
281 : 89 : }
282 : :
283 : : /*
284 : : * Nope, so initialize some workspace ...
285 : : */
286 : 39 : pcc = (pg_ctype_cache *) malloc(sizeof(pg_ctype_cache));
287 [ + - ]: 39 : if (pcc == NULL)
288 : 0 : return NULL;
289 : 39 : pcc->probefunc = probefunc;
290 : 39 : pcc->locale = pg_regex_locale;
291 : 39 : pcc->cv.nchrs = 0;
292 : 39 : pcc->cv.chrspace = 128;
293 : 39 : pcc->cv.chrs = (chr *) malloc(pcc->cv.chrspace * sizeof(chr));
294 : 39 : pcc->cv.nranges = 0;
295 : 39 : pcc->cv.rangespace = 64;
296 : 39 : pcc->cv.ranges = (chr *) malloc(pcc->cv.rangespace * sizeof(chr) * 2);
297 [ + - - + ]: 39 : if (pcc->cv.chrs == NULL || pcc->cv.ranges == NULL)
298 : 0 : goto out_of_memory;
299 : 39 : pcc->cv.cclasscode = cclasscode;
300 : :
301 : : /*
302 : : * Decide how many character codes we ought to look through. In general
303 : : * we don't go past MAX_SIMPLE_CHR; chr codes above that are handled at
304 : : * runtime using the "high colormap" mechanism. However, in C locale
305 : : * there's no need to go further than 127, and if we only have a 1-byte
306 : : * <ctype.h> API there's no need to go further than that can handle.
307 : : *
308 : : * If it's not MAX_SIMPLE_CHR that's constraining the search, mark the
309 : : * output cvec as not having any locale-dependent behavior, since there
310 : : * will be no need to do any run-time locale checks. (The #if's here
311 : : * would always be true for production values of MAX_SIMPLE_CHR, but it's
312 : : * useful to allow it to be small for testing purposes.)
313 : : */
314 [ + + ]: 39 : if (pg_regex_locale->ctype_is_c)
315 : : {
316 : : #if MAX_SIMPLE_CHR >= 127
317 : 4 : max_chr = (pg_wchar) 127;
318 : 4 : pcc->cv.cclasscode = -1;
319 : : #else
320 : : max_chr = (pg_wchar) MAX_SIMPLE_CHR;
321 : : #endif
322 : 4 : }
323 [ + - ]: 35 : else if (GetDatabaseEncoding() == PG_UTF8)
324 : : {
325 : 35 : max_chr = (pg_wchar) MAX_SIMPLE_CHR;
326 : 35 : }
327 : : else
328 : : {
329 : : #if MAX_SIMPLE_CHR >= UCHAR_MAX
330 : 0 : max_chr = (pg_wchar) UCHAR_MAX;
331 : 0 : pcc->cv.cclasscode = -1;
332 : : #else
333 : : max_chr = (pg_wchar) MAX_SIMPLE_CHR;
334 : : #endif
335 : : }
336 : :
337 : : /*
338 : : * And scan 'em ...
339 : : */
340 : 39 : nmatches = 0; /* number of consecutive matches */
341 : :
342 [ + + ]: 72231 : for (cur_chr = 0; cur_chr <= max_chr; cur_chr++)
343 : : {
344 [ + + ]: 72192 : if ((*probefunc) (cur_chr))
345 : 16373 : nmatches++;
346 [ + + ]: 55819 : else if (nmatches > 0)
347 : : {
348 [ + - ]: 1568 : if (!store_match(pcc, cur_chr - nmatches, nmatches))
349 : 0 : goto out_of_memory;
350 : 1568 : nmatches = 0;
351 : 1568 : }
352 : 72192 : }
353 : :
354 [ + + ]: 39 : if (nmatches > 0)
355 [ + - ]: 3 : if (!store_match(pcc, cur_chr - nmatches, nmatches))
356 : 0 : goto out_of_memory;
357 : :
358 : : /*
359 : : * We might have allocated more memory than needed, if so free it
360 : : */
361 [ + + ]: 39 : if (pcc->cv.nchrs == 0)
362 : : {
363 : 16 : free(pcc->cv.chrs);
364 : 16 : pcc->cv.chrs = NULL;
365 : 16 : pcc->cv.chrspace = 0;
366 : 16 : }
367 [ - + ]: 23 : else if (pcc->cv.nchrs < pcc->cv.chrspace)
368 : : {
369 : 46 : newchrs = (chr *) realloc(pcc->cv.chrs,
370 : 23 : pcc->cv.nchrs * sizeof(chr));
371 [ + - ]: 23 : if (newchrs == NULL)
372 : 0 : goto out_of_memory;
373 : 23 : pcc->cv.chrs = newchrs;
374 : 23 : pcc->cv.chrspace = pcc->cv.nchrs;
375 : 23 : }
376 [ + - ]: 39 : if (pcc->cv.nranges == 0)
377 : : {
378 : 0 : free(pcc->cv.ranges);
379 : 0 : pcc->cv.ranges = NULL;
380 : 0 : pcc->cv.rangespace = 0;
381 : 0 : }
382 [ - + ]: 39 : else if (pcc->cv.nranges < pcc->cv.rangespace)
383 : : {
384 : 78 : newchrs = (chr *) realloc(pcc->cv.ranges,
385 : 39 : pcc->cv.nranges * sizeof(chr) * 2);
386 [ + - ]: 39 : if (newchrs == NULL)
387 : 0 : goto out_of_memory;
388 : 39 : pcc->cv.ranges = newchrs;
389 : 39 : pcc->cv.rangespace = pcc->cv.nranges;
390 : 39 : }
391 : :
392 : : /*
393 : : * Success, link it into cache chain
394 : : */
395 : 39 : pcc->next = pg_ctype_cache_list;
396 : 39 : pg_ctype_cache_list = pcc;
397 : :
398 : 39 : return &pcc->cv;
399 : :
400 : : /*
401 : : * Failure, clean up
402 : : */
403 : : out_of_memory:
404 : 0 : free(pcc->cv.chrs);
405 : 0 : free(pcc->cv.ranges);
406 : 0 : free(pcc);
407 : :
408 : 0 : return NULL;
409 : 83 : }
|