LCOV - code coverage report
Current view: top level - src/backend/regex - regc_pg_locale.c (source / functions) Coverage Total Hit
Test: Code coverage Lines: 79.1 % 191 151
Test Date: 2026-01-26 10:56:24 Functions: 100.0 % 15 15
Legend: Lines:     hit not hit
Branches: + taken - not taken # not executed
Branches: 58.2 % 110 64

             Branch data     Line data    Source code
       1                 :             : /*-------------------------------------------------------------------------
       2                 :             :  *
       3                 :             :  * regc_pg_locale.c
       4                 :             :  *        ctype functions adapted to work on pg_wchar (a/k/a chr),
       5                 :             :  *        and functions to cache the results of wholesale ctype probing.
       6                 :             :  *
       7                 :             :  * This file is #included by regcomp.c; it's not meant to compile standalone.
       8                 :             :  *
       9                 :             :  * Portions Copyright (c) 1996-2026, PostgreSQL Global Development Group
      10                 :             :  * Portions Copyright (c) 1994, Regents of the University of California
      11                 :             :  *
      12                 :             :  * IDENTIFICATION
      13                 :             :  *        src/backend/regex/regc_pg_locale.c
      14                 :             :  *
      15                 :             :  *-------------------------------------------------------------------------
      16                 :             :  */
      17                 :             : 
      18                 :             : #include "catalog/pg_collation.h"
      19                 :             : #include "common/unicode_case.h"
      20                 :             : #include "common/unicode_category.h"
      21                 :             : #include "utils/pg_locale.h"
      22                 :             : #include "utils/pg_locale_c.h"
      23                 :             : 
      24                 :             : static pg_locale_t pg_regex_locale;
      25                 :             : 
      26                 :             : 
      27                 :             : /*
      28                 :             :  * pg_set_regex_collation: set collation for these functions to obey
      29                 :             :  *
      30                 :             :  * This is called when beginning compilation or execution of a regexp.
      31                 :             :  * Since there's no need for reentrancy of regexp operations, it's okay
      32                 :             :  * to store the results in static variables.
      33                 :             :  */
      34                 :             : void
      35                 :     1161604 : pg_set_regex_collation(Oid collation)
      36                 :             : {
      37                 :     1161604 :         pg_locale_t locale = 0;
      38                 :             : 
      39         [ +  - ]:     1161604 :         if (!OidIsValid(collation))
      40                 :             :         {
      41                 :             :                 /*
      42                 :             :                  * This typically means that the parser could not resolve a conflict
      43                 :             :                  * of implicit collations, so report it that way.
      44                 :             :                  */
      45   [ #  #  #  # ]:           0 :                 ereport(ERROR,
      46                 :             :                                 (errcode(ERRCODE_INDETERMINATE_COLLATION),
      47                 :             :                                  errmsg("could not determine which collation to use for regular expression"),
      48                 :             :                                  errhint("Use the COLLATE clause to set the collation explicitly.")));
      49                 :           0 :         }
      50                 :             : 
      51                 :     1161604 :         locale = pg_newlocale_from_collation(collation);
      52                 :             : 
      53         [ +  + ]:     1161604 :         if (!locale->deterministic)
      54   [ +  -  +  - ]:           4 :                 ereport(ERROR,
      55                 :             :                                 (errcode(ERRCODE_FEATURE_NOT_SUPPORTED),
      56                 :             :                                  errmsg("nondeterministic collations are not supported for regular expressions")));
      57                 :             : 
      58                 :     1161600 :         pg_regex_locale = locale;
      59                 :     1161600 : }
      60                 :             : 
      61                 :             : /*
      62                 :             :  * The following functions overlap with those defined in pg_locale.c. XXX:
      63                 :             :  * consider refactor.
      64                 :             :  */
      65                 :             : 
      66                 :             : static int
      67                 :       26930 : regc_wc_isdigit(pg_wchar c)
      68                 :             : {
      69         [ +  + ]:       26930 :         if (pg_regex_locale->ctype_is_c)
      70         [ -  + ]:         256 :                 return (c <= (pg_wchar) 127 &&
      71                 :         256 :                                 (pg_char_properties[c] & PG_ISDIGIT));
      72                 :             :         else
      73                 :       26674 :                 return pg_regex_locale->ctype->wc_isdigit(c, pg_regex_locale);
      74                 :       26930 : }
      75                 :             : 
      76                 :             : static int
      77                 :        4235 : regc_wc_isalpha(pg_wchar c)
      78                 :             : {
      79         [ +  + ]:        4235 :         if (pg_regex_locale->ctype_is_c)
      80         [ -  + ]:         128 :                 return (c <= (pg_wchar) 127 &&
      81                 :         128 :                                 (pg_char_properties[c] & PG_ISALPHA));
      82                 :             :         else
      83                 :        4107 :                 return pg_regex_locale->ctype->wc_isalpha(c, pg_regex_locale);
      84                 :        4235 : }
      85                 :             : 
      86                 :             : static int
      87                 :       12413 : regc_wc_isalnum(pg_wchar c)
      88                 :             : {
      89         [ +  + ]:       12413 :         if (pg_regex_locale->ctype_is_c)
      90         [ -  + ]:         127 :                 return (c <= (pg_wchar) 127 &&
      91                 :         127 :                                 (pg_char_properties[c] & PG_ISALNUM));
      92                 :             :         else
      93                 :       12286 :                 return pg_regex_locale->ctype->wc_isalnum(c, pg_regex_locale);
      94                 :       12413 : }
      95                 :             : 
      96                 :             : static int
      97                 :        4224 : regc_wc_isword(pg_wchar c)
      98                 :             : {
      99                 :             :         /* We define word characters as alnum class plus underscore */
     100         [ +  + ]:        4224 :         if (c == CHR('_'))
     101                 :           3 :                 return 1;
     102                 :        4221 :         return regc_wc_isalnum(c);
     103                 :        4224 : }
     104                 :             : 
     105                 :             : static int
     106                 :        6144 : regc_wc_isupper(pg_wchar c)
     107                 :             : {
     108         [ -  + ]:        6144 :         if (pg_regex_locale->ctype_is_c)
     109         [ #  # ]:           0 :                 return (c <= (pg_wchar) 127 &&
     110                 :           0 :                                 (pg_char_properties[c] & PG_ISUPPER));
     111                 :             :         else
     112                 :        6144 :                 return pg_regex_locale->ctype->wc_isupper(c, pg_regex_locale);
     113                 :        6144 : }
     114                 :             : 
     115                 :             : static int
     116                 :        2048 : regc_wc_islower(pg_wchar c)
     117                 :             : {
     118         [ -  + ]:        2048 :         if (pg_regex_locale->ctype_is_c)
     119         [ #  # ]:           0 :                 return (c <= (pg_wchar) 127 &&
     120                 :           0 :                                 (pg_char_properties[c] & PG_ISLOWER));
     121                 :             :         else
     122                 :        2048 :                 return pg_regex_locale->ctype->wc_islower(c, pg_regex_locale);
     123                 :        2048 : }
     124                 :             : 
     125                 :             : static int
     126                 :        2048 : regc_wc_isgraph(pg_wchar c)
     127                 :             : {
     128         [ -  + ]:        2048 :         if (pg_regex_locale->ctype_is_c)
     129         [ #  # ]:           0 :                 return (c <= (pg_wchar) 127 &&
     130                 :           0 :                                 (pg_char_properties[c] & PG_ISGRAPH));
     131                 :             :         else
     132                 :        2048 :                 return pg_regex_locale->ctype->wc_isgraph(c, pg_regex_locale);
     133                 :        2048 : }
     134                 :             : 
     135                 :             : static int
     136                 :        2048 : regc_wc_isprint(pg_wchar c)
     137                 :             : {
     138         [ -  + ]:        2048 :         if (pg_regex_locale->ctype_is_c)
     139         [ #  # ]:           0 :                 return (c <= (pg_wchar) 127 &&
     140                 :           0 :                                 (pg_char_properties[c] & PG_ISPRINT));
     141                 :             :         else
     142                 :        2048 :                 return pg_regex_locale->ctype->wc_isprint(c, pg_regex_locale);
     143                 :        2048 : }
     144                 :             : 
     145                 :             : static int
     146                 :        6144 : regc_wc_ispunct(pg_wchar c)
     147                 :             : {
     148         [ -  + ]:        6144 :         if (pg_regex_locale->ctype_is_c)
     149         [ #  # ]:           0 :                 return (c <= (pg_wchar) 127 &&
     150                 :           0 :                                 (pg_char_properties[c] & PG_ISPUNCT));
     151                 :             :         else
     152                 :        6144 :                 return pg_regex_locale->ctype->wc_ispunct(c, pg_regex_locale);
     153                 :        6144 : }
     154                 :             : 
     155                 :             : static int
     156                 :       10247 : regc_wc_isspace(pg_wchar c)
     157                 :             : {
     158         [ -  + ]:       10247 :         if (pg_regex_locale->ctype_is_c)
     159         [ #  # ]:           0 :                 return (c <= (pg_wchar) 127 &&
     160                 :           0 :                                 (pg_char_properties[c] & PG_ISSPACE));
     161                 :             :         else
     162                 :       10247 :                 return pg_regex_locale->ctype->wc_isspace(c, pg_regex_locale);
     163                 :       10247 : }
     164                 :             : 
     165                 :             : static pg_wchar
     166                 :         185 : regc_wc_toupper(pg_wchar c)
     167                 :             : {
     168         [ +  + ]:         185 :         if (pg_regex_locale->ctype_is_c)
     169                 :             :         {
     170         [ +  - ]:           7 :                 if (c <= (pg_wchar) 127)
     171                 :           7 :                         return pg_ascii_toupper((unsigned char) c);
     172                 :           0 :                 return c;
     173                 :             :         }
     174                 :             :         else
     175                 :         178 :                 return pg_regex_locale->ctype->wc_toupper(c, pg_regex_locale);
     176                 :         185 : }
     177                 :             : 
     178                 :             : static pg_wchar
     179                 :         185 : regc_wc_tolower(pg_wchar c)
     180                 :             : {
     181         [ +  + ]:         185 :         if (pg_regex_locale->ctype_is_c)
     182                 :             :         {
     183         [ +  - ]:           7 :                 if (c <= (pg_wchar) 127)
     184                 :           7 :                         return pg_ascii_tolower((unsigned char) c);
     185                 :           0 :                 return c;
     186                 :             :         }
     187                 :             :         else
     188                 :         178 :                 return pg_regex_locale->ctype->wc_tolower(c, pg_regex_locale);
     189                 :         185 : }
     190                 :             : 
     191                 :             : 
     192                 :             : /*
     193                 :             :  * These functions cache the results of probing libc's ctype behavior for
     194                 :             :  * all character codes of interest in a given encoding/collation.  The
     195                 :             :  * result is provided as a "struct cvec", but notice that the representation
     196                 :             :  * is a touch different from a cvec created by regc_cvec.c: we allocate the
     197                 :             :  * chrs[] and ranges[] arrays separately from the struct so that we can
     198                 :             :  * realloc them larger at need.  This is okay since the cvecs made here
     199                 :             :  * should never be freed by freecvec().
     200                 :             :  *
     201                 :             :  * We use malloc not palloc since we mustn't lose control on out-of-memory;
     202                 :             :  * the main regex code expects us to return a failure indication instead.
     203                 :             :  */
     204                 :             : 
     205                 :             : typedef int (*regc_wc_probefunc) (pg_wchar c);
     206                 :             : 
     207                 :             : typedef struct pg_ctype_cache
     208                 :             : {
     209                 :             :         regc_wc_probefunc probefunc;    /* regc_wc_isalpha or a sibling */
     210                 :             :         pg_locale_t locale;                     /* locale this entry is for */
     211                 :             :         struct cvec cv;                         /* cache entry contents */
     212                 :             :         struct pg_ctype_cache *next;    /* chain link */
     213                 :             : } pg_ctype_cache;
     214                 :             : 
     215                 :             : static pg_ctype_cache *pg_ctype_cache_list = NULL;
     216                 :             : 
     217                 :             : /*
     218                 :             :  * Add a chr or range to pcc->cv; return false if run out of memory
     219                 :             :  */
     220                 :             : static bool
     221                 :        1571 : store_match(pg_ctype_cache *pcc, pg_wchar chr1, int nchrs)
     222                 :             : {
     223                 :        1571 :         chr                *newchrs;
     224                 :             : 
     225         [ +  + ]:        1571 :         if (nchrs > 1)
     226                 :             :         {
     227         [ +  - ]:         452 :                 if (pcc->cv.nranges >= pcc->cv.rangespace)
     228                 :             :                 {
     229                 :           0 :                         pcc->cv.rangespace *= 2;
     230                 :           0 :                         newchrs = (chr *) realloc(pcc->cv.ranges,
     231                 :           0 :                                                                           pcc->cv.rangespace * sizeof(chr) * 2);
     232         [ #  # ]:           0 :                         if (newchrs == NULL)
     233                 :           0 :                                 return false;
     234                 :           0 :                         pcc->cv.ranges = newchrs;
     235                 :           0 :                 }
     236                 :         452 :                 pcc->cv.ranges[pcc->cv.nranges * 2] = chr1;
     237                 :         452 :                 pcc->cv.ranges[pcc->cv.nranges * 2 + 1] = chr1 + nchrs - 1;
     238                 :         452 :                 pcc->cv.nranges++;
     239                 :         452 :         }
     240                 :             :         else
     241                 :             :         {
     242         [ +  - ]:        1119 :                 assert(nchrs == 1);
     243         [ +  + ]:        1119 :                 if (pcc->cv.nchrs >= pcc->cv.chrspace)
     244                 :             :                 {
     245                 :           4 :                         pcc->cv.chrspace *= 2;
     246                 :           8 :                         newchrs = (chr *) realloc(pcc->cv.chrs,
     247                 :           4 :                                                                           pcc->cv.chrspace * sizeof(chr));
     248         [ +  - ]:           4 :                         if (newchrs == NULL)
     249                 :           0 :                                 return false;
     250                 :           4 :                         pcc->cv.chrs = newchrs;
     251                 :           4 :                 }
     252                 :        1119 :                 pcc->cv.chrs[pcc->cv.nchrs++] = chr1;
     253                 :             :         }
     254                 :        1571 :         return true;
     255                 :        1571 : }
     256                 :             : 
     257                 :             : /*
     258                 :             :  * Given a probe function (e.g., regc_wc_isalpha) get a struct cvec for all
     259                 :             :  * chrs satisfying the probe function.  The active collation is the one
     260                 :             :  * previously set by pg_set_regex_collation.  Return NULL if out of memory.
     261                 :             :  *
     262                 :             :  * Note that the result must not be freed or modified by caller.
     263                 :             :  */
     264                 :             : static struct cvec *
     265                 :          83 : regc_ctype_get_cache(regc_wc_probefunc probefunc, int cclasscode)
     266                 :             : {
     267                 :          83 :         pg_ctype_cache *pcc;
     268                 :          83 :         pg_wchar        max_chr;
     269                 :          83 :         pg_wchar        cur_chr;
     270                 :          83 :         int                     nmatches;
     271                 :          83 :         chr                *newchrs;
     272                 :             : 
     273                 :             :         /*
     274                 :             :          * Do we already have the answer cached?
     275                 :             :          */
     276         [ +  + ]:         172 :         for (pcc = pg_ctype_cache_list; pcc != NULL; pcc = pcc->next)
     277                 :             :         {
     278   [ +  +  +  + ]:         133 :                 if (pcc->probefunc == probefunc &&
     279                 :          56 :                         pcc->locale == pg_regex_locale)
     280                 :          44 :                         return &pcc->cv;
     281                 :          89 :         }
     282                 :             : 
     283                 :             :         /*
     284                 :             :          * Nope, so initialize some workspace ...
     285                 :             :          */
     286                 :          39 :         pcc = (pg_ctype_cache *) malloc(sizeof(pg_ctype_cache));
     287         [ +  - ]:          39 :         if (pcc == NULL)
     288                 :           0 :                 return NULL;
     289                 :          39 :         pcc->probefunc = probefunc;
     290                 :          39 :         pcc->locale = pg_regex_locale;
     291                 :          39 :         pcc->cv.nchrs = 0;
     292                 :          39 :         pcc->cv.chrspace = 128;
     293                 :          39 :         pcc->cv.chrs = (chr *) malloc(pcc->cv.chrspace * sizeof(chr));
     294                 :          39 :         pcc->cv.nranges = 0;
     295                 :          39 :         pcc->cv.rangespace = 64;
     296                 :          39 :         pcc->cv.ranges = (chr *) malloc(pcc->cv.rangespace * sizeof(chr) * 2);
     297   [ +  -  -  + ]:          39 :         if (pcc->cv.chrs == NULL || pcc->cv.ranges == NULL)
     298                 :           0 :                 goto out_of_memory;
     299                 :          39 :         pcc->cv.cclasscode = cclasscode;
     300                 :             : 
     301                 :             :         /*
     302                 :             :          * Decide how many character codes we ought to look through.  In general
     303                 :             :          * we don't go past MAX_SIMPLE_CHR; chr codes above that are handled at
     304                 :             :          * runtime using the "high colormap" mechanism.  However, in C locale
     305                 :             :          * there's no need to go further than 127, and if we only have a 1-byte
     306                 :             :          * <ctype.h> API there's no need to go further than that can handle.
     307                 :             :          *
     308                 :             :          * If it's not MAX_SIMPLE_CHR that's constraining the search, mark the
     309                 :             :          * output cvec as not having any locale-dependent behavior, since there
     310                 :             :          * will be no need to do any run-time locale checks.  (The #if's here
     311                 :             :          * would always be true for production values of MAX_SIMPLE_CHR, but it's
     312                 :             :          * useful to allow it to be small for testing purposes.)
     313                 :             :          */
     314         [ +  + ]:          39 :         if (pg_regex_locale->ctype_is_c)
     315                 :             :         {
     316                 :             : #if MAX_SIMPLE_CHR >= 127
     317                 :           4 :                 max_chr = (pg_wchar) 127;
     318                 :           4 :                 pcc->cv.cclasscode = -1;
     319                 :             : #else
     320                 :             :                 max_chr = (pg_wchar) MAX_SIMPLE_CHR;
     321                 :             : #endif
     322                 :           4 :         }
     323         [ +  - ]:          35 :         else if (GetDatabaseEncoding() == PG_UTF8)
     324                 :             :         {
     325                 :          35 :                 max_chr = (pg_wchar) MAX_SIMPLE_CHR;
     326                 :          35 :         }
     327                 :             :         else
     328                 :             :         {
     329                 :             : #if MAX_SIMPLE_CHR >= UCHAR_MAX
     330                 :           0 :                 max_chr = (pg_wchar) UCHAR_MAX;
     331                 :           0 :                 pcc->cv.cclasscode = -1;
     332                 :             : #else
     333                 :             :                 max_chr = (pg_wchar) MAX_SIMPLE_CHR;
     334                 :             : #endif
     335                 :             :         }
     336                 :             : 
     337                 :             :         /*
     338                 :             :          * And scan 'em ...
     339                 :             :          */
     340                 :          39 :         nmatches = 0;                           /* number of consecutive matches */
     341                 :             : 
     342         [ +  + ]:       72231 :         for (cur_chr = 0; cur_chr <= max_chr; cur_chr++)
     343                 :             :         {
     344         [ +  + ]:       72192 :                 if ((*probefunc) (cur_chr))
     345                 :       16373 :                         nmatches++;
     346         [ +  + ]:       55819 :                 else if (nmatches > 0)
     347                 :             :                 {
     348         [ +  - ]:        1568 :                         if (!store_match(pcc, cur_chr - nmatches, nmatches))
     349                 :           0 :                                 goto out_of_memory;
     350                 :        1568 :                         nmatches = 0;
     351                 :        1568 :                 }
     352                 :       72192 :         }
     353                 :             : 
     354         [ +  + ]:          39 :         if (nmatches > 0)
     355         [ +  - ]:           3 :                 if (!store_match(pcc, cur_chr - nmatches, nmatches))
     356                 :           0 :                         goto out_of_memory;
     357                 :             : 
     358                 :             :         /*
     359                 :             :          * We might have allocated more memory than needed, if so free it
     360                 :             :          */
     361         [ +  + ]:          39 :         if (pcc->cv.nchrs == 0)
     362                 :             :         {
     363                 :          16 :                 free(pcc->cv.chrs);
     364                 :          16 :                 pcc->cv.chrs = NULL;
     365                 :          16 :                 pcc->cv.chrspace = 0;
     366                 :          16 :         }
     367         [ -  + ]:          23 :         else if (pcc->cv.nchrs < pcc->cv.chrspace)
     368                 :             :         {
     369                 :          46 :                 newchrs = (chr *) realloc(pcc->cv.chrs,
     370                 :          23 :                                                                   pcc->cv.nchrs * sizeof(chr));
     371         [ +  - ]:          23 :                 if (newchrs == NULL)
     372                 :           0 :                         goto out_of_memory;
     373                 :          23 :                 pcc->cv.chrs = newchrs;
     374                 :          23 :                 pcc->cv.chrspace = pcc->cv.nchrs;
     375                 :          23 :         }
     376         [ +  - ]:          39 :         if (pcc->cv.nranges == 0)
     377                 :             :         {
     378                 :           0 :                 free(pcc->cv.ranges);
     379                 :           0 :                 pcc->cv.ranges = NULL;
     380                 :           0 :                 pcc->cv.rangespace = 0;
     381                 :           0 :         }
     382         [ -  + ]:          39 :         else if (pcc->cv.nranges < pcc->cv.rangespace)
     383                 :             :         {
     384                 :          78 :                 newchrs = (chr *) realloc(pcc->cv.ranges,
     385                 :          39 :                                                                   pcc->cv.nranges * sizeof(chr) * 2);
     386         [ +  - ]:          39 :                 if (newchrs == NULL)
     387                 :           0 :                         goto out_of_memory;
     388                 :          39 :                 pcc->cv.ranges = newchrs;
     389                 :          39 :                 pcc->cv.rangespace = pcc->cv.nranges;
     390                 :          39 :         }
     391                 :             : 
     392                 :             :         /*
     393                 :             :          * Success, link it into cache chain
     394                 :             :          */
     395                 :          39 :         pcc->next = pg_ctype_cache_list;
     396                 :          39 :         pg_ctype_cache_list = pcc;
     397                 :             : 
     398                 :          39 :         return &pcc->cv;
     399                 :             : 
     400                 :             :         /*
     401                 :             :          * Failure, clean up
     402                 :             :          */
     403                 :             : out_of_memory:
     404                 :           0 :         free(pcc->cv.chrs);
     405                 :           0 :         free(pcc->cv.ranges);
     406                 :           0 :         free(pcc);
     407                 :             : 
     408                 :           0 :         return NULL;
     409                 :          83 : }
        

Generated by: LCOV version 2.3.2-1