In [1]:

import re

In [2]:

EXTRA_DIGITS = {
    "i": 1,
    "l": 1,
}

EXTRA_DIGIT_STR = "".join(EXTRA_DIGITS)

NUMBER_SANITY_RE = re.compile(
    fr"""
    \b
    (?:
        [0-9{EXTRA_DIGIT_STR}]
        [0-9{EXTRA_DIGIT_STR}.,/-]*
        [0-9{EXTRA_DIGIT_STR}]
    )
    \b
    """,
    re.S | re.X,
)


def numberRepl(match):
    number = match.group(0)
    for (extraDigit, value) in EXTRA_DIGITS.items():
        number = number.replace(extraDigit, str(value))
    return number

In [5]:

text = """
de poederzuijker voor l32/243 Spaans de frazel van 27 lb, reekent 35 V2 percento<lb/>
"""

In [7]:

text = NUMBER_SANITY_RE.sub(numberRepl, text)
print(text)

de poederzuijker voor 132/243 Spaans de frazel van 27 lb, reekent 35 V2 percento<lb/>

In [8]:

MARK_NUM = r"""
    (?:
        [0-9]{1,2}
        (?:
            \s+
            [0-9]{1,2}
        )*
    )
"""

MARK_PLAIN_RE = re.compile(
    fr"""
        (
            (?:
                <super>
                {MARK_NUM}
                </super>
            )
            |
            (?:
                ⌊
                [0-9]{{1,2}}
                ⌋
            )
            |
            (?:
                (?<=[a-zé])
                [0-9]{{1,2}}
                \b
            )
            |
            (?:
                (?<=[a-zé][;.])
                [0-9]{{1,2}}
                \b
            )
        )
    """,
    re.S | re.X,
)

In [9]:

text = """van het eyland Zakynthos28,<lb/>"""

In [10]:

match = MARK_PLAIN_RE.search(text)

In [11]:

match

Out[11]:

<re.Match object; span=(24, 26), match='28'>

In [12]:

match.group(0)

Out[12]:

'28'

In [ ]: