Python code coverage: Lib/test/test

#	count	content
1	n/a	from test.support import verbose, run_unittest, gc_collect, bigmemtest, _2G, \
2	n/a	cpython_only, captured_stdout
3	n/a	import locale
4	n/a	import re
5	n/a	import sre_compile
6	n/a	import string
7	n/a	import unittest
8	n/a	import warnings
9	n/a	from re import Scanner
10	n/a	from weakref import proxy
11	n/a
12	n/a	# Misc tests from Tim Peters' re.doc
13	n/a
14	n/a	# WARNING: Don't change details in these tests if you don't know
15	n/a	# what you're doing. Some of these tests were carefully modeled to
16	n/a	# cover most of the code.
17	n/a
18	n/a	class S(str):
19	n/a	def __getitem__(self, index):
20	n/a	return S(super().__getitem__(index))
21	n/a
22	n/a	class B(bytes):
23	n/a	def __getitem__(self, index):
24	n/a	return B(super().__getitem__(index))
25	n/a
26	n/a	class ReTests(unittest.TestCase):
27	n/a
28	n/a	def assertTypedEqual(self, actual, expect, msg=None):
29	n/a	self.assertEqual(actual, expect, msg)
30	n/a	def recurse(actual, expect):
31	n/a	if isinstance(expect, (tuple, list)):
32	n/a	for x, y in zip(actual, expect):
33	n/a	recurse(x, y)
34	n/a	else:
35	n/a	self.assertIs(type(actual), type(expect), msg)
36	n/a	recurse(actual, expect)
37	n/a
38	n/a	def checkPatternError(self, pattern, errmsg, pos=None):
39	n/a	with self.assertRaises(re.error) as cm:
40	n/a	re.compile(pattern)
41	n/a	with self.subTest(pattern=pattern):
42	n/a	err = cm.exception
43	n/a	self.assertEqual(err.msg, errmsg)
44	n/a	if pos is not None:
45	n/a	self.assertEqual(err.pos, pos)
46	n/a
47	n/a	def checkTemplateError(self, pattern, repl, string, errmsg, pos=None):
48	n/a	with self.assertRaises(re.error) as cm:
49	n/a	re.sub(pattern, repl, string)
50	n/a	with self.subTest(pattern=pattern, repl=repl):
51	n/a	err = cm.exception
52	n/a	self.assertEqual(err.msg, errmsg)
53	n/a	if pos is not None:
54	n/a	self.assertEqual(err.pos, pos)
55	n/a
56	n/a	def test_keep_buffer(self):
57	n/a	# See bug 14212
58	n/a	b = bytearray(b'x')
59	n/a	it = re.finditer(b'a', b)
60	n/a	with self.assertRaises(BufferError):
61	n/a	b.extend(b'x'*400)
62	n/a	list(it)
63	n/a	del it
64	n/a	gc_collect()
65	n/a	b.extend(b'x'*400)
66	n/a
67	n/a	def test_weakref(self):
68	n/a	s = 'QabbbcR'
69	n/a	x = re.compile('ab+c')
70	n/a	y = proxy(x)
71	n/a	self.assertEqual(x.findall('QabbbcR'), y.findall('QabbbcR'))
72	n/a
73	n/a	def test_search_star_plus(self):
74	n/a	self.assertEqual(re.search('x*', 'axx').span(0), (0, 0))
75	n/a	self.assertEqual(re.search('x*', 'axx').span(), (0, 0))
76	n/a	self.assertEqual(re.search('x+', 'axx').span(0), (1, 3))
77	n/a	self.assertEqual(re.search('x+', 'axx').span(), (1, 3))
78	n/a	self.assertIsNone(re.search('x', 'aaa'))
79	n/a	self.assertEqual(re.match('a*', 'xxx').span(0), (0, 0))
80	n/a	self.assertEqual(re.match('a*', 'xxx').span(), (0, 0))
81	n/a	self.assertEqual(re.match('x*', 'xxxa').span(0), (0, 3))
82	n/a	self.assertEqual(re.match('x*', 'xxxa').span(), (0, 3))
83	n/a	self.assertIsNone(re.match('a+', 'xxx'))
84	n/a
85	n/a	def bump_num(self, matchobj):
86	n/a	int_value = int(matchobj.group(0))
87	n/a	return str(int_value + 1)
88	n/a
89	n/a	def test_basic_re_sub(self):
90	n/a	self.assertTypedEqual(re.sub('y', 'a', 'xyz'), 'xaz')
91	n/a	self.assertTypedEqual(re.sub('y', S('a'), S('xyz')), 'xaz')
92	n/a	self.assertTypedEqual(re.sub(b'y', b'a', b'xyz'), b'xaz')
93	n/a	self.assertTypedEqual(re.sub(b'y', B(b'a'), B(b'xyz')), b'xaz')
94	n/a	self.assertTypedEqual(re.sub(b'y', bytearray(b'a'), bytearray(b'xyz')), b'xaz')
95	n/a	self.assertTypedEqual(re.sub(b'y', memoryview(b'a'), memoryview(b'xyz')), b'xaz')
96	n/a	for y in ("\xe0", "\u0430", "\U0001d49c"):
97	n/a	self.assertEqual(re.sub(y, 'a', 'x%sz' % y), 'xaz')
98	n/a
99	n/a	self.assertEqual(re.sub("(?i)b+", "x", "bbbb BBBB"), 'x x')
100	n/a	self.assertEqual(re.sub(r'\d+', self.bump_num, '08.2 -2 23x99y'),
101	n/a	'9.3 -3 24x100y')
102	n/a	self.assertEqual(re.sub(r'\d+', self.bump_num, '08.2 -2 23x99y', 3),
103	n/a	'9.3 -3 23x99y')
104	n/a	self.assertEqual(re.sub(r'\d+', self.bump_num, '08.2 -2 23x99y', count=3),
105	n/a	'9.3 -3 23x99y')
106	n/a
107	n/a	self.assertEqual(re.sub('.', lambda m: r"\n", 'x'), '\\n')
108	n/a	self.assertEqual(re.sub('.', r"\n", 'x'), '\n')
109	n/a
110	n/a	s = r"\1\1"
111	n/a	self.assertEqual(re.sub('(.)', s, 'x'), 'xx')
112	n/a	self.assertEqual(re.sub('(.)', re.escape(s), 'x'), s)
113	n/a	self.assertEqual(re.sub('(.)', lambda m: s, 'x'), s)
114	n/a
115	n/a	self.assertEqual(re.sub('(?P<a>x)', r'\g<a>\g<a>', 'xx'), 'xxxx')
116	n/a	self.assertEqual(re.sub('(?P<a>x)', r'\g<a>\g<1>', 'xx'), 'xxxx')
117	n/a	self.assertEqual(re.sub('(?P<unk>x)', r'\g<unk>\g<unk>', 'xx'), 'xxxx')
118	n/a	self.assertEqual(re.sub('(?P<unk>x)', r'\g<1>\g<1>', 'xx'), 'xxxx')
119	n/a
120	n/a	self.assertEqual(re.sub('a', r'\t\n\v\r\f\a\b', 'a'), '\t\n\v\r\f\a\b')
121	n/a	self.assertEqual(re.sub('a', '\t\n\v\r\f\a\b', 'a'), '\t\n\v\r\f\a\b')
122	n/a	self.assertEqual(re.sub('a', '\t\n\v\r\f\a\b', 'a'),
123	n/a	(chr(9)+chr(10)+chr(11)+chr(13)+chr(12)+chr(7)+chr(8)))
124	n/a	for c in 'cdehijklmopqsuwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ':
125	n/a	with self.subTest(c):
126	n/a	with self.assertRaises(re.error):
127	n/a	self.assertEqual(re.sub('a', '\\' + c, 'a'), '\\' + c)
128	n/a
129	n/a	self.assertEqual(re.sub(r'^\s*', 'X', 'test'), 'Xtest')
130	n/a
131	n/a	def test_bug_449964(self):
132	n/a	# fails for group followed by other escape
133	n/a	self.assertEqual(re.sub(r'(?P<unk>x)', r'\g<1>\g<1>\b', 'xx'),
134	n/a	'xx\bxx\b')
135	n/a
136	n/a	def test_bug_449000(self):
137	n/a	# Test for sub() on escaped characters
138	n/a	self.assertEqual(re.sub(r'\r\n', r'\n', 'abc\r\ndef\r\n'),
139	n/a	'abc\ndef\n')
140	n/a	self.assertEqual(re.sub('\r\n', r'\n', 'abc\r\ndef\r\n'),
141	n/a	'abc\ndef\n')
142	n/a	self.assertEqual(re.sub(r'\r\n', '\n', 'abc\r\ndef\r\n'),
143	n/a	'abc\ndef\n')
144	n/a	self.assertEqual(re.sub('\r\n', '\n', 'abc\r\ndef\r\n'),
145	n/a	'abc\ndef\n')
146	n/a
147	n/a	def test_bug_1661(self):
148	n/a	# Verify that flags do not get silently ignored with compiled patterns
149	n/a	pattern = re.compile('.')
150	n/a	self.assertRaises(ValueError, re.match, pattern, 'A', re.I)
151	n/a	self.assertRaises(ValueError, re.search, pattern, 'A', re.I)
152	n/a	self.assertRaises(ValueError, re.findall, pattern, 'A', re.I)
153	n/a	self.assertRaises(ValueError, re.compile, pattern, re.I)
154	n/a
155	n/a	def test_bug_3629(self):
156	n/a	# A regex that triggered a bug in the sre-code validator
157	n/a	re.compile("(?P<quote>)(?(quote))")
158	n/a
159	n/a	def test_sub_template_numeric_escape(self):
160	n/a	# bug 776311 and friends
161	n/a	self.assertEqual(re.sub('x', r'\0', 'x'), '\0')
162	n/a	self.assertEqual(re.sub('x', r'\000', 'x'), '\000')
163	n/a	self.assertEqual(re.sub('x', r'\001', 'x'), '\001')
164	n/a	self.assertEqual(re.sub('x', r'\008', 'x'), '\0' + '8')
165	n/a	self.assertEqual(re.sub('x', r'\009', 'x'), '\0' + '9')
166	n/a	self.assertEqual(re.sub('x', r'\111', 'x'), '\111')
167	n/a	self.assertEqual(re.sub('x', r'\117', 'x'), '\117')
168	n/a	self.assertEqual(re.sub('x', r'\377', 'x'), '\377')
169	n/a
170	n/a	self.assertEqual(re.sub('x', r'\1111', 'x'), '\1111')
171	n/a	self.assertEqual(re.sub('x', r'\1111', 'x'), '\111' + '1')
172	n/a
173	n/a	self.assertEqual(re.sub('x', r'\00', 'x'), '\x00')
174	n/a	self.assertEqual(re.sub('x', r'\07', 'x'), '\x07')
175	n/a	self.assertEqual(re.sub('x', r'\08', 'x'), '\0' + '8')
176	n/a	self.assertEqual(re.sub('x', r'\09', 'x'), '\0' + '9')
177	n/a	self.assertEqual(re.sub('x', r'\0a', 'x'), '\0' + 'a')
178	n/a
179	n/a	self.checkTemplateError('x', r'\400', 'x',
180	n/a	r'octal escape value \400 outside of '
181	n/a	r'range 0-0o377', 0)
182	n/a	self.checkTemplateError('x', r'\777', 'x',
183	n/a	r'octal escape value \777 outside of '
184	n/a	r'range 0-0o377', 0)
185	n/a
186	n/a	self.checkTemplateError('x', r'\1', 'x', 'invalid group reference 1', 1)
187	n/a	self.checkTemplateError('x', r'\8', 'x', 'invalid group reference 8', 1)
188	n/a	self.checkTemplateError('x', r'\9', 'x', 'invalid group reference 9', 1)
189	n/a	self.checkTemplateError('x', r'\11', 'x', 'invalid group reference 11', 1)
190	n/a	self.checkTemplateError('x', r'\18', 'x', 'invalid group reference 18', 1)
191	n/a	self.checkTemplateError('x', r'\1a', 'x', 'invalid group reference 1', 1)
192	n/a	self.checkTemplateError('x', r'\90', 'x', 'invalid group reference 90', 1)
193	n/a	self.checkTemplateError('x', r'\99', 'x', 'invalid group reference 99', 1)
194	n/a	self.checkTemplateError('x', r'\118', 'x', 'invalid group reference 11', 1)
195	n/a	self.checkTemplateError('x', r'\11a', 'x', 'invalid group reference 11', 1)
196	n/a	self.checkTemplateError('x', r'\181', 'x', 'invalid group reference 18', 1)
197	n/a	self.checkTemplateError('x', r'\800', 'x', 'invalid group reference 80', 1)
198	n/a	self.checkTemplateError('x', r'\8', '', 'invalid group reference 8', 1)
199	n/a
200	n/a	# in python2.3 (etc), these loop endlessly in sre_parser.py
201	n/a	self.assertEqual(re.sub('(((((((((((x)))))))))))', r'\11', 'x'), 'x')
202	n/a	self.assertEqual(re.sub('((((((((((y))))))))))(.)', r'\118', 'xyz'),
203	n/a	'xz8')
204	n/a	self.assertEqual(re.sub('((((((((((y))))))))))(.)', r'\11a', 'xyz'),
205	n/a	'xza')
206	n/a
207	n/a	def test_qualified_re_sub(self):
208	n/a	self.assertEqual(re.sub('a', 'b', 'aaaaa'), 'bbbbb')
209	n/a	self.assertEqual(re.sub('a', 'b', 'aaaaa', 1), 'baaaa')
210	n/a	self.assertEqual(re.sub('a', 'b', 'aaaaa', count=1), 'baaaa')
211	n/a
212	n/a	def test_bug_114660(self):
213	n/a	self.assertEqual(re.sub(r'(\S)\s+(\S)', r'\1 \2', 'hello there'),
214	n/a	'hello there')
215	n/a
216	n/a	def test_bug_462270(self):
217	n/a	# Test for empty sub() behaviour, see SF bug #462270
218	n/a	self.assertEqual(re.sub('x*', '-', 'abxd'), '-a-b-d-')
219	n/a	self.assertEqual(re.sub('x+', '-', 'abxd'), 'ab-d')
220	n/a
221	n/a	def test_symbolic_groups(self):
222	n/a	re.compile(r'(?P<a>x)(?P=a)(?(a)y)')
223	n/a	re.compile(r'(?P<a1>x)(?P=a1)(?(a1)y)')
224	n/a	re.compile(r'(?P<a1>x)\1(?(1)y)')
225	n/a	self.checkPatternError(r'(?P<a>)(?P<a>)',
226	n/a	"redefinition of group name 'a' as group 2; "
227	n/a	"was group 1")
228	n/a	self.checkPatternError(r'(?P<a>(?P=a))',
229	n/a	"cannot refer to an open group", 10)
230	n/a	self.checkPatternError(r'(?Pxy)', 'unknown extension ?Px')
231	n/a	self.checkPatternError(r'(?P<a>)(?P=a', 'missing ), unterminated name', 11)
232	n/a	self.checkPatternError(r'(?P=', 'missing group name', 4)
233	n/a	self.checkPatternError(r'(?P=)', 'missing group name', 4)
234	n/a	self.checkPatternError(r'(?P=1)', "bad character in group name '1'", 4)
235	n/a	self.checkPatternError(r'(?P=a)', "unknown group name 'a'")
236	n/a	self.checkPatternError(r'(?P=a1)', "unknown group name 'a1'")
237	n/a	self.checkPatternError(r'(?P=a.)', "bad character in group name 'a.'", 4)
238	n/a	self.checkPatternError(r'(?P<)', 'missing >, unterminated name', 4)
239	n/a	self.checkPatternError(r'(?P<a', 'missing >, unterminated name', 4)
240	n/a	self.checkPatternError(r'(?P<', 'missing group name', 4)
241	n/a	self.checkPatternError(r'(?P<>)', 'missing group name', 4)
242	n/a	self.checkPatternError(r'(?P<1>)', "bad character in group name '1'", 4)
243	n/a	self.checkPatternError(r'(?P<a.>)', "bad character in group name 'a.'", 4)
244	n/a	self.checkPatternError(r'(?(', 'missing group name', 3)
245	n/a	self.checkPatternError(r'(?())', 'missing group name', 3)
246	n/a	self.checkPatternError(r'(?(a))', "unknown group name 'a'", 3)
247	n/a	self.checkPatternError(r'(?(-1))', "bad character in group name '-1'", 3)
248	n/a	self.checkPatternError(r'(?(1a))', "bad character in group name '1a'", 3)
249	n/a	self.checkPatternError(r'(?(a.))', "bad character in group name 'a.'", 3)
250	n/a	# New valid/invalid identifiers in Python 3
251	n/a	re.compile('(?P<Âµ>x)(?P=Âµ)(?(Âµ)y)')
252	n/a	re.compile('(?P<ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢>x)(?P=ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢)(?(ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢)y)')
253	n/a	self.checkPatternError('(?P<Â©>x)', "bad character in group name 'Â©'", 4)
254	n/a	# Support > 100 groups.
255	n/a	pat = '\|'.join('x(?P<a%d>%x)y' % (i, i) for i in range(1, 200 + 1))
256	n/a	pat = '(?:%s)(?(200)z\|t)' % pat
257	n/a	self.assertEqual(re.match(pat, 'xc8yz').span(), (0, 5))
258	n/a
259	n/a	def test_symbolic_refs(self):
260	n/a	self.checkTemplateError('(?P<a>x)', r'\g<a', 'xx',
261	n/a	'missing >, unterminated name', 3)
262	n/a	self.checkTemplateError('(?P<a>x)', r'\g<', 'xx',
263	n/a	'missing group name', 3)
264	n/a	self.checkTemplateError('(?P<a>x)', r'\g', 'xx', 'missing <', 2)
265	n/a	self.checkTemplateError('(?P<a>x)', r'\g<a a>', 'xx',
266	n/a	"bad character in group name 'a a'", 3)
267	n/a	self.checkTemplateError('(?P<a>x)', r'\g<>', 'xx',
268	n/a	'missing group name', 3)
269	n/a	self.checkTemplateError('(?P<a>x)', r'\g<1a1>', 'xx',
270	n/a	"bad character in group name '1a1'", 3)
271	n/a	self.checkTemplateError('(?P<a>x)', r'\g<2>', 'xx',
272	n/a	'invalid group reference 2', 3)
273	n/a	self.checkTemplateError('(?P<a>x)', r'\2', 'xx',
274	n/a	'invalid group reference 2', 1)
275	n/a	with self.assertRaisesRegex(IndexError, "unknown group name 'ab'"):
276	n/a	re.sub('(?P<a>x)', r'\g<ab>', 'xx')
277	n/a	self.assertEqual(re.sub('(?P<a>x)\|(?P<b>y)', r'\g<b>', 'xx'), '')
278	n/a	self.assertEqual(re.sub('(?P<a>x)\|(?P<b>y)', r'\2', 'xx'), '')
279	n/a	self.checkTemplateError('(?P<a>x)', r'\g<-1>', 'xx',
280	n/a	"bad character in group name '-1'", 3)
281	n/a	# New valid/invalid identifiers in Python 3
282	n/a	self.assertEqual(re.sub('(?P<Âµ>x)', r'\g<Âµ>', 'xx'), 'xx')
283	n/a	self.assertEqual(re.sub('(?P<ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢>x)', r'\g<ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢>', 'xx'), 'xx')
284	n/a	self.checkTemplateError('(?P<a>x)', r'\g<Â©>', 'xx',
285	n/a	"bad character in group name 'Â©'", 3)
286	n/a	# Support > 100 groups.
287	n/a	pat = '\|'.join('x(?P<a%d>%x)y' % (i, i) for i in range(1, 200 + 1))
288	n/a	self.assertEqual(re.sub(pat, r'\g<200>', 'xc8yzxc8y'), 'c8zc8')
289	n/a
290	n/a	def test_re_subn(self):
291	n/a	self.assertEqual(re.subn("(?i)b+", "x", "bbbb BBBB"), ('x x', 2))
292	n/a	self.assertEqual(re.subn("b+", "x", "bbbb BBBB"), ('x BBBB', 1))
293	n/a	self.assertEqual(re.subn("b+", "x", "xyz"), ('xyz', 0))
294	n/a	self.assertEqual(re.subn("b*", "x", "xyz"), ('xxxyxzx', 4))
295	n/a	self.assertEqual(re.subn("b*", "x", "xyz", 2), ('xxxyz', 2))
296	n/a	self.assertEqual(re.subn("b*", "x", "xyz", count=2), ('xxxyz', 2))
297	n/a
298	n/a	def test_re_split(self):
299	n/a	for string in ":a:b::c", S(":a:b::c"):
300	n/a	self.assertTypedEqual(re.split(":", string),
301	n/a	['', 'a', 'b', '', 'c'])
302	n/a	self.assertTypedEqual(re.split(":+", string),
303	n/a	['', 'a', 'b', 'c'])
304	n/a	self.assertTypedEqual(re.split("(:+)", string),
305	n/a	['', ':', 'a', ':', 'b', '::', 'c'])
306	n/a	for string in (b":a:b::c", B(b":a:b::c"), bytearray(b":a:b::c"),
307	n/a	memoryview(b":a:b::c")):
308	n/a	self.assertTypedEqual(re.split(b":", string),
309	n/a	[b'', b'a', b'b', b'', b'c'])
310	n/a	self.assertTypedEqual(re.split(b":+", string),
311	n/a	[b'', b'a', b'b', b'c'])
312	n/a	self.assertTypedEqual(re.split(b"(:+)", string),
313	n/a	[b'', b':', b'a', b':', b'b', b'::', b'c'])
314	n/a	for a, b, c in ("\xe0\xdf\xe7", "\u0430\u0431\u0432",
315	n/a	"\U0001d49c\U0001d49e\U0001d4b5"):
316	n/a	string = ":%s:%s::%s" % (a, b, c)
317	n/a	self.assertEqual(re.split(":", string), ['', a, b, '', c])
318	n/a	self.assertEqual(re.split(":+", string), ['', a, b, c])
319	n/a	self.assertEqual(re.split("(:+)", string),
320	n/a	['', ':', a, ':', b, '::', c])
321	n/a
322	n/a	self.assertEqual(re.split("(?::+)", ":a:b::c"), ['', 'a', 'b', 'c'])
323	n/a	self.assertEqual(re.split("(:)+", ":a:b::c"),
324	n/a	['', ':', 'a', ':', 'b', ':', 'c'])
325	n/a	self.assertEqual(re.split("([b:]+)", ":a:b::c"),
326	n/a	['', ':', 'a', ':b::', 'c'])
327	n/a	self.assertEqual(re.split("(b)\|(:+)", ":a:b::c"),
328	n/a	['', None, ':', 'a', None, ':', '', 'b', None, '',
329	n/a	None, '::', 'c'])
330	n/a	self.assertEqual(re.split("(?:b)\|(?::+)", ":a:b::c"),
331	n/a	['', 'a', '', '', 'c'])
332	n/a
333	n/a	for sep, expected in [
334	n/a	(':*', ['', 'a', 'b', 'c']),
335	n/a	('(?::*)', ['', 'a', 'b', 'c']),
336	n/a	('(:*)', ['', ':', 'a', ':', 'b', '::', 'c']),
337	n/a	('(:)*', ['', ':', 'a', ':', 'b', ':', 'c']),
338	n/a	]:
339	n/a	with self.subTest(sep=sep), self.assertWarns(FutureWarning):
340	n/a	self.assertTypedEqual(re.split(sep, ':a:b::c'), expected)
341	n/a
342	n/a	for sep, expected in [
343	n/a	('', [':a:b::c']),
344	n/a	(r'\b', [':a:b::c']),
345	n/a	(r'(?=:)', [':a:b::c']),
346	n/a	(r'(?<=:)', [':a:b::c']),
347	n/a	]:
348	n/a	with self.subTest(sep=sep), self.assertRaises(ValueError):
349	n/a	self.assertTypedEqual(re.split(sep, ':a:b::c'), expected)
350	n/a
351	n/a	def test_qualified_re_split(self):
352	n/a	self.assertEqual(re.split(":", ":a:b::c", 2), ['', 'a', 'b::c'])
353	n/a	self.assertEqual(re.split(":", ":a:b::c", maxsplit=2), ['', 'a', 'b::c'])
354	n/a	self.assertEqual(re.split(':', 'a:b:c:d', maxsplit=2), ['a', 'b', 'c:d'])
355	n/a	self.assertEqual(re.split("(:)", ":a:b::c", maxsplit=2),
356	n/a	['', ':', 'a', ':', 'b::c'])
357	n/a	self.assertEqual(re.split("(:+)", ":a:b::c", maxsplit=2),
358	n/a	['', ':', 'a', ':', 'b::c'])
359	n/a	with self.assertWarns(FutureWarning):
360	n/a	self.assertEqual(re.split("(:*)", ":a:b::c", maxsplit=2),
361	n/a	['', ':', 'a', ':', 'b::c'])
362	n/a
363	n/a	def test_re_findall(self):
364	n/a	self.assertEqual(re.findall(":+", "abc"), [])
365	n/a	for string in "a:b::c:::d", S("a:b::c:::d"):
366	n/a	self.assertTypedEqual(re.findall(":+", string),
367	n/a	[":", "::", ":::"])
368	n/a	self.assertTypedEqual(re.findall("(:+)", string),
369	n/a	[":", "::", ":::"])
370	n/a	self.assertTypedEqual(re.findall("(:)(:*)", string),
371	n/a	[(":", ""), (":", ":"), (":", "::")])
372	n/a	for string in (b"a:b::c:::d", B(b"a:b::c:::d"), bytearray(b"a:b::c:::d"),
373	n/a	memoryview(b"a:b::c:::d")):
374	n/a	self.assertTypedEqual(re.findall(b":+", string),
375	n/a	[b":", b"::", b":::"])
376	n/a	self.assertTypedEqual(re.findall(b"(:+)", string),
377	n/a	[b":", b"::", b":::"])
378	n/a	self.assertTypedEqual(re.findall(b"(:)(:*)", string),
379	n/a	[(b":", b""), (b":", b":"), (b":", b"::")])
380	n/a	for x in ("\xe0", "\u0430", "\U0001d49c"):
381	n/a	xx = x * 2
382	n/a	xxx = x * 3
383	n/a	string = "a%sb%sc%sd" % (x, xx, xxx)
384	n/a	self.assertEqual(re.findall("%s+" % x, string), [x, xx, xxx])
385	n/a	self.assertEqual(re.findall("(%s+)" % x, string), [x, xx, xxx])
386	n/a	self.assertEqual(re.findall("(%s)(%s*)" % (x, x), string),
387	n/a	[(x, ""), (x, x), (x, xx)])
388	n/a
389	n/a	def test_bug_117612(self):
390	n/a	self.assertEqual(re.findall(r"(a\|(b))", "aba"),
391	n/a	[("a", ""),("b", "b"),("a", "")])
392	n/a
393	n/a	def test_re_match(self):
394	n/a	for string in 'a', S('a'):
395	n/a	self.assertEqual(re.match('a', string).groups(), ())
396	n/a	self.assertEqual(re.match('(a)', string).groups(), ('a',))
397	n/a	self.assertEqual(re.match('(a)', string).group(0), 'a')
398	n/a	self.assertEqual(re.match('(a)', string).group(1), 'a')
399	n/a	self.assertEqual(re.match('(a)', string).group(1, 1), ('a', 'a'))
400	n/a	for string in b'a', B(b'a'), bytearray(b'a'), memoryview(b'a'):
401	n/a	self.assertEqual(re.match(b'a', string).groups(), ())
402	n/a	self.assertEqual(re.match(b'(a)', string).groups(), (b'a',))
403	n/a	self.assertEqual(re.match(b'(a)', string).group(0), b'a')
404	n/a	self.assertEqual(re.match(b'(a)', string).group(1), b'a')
405	n/a	self.assertEqual(re.match(b'(a)', string).group(1, 1), (b'a', b'a'))
406	n/a	for a in ("\xe0", "\u0430", "\U0001d49c"):
407	n/a	self.assertEqual(re.match(a, a).groups(), ())
408	n/a	self.assertEqual(re.match('(%s)' % a, a).groups(), (a,))
409	n/a	self.assertEqual(re.match('(%s)' % a, a).group(0), a)
410	n/a	self.assertEqual(re.match('(%s)' % a, a).group(1), a)
411	n/a	self.assertEqual(re.match('(%s)' % a, a).group(1, 1), (a, a))
412	n/a
413	n/a	pat = re.compile('((a)\|(b))(c)?')
414	n/a	self.assertEqual(pat.match('a').groups(), ('a', 'a', None, None))
415	n/a	self.assertEqual(pat.match('b').groups(), ('b', None, 'b', None))
416	n/a	self.assertEqual(pat.match('ac').groups(), ('a', 'a', None, 'c'))
417	n/a	self.assertEqual(pat.match('bc').groups(), ('b', None, 'b', 'c'))
418	n/a	self.assertEqual(pat.match('bc').groups(""), ('b', "", 'b', 'c'))
419	n/a
420	n/a	pat = re.compile('(?:(?P<a1>a)\|(?P<b2>b))(?P<c3>c)?')
421	n/a	self.assertEqual(pat.match('a').group(1, 2, 3), ('a', None, None))
422	n/a	self.assertEqual(pat.match('b').group('a1', 'b2', 'c3'),
423	n/a	(None, 'b', None))
424	n/a	self.assertEqual(pat.match('ac').group(1, 'b2', 3), ('a', None, 'c'))
425	n/a
426	n/a	def test_group(self):
427	n/a	class Index:
428	n/a	def __init__(self, value):
429	n/a	self.value = value
430	n/a	def __index__(self):
431	n/a	return self.value
432	n/a	# A single group
433	n/a	m = re.match('(a)(b)', 'ab')
434	n/a	self.assertEqual(m.group(), 'ab')
435	n/a	self.assertEqual(m.group(0), 'ab')
436	n/a	self.assertEqual(m.group(1), 'a')
437	n/a	self.assertEqual(m.group(Index(1)), 'a')
438	n/a	self.assertRaises(IndexError, m.group, -1)
439	n/a	self.assertRaises(IndexError, m.group, 3)
440	n/a	self.assertRaises(IndexError, m.group, 1<<1000)
441	n/a	self.assertRaises(IndexError, m.group, Index(1<<1000))
442	n/a	self.assertRaises(IndexError, m.group, 'x')
443	n/a	# Multiple groups
444	n/a	self.assertEqual(m.group(2, 1), ('b', 'a'))
445	n/a	self.assertEqual(m.group(Index(2), Index(1)), ('b', 'a'))
446	n/a
447	n/a	def test_match_getitem(self):
448	n/a	pat = re.compile('(?:(?P<a1>a)\|(?P<b2>b))(?P<c3>c)?')
449	n/a
450	n/a	m = pat.match('a')
451	n/a	self.assertEqual(m['a1'], 'a')
452	n/a	self.assertEqual(m['b2'], None)
453	n/a	self.assertEqual(m['c3'], None)
454	n/a	self.assertEqual('a1={a1} b2={b2} c3={c3}'.format_map(m), 'a1=a b2=None c3=None')
455	n/a	self.assertEqual(m[0], 'a')
456	n/a	self.assertEqual(m[1], 'a')
457	n/a	self.assertEqual(m[2], None)
458	n/a	self.assertEqual(m[3], None)
459	n/a	with self.assertRaisesRegex(IndexError, 'no such group'):
460	n/a	m['X']
461	n/a	with self.assertRaisesRegex(IndexError, 'no such group'):
462	n/a	m[-1]
463	n/a	with self.assertRaisesRegex(IndexError, 'no such group'):
464	n/a	m[4]
465	n/a	with self.assertRaisesRegex(IndexError, 'no such group'):
466	n/a	m[0, 1]
467	n/a	with self.assertRaisesRegex(IndexError, 'no such group'):
468	n/a	m[(0,)]
469	n/a	with self.assertRaisesRegex(IndexError, 'no such group'):
470	n/a	m[(0, 1)]
471	n/a	with self.assertRaisesRegex(KeyError, 'a2'):
472	n/a	'a1={a2}'.format_map(m)
473	n/a
474	n/a	m = pat.match('ac')
475	n/a	self.assertEqual(m['a1'], 'a')
476	n/a	self.assertEqual(m['b2'], None)
477	n/a	self.assertEqual(m['c3'], 'c')
478	n/a	self.assertEqual('a1={a1} b2={b2} c3={c3}'.format_map(m), 'a1=a b2=None c3=c')
479	n/a	self.assertEqual(m[0], 'ac')
480	n/a	self.assertEqual(m[1], 'a')
481	n/a	self.assertEqual(m[2], None)
482	n/a	self.assertEqual(m[3], 'c')
483	n/a
484	n/a	# Cannot assign.
485	n/a	with self.assertRaises(TypeError):
486	n/a	m[0] = 1
487	n/a
488	n/a	# No len().
489	n/a	self.assertRaises(TypeError, len, m)
490	n/a
491	n/a	def test_re_fullmatch(self):
492	n/a	# Issue 16203: Proposal: add re.fullmatch() method.
493	n/a	self.assertEqual(re.fullmatch(r"a", "a").span(), (0, 1))
494	n/a	for string in "ab", S("ab"):
495	n/a	self.assertEqual(re.fullmatch(r"a\|ab", string).span(), (0, 2))
496	n/a	for string in b"ab", B(b"ab"), bytearray(b"ab"), memoryview(b"ab"):
497	n/a	self.assertEqual(re.fullmatch(br"a\|ab", string).span(), (0, 2))
498	n/a	for a, b in "\xe0\xdf", "\u0430\u0431", "\U0001d49c\U0001d49e":
499	n/a	r = r"%s\|%s" % (a, a + b)
500	n/a	self.assertEqual(re.fullmatch(r, a + b).span(), (0, 2))

1

n/a

from test.support import verbose, run_unittest, gc_collect, bigmemtest, _2G, \

2

n/a

cpython_only, captured_stdout

3

n/a

import locale

4

n/a

import re

5

n/a

import sre_compile

6

n/a

import string

7

n/a

import unittest

8

n/a

import warnings

9

n/a

from re import Scanner

10

n/a

from weakref import proxy

11

n/a

12

n/a

# Misc tests from Tim Peters' re.doc

13

n/a

14

n/a

# WARNING: Don't change details in these tests if you don't know

15

n/a

# what you're doing. Some of these tests were carefully modeled to

16

n/a

# cover most of the code.

17

n/a

18

n/a

class S(str):

19

n/a

def __getitem__(self, index):

20

n/a

return S(super().__getitem__(index))

21

n/a

22

n/a

class B(bytes):

23

n/a

def __getitem__(self, index):

24

n/a

return B(super().__getitem__(index))

25

n/a

26

n/a

class ReTests(unittest.TestCase):

27

n/a

28

n/a

def assertTypedEqual(self, actual, expect, msg=None):

29

n/a

self.assertEqual(actual, expect, msg)

30

n/a

def recurse(actual, expect):

31

n/a

if isinstance(expect, (tuple, list)):

32

n/a

for x, y in zip(actual, expect):

33

n/a

recurse(x, y)

34

n/a

else:

35

n/a

self.assertIs(type(actual), type(expect), msg)

36

n/a

recurse(actual, expect)

37

n/a

38

n/a

def checkPatternError(self, pattern, errmsg, pos=None):

39

n/a

with self.assertRaises(re.error) as cm:

40

n/a

re.compile(pattern)

41

n/a

with self.subTest(pattern=pattern):

42

n/a

err = cm.exception

43

n/a

self.assertEqual(err.msg, errmsg)

44

n/a

if pos is not None:

45

n/a

self.assertEqual(err.pos, pos)

46

n/a

47

n/a

def checkTemplateError(self, pattern, repl, string, errmsg, pos=None):

48

n/a

with self.assertRaises(re.error) as cm:

49

n/a

re.sub(pattern, repl, string)

50

n/a

with self.subTest(pattern=pattern, repl=repl):

51

n/a

err = cm.exception

52

n/a

self.assertEqual(err.msg, errmsg)

53

n/a

if pos is not None:

54

n/a

self.assertEqual(err.pos, pos)

55

n/a

56

n/a

def test_keep_buffer(self):

57

n/a

# See bug 14212

58

n/a

b = bytearray(b'x')

59

n/a

it = re.finditer(b'a', b)

60

n/a

with self.assertRaises(BufferError):

61

n/a

b.extend(b'x'*400)

62

n/a

list(it)

63

n/a

del it

64

n/a

gc_collect()

65

n/a

b.extend(b'x'*400)

66

n/a

67

n/a

def test_weakref(self):

68

n/a

s = 'QabbbcR'

69

n/a

x = re.compile('ab+c')

70

n/a

y = proxy(x)

71

n/a

self.assertEqual(x.findall('QabbbcR'), y.findall('QabbbcR'))

72

n/a

73

n/a

def test_search_star_plus(self):

74

n/a

self.assertEqual(re.search('x*', 'axx').span(0), (0, 0))

75

n/a

self.assertEqual(re.search('x*', 'axx').span(), (0, 0))

76

n/a

self.assertEqual(re.search('x+', 'axx').span(0), (1, 3))

77

n/a

self.assertEqual(re.search('x+', 'axx').span(), (1, 3))

78

n/a

self.assertIsNone(re.search('x', 'aaa'))

79

n/a

self.assertEqual(re.match('a*', 'xxx').span(0), (0, 0))

80

n/a

self.assertEqual(re.match('a*', 'xxx').span(), (0, 0))

81

n/a

self.assertEqual(re.match('x*', 'xxxa').span(0), (0, 3))

82

n/a

self.assertEqual(re.match('x*', 'xxxa').span(), (0, 3))

83

n/a

self.assertIsNone(re.match('a+', 'xxx'))

84

n/a

85

n/a

def bump_num(self, matchobj):

86

n/a

int_value = int(matchobj.group(0))

87

n/a

return str(int_value + 1)

88

n/a

89

n/a

def test_basic_re_sub(self):

90

n/a

self.assertTypedEqual(re.sub('y', 'a', 'xyz'), 'xaz')

91

n/a

self.assertTypedEqual(re.sub('y', S('a'), S('xyz')), 'xaz')

92

n/a

self.assertTypedEqual(re.sub(b'y', b'a', b'xyz'), b'xaz')

93

n/a

self.assertTypedEqual(re.sub(b'y', B(b'a'), B(b'xyz')), b'xaz')

94

n/a

self.assertTypedEqual(re.sub(b'y', bytearray(b'a'), bytearray(b'xyz')), b'xaz')

95

n/a

self.assertTypedEqual(re.sub(b'y', memoryview(b'a'), memoryview(b'xyz')), b'xaz')

96

n/a

for y in ("\xe0", "\u0430", "\U0001d49c"):

97

n/a

self.assertEqual(re.sub(y, 'a', 'x%sz' % y), 'xaz')

98

n/a

99

n/a

self.assertEqual(re.sub("(?i)b+", "x", "bbbb BBBB"), 'x x')

100

n/a

self.assertEqual(re.sub(r'\d+', self.bump_num, '08.2 -2 23x99y'),

101

n/a

'9.3 -3 24x100y')

102

n/a

self.assertEqual(re.sub(r'\d+', self.bump_num, '08.2 -2 23x99y', 3),

103

n/a

'9.3 -3 23x99y')

104

n/a

self.assertEqual(re.sub(r'\d+', self.bump_num, '08.2 -2 23x99y', count=3),

105

n/a

'9.3 -3 23x99y')

106

n/a

107

n/a

self.assertEqual(re.sub('.', lambda m: r"\n", 'x'), '\\n')

108

n/a

self.assertEqual(re.sub('.', r"\n", 'x'), '\n')

109

n/a

110

n/a

s = r"\1\1"

111

n/a

self.assertEqual(re.sub('(.)', s, 'x'), 'xx')

112

n/a

self.assertEqual(re.sub('(.)', re.escape(s), 'x'), s)

113

n/a

self.assertEqual(re.sub('(.)', lambda m: s, 'x'), s)

114

n/a

115

n/a

self.assertEqual(re.sub('(?P<a>x)', r'\g<a>\g<a>', 'xx'), 'xxxx')

116

n/a

self.assertEqual(re.sub('(?P<a>x)', r'\g<a>\g<1>', 'xx'), 'xxxx')

117

n/a

self.assertEqual(re.sub('(?P<unk>x)', r'\g<unk>\g<unk>', 'xx'), 'xxxx')

118

n/a

self.assertEqual(re.sub('(?P<unk>x)', r'\g<1>\g<1>', 'xx'), 'xxxx')

119

n/a

120

n/a

self.assertEqual(re.sub('a', r'\t\n\v\r\f\a\b', 'a'), '\t\n\v\r\f\a\b')

121

n/a

self.assertEqual(re.sub('a', '\t\n\v\r\f\a\b', 'a'), '\t\n\v\r\f\a\b')

122

n/a

self.assertEqual(re.sub('a', '\t\n\v\r\f\a\b', 'a'),

123

n/a

(chr(9)+chr(10)+chr(11)+chr(13)+chr(12)+chr(7)+chr(8)))

124

n/a

for c in 'cdehijklmopqsuwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ':

125

n/a

with self.subTest(c):

126

n/a

with self.assertRaises(re.error):

127

n/a

self.assertEqual(re.sub('a', '\\' + c, 'a'), '\\' + c)

128

n/a

129

n/a

self.assertEqual(re.sub(r'^\s*', 'X', 'test'), 'Xtest')

130

n/a

131

n/a

def test_bug_449964(self):

132

n/a

# fails for group followed by other escape

133

n/a

self.assertEqual(re.sub(r'(?P<unk>x)', r'\g<1>\g<1>\b', 'xx'),

134

n/a

'xx\bxx\b')

135

n/a

136

n/a

def test_bug_449000(self):

137

n/a

# Test for sub() on escaped characters

138

n/a

self.assertEqual(re.sub(r'\r\n', r'\n', 'abc\r\ndef\r\n'),

139

n/a

'abc\ndef\n')

140

n/a

self.assertEqual(re.sub('\r\n', r'\n', 'abc\r\ndef\r\n'),

141

n/a

'abc\ndef\n')

142

n/a

self.assertEqual(re.sub(r'\r\n', '\n', 'abc\r\ndef\r\n'),

143

n/a

'abc\ndef\n')

144

n/a

self.assertEqual(re.sub('\r\n', '\n', 'abc\r\ndef\r\n'),

145

n/a

'abc\ndef\n')

146

n/a

147

n/a

def test_bug_1661(self):

148

n/a

# Verify that flags do not get silently ignored with compiled patterns

149

n/a

pattern = re.compile('.')

150

n/a

self.assertRaises(ValueError, re.match, pattern, 'A', re.I)

151

n/a

self.assertRaises(ValueError, re.search, pattern, 'A', re.I)

152

n/a

self.assertRaises(ValueError, re.findall, pattern, 'A', re.I)

153

n/a

self.assertRaises(ValueError, re.compile, pattern, re.I)

154

n/a

155

n/a

def test_bug_3629(self):

156

n/a

# A regex that triggered a bug in the sre-code validator

157

n/a

re.compile("(?P<quote>)(?(quote))")

158

n/a

159

n/a

def test_sub_template_numeric_escape(self):

160

n/a

# bug 776311 and friends

161

n/a

self.assertEqual(re.sub('x', r'\0', 'x'), '\0')

162

n/a

self.assertEqual(re.sub('x', r'\000', 'x'), '\000')

163

n/a

self.assertEqual(re.sub('x', r'\001', 'x'), '\001')

164

n/a

self.assertEqual(re.sub('x', r'\008', 'x'), '\0' + '8')

165

n/a

self.assertEqual(re.sub('x', r'\009', 'x'), '\0' + '9')

166

n/a

self.assertEqual(re.sub('x', r'\111', 'x'), '\111')

167

n/a

self.assertEqual(re.sub('x', r'\117', 'x'), '\117')

168

n/a

self.assertEqual(re.sub('x', r'\377', 'x'), '\377')

169

n/a

170

n/a

self.assertEqual(re.sub('x', r'\1111', 'x'), '\1111')

171

n/a

self.assertEqual(re.sub('x', r'\1111', 'x'), '\111' + '1')

172

n/a

173

n/a

self.assertEqual(re.sub('x', r'\00', 'x'), '\x00')

174

n/a

self.assertEqual(re.sub('x', r'\07', 'x'), '\x07')

175

n/a

self.assertEqual(re.sub('x', r'\08', 'x'), '\0' + '8')

176

n/a

self.assertEqual(re.sub('x', r'\09', 'x'), '\0' + '9')

177

n/a

self.assertEqual(re.sub('x', r'\0a', 'x'), '\0' + 'a')

178

n/a

179

n/a

self.checkTemplateError('x', r'\400', 'x',

180

n/a

r'octal escape value \400 outside of '

181

n/a

r'range 0-0o377', 0)

182

n/a

self.checkTemplateError('x', r'\777', 'x',

183

n/a

r'octal escape value \777 outside of '

184

n/a

r'range 0-0o377', 0)

185

n/a

186

n/a

self.checkTemplateError('x', r'\1', 'x', 'invalid group reference 1', 1)

187

n/a

self.checkTemplateError('x', r'\8', 'x', 'invalid group reference 8', 1)

188

n/a

self.checkTemplateError('x', r'\9', 'x', 'invalid group reference 9', 1)

189

n/a

self.checkTemplateError('x', r'\11', 'x', 'invalid group reference 11', 1)

190

n/a

self.checkTemplateError('x', r'\18', 'x', 'invalid group reference 18', 1)

191

n/a

self.checkTemplateError('x', r'\1a', 'x', 'invalid group reference 1', 1)

192

n/a

self.checkTemplateError('x', r'\90', 'x', 'invalid group reference 90', 1)

193

n/a

self.checkTemplateError('x', r'\99', 'x', 'invalid group reference 99', 1)

194

n/a

self.checkTemplateError('x', r'\118', 'x', 'invalid group reference 11', 1)

195

n/a

self.checkTemplateError('x', r'\11a', 'x', 'invalid group reference 11', 1)

196

n/a

self.checkTemplateError('x', r'\181', 'x', 'invalid group reference 18', 1)

197

n/a

self.checkTemplateError('x', r'\800', 'x', 'invalid group reference 80', 1)

198

n/a

self.checkTemplateError('x', r'\8', '', 'invalid group reference 8', 1)

199

n/a

200

n/a

# in python2.3 (etc), these loop endlessly in sre_parser.py

201

n/a

self.assertEqual(re.sub('(((((((((((x)))))))))))', r'\11', 'x'), 'x')

202

n/a

self.assertEqual(re.sub('((((((((((y))))))))))(.)', r'\118', 'xyz'),

203

n/a

'xz8')

204

n/a

self.assertEqual(re.sub('((((((((((y))))))))))(.)', r'\11a', 'xyz'),

205

n/a

'xza')

206

n/a

207

n/a

def test_qualified_re_sub(self):

208

n/a

self.assertEqual(re.sub('a', 'b', 'aaaaa'), 'bbbbb')

209

n/a

self.assertEqual(re.sub('a', 'b', 'aaaaa', 1), 'baaaa')

210

n/a

self.assertEqual(re.sub('a', 'b', 'aaaaa', count=1), 'baaaa')

211

n/a

212

n/a

def test_bug_114660(self):

213

n/a

self.assertEqual(re.sub(r'(\S)\s+(\S)', r'\1 \2', 'hello there'),

214

n/a

'hello there')

215

n/a

216

n/a

def test_bug_462270(self):

217

n/a

# Test for empty sub() behaviour, see SF bug #462270

218

n/a

self.assertEqual(re.sub('x*', '-', 'abxd'), '-a-b-d-')

219

n/a

self.assertEqual(re.sub('x+', '-', 'abxd'), 'ab-d')

220

n/a

221

n/a

def test_symbolic_groups(self):

222

n/a

re.compile(r'(?P<a>x)(?P=a)(?(a)y)')

223

n/a

re.compile(r'(?P<a1>x)(?P=a1)(?(a1)y)')

224

n/a

re.compile(r'(?P<a1>x)\1(?(1)y)')

225

n/a

self.checkPatternError(r'(?P<a>)(?P<a>)',

226

n/a

"redefinition of group name 'a' as group 2; "

227

n/a

"was group 1")

228

n/a

self.checkPatternError(r'(?P<a>(?P=a))',

229

n/a

"cannot refer to an open group", 10)

230

n/a

self.checkPatternError(r'(?Pxy)', 'unknown extension ?Px')

231

n/a

self.checkPatternError(r'(?P<a>)(?P=a', 'missing ), unterminated name', 11)

232

n/a

self.checkPatternError(r'(?P=', 'missing group name', 4)

233

n/a

self.checkPatternError(r'(?P=)', 'missing group name', 4)

234

n/a

self.checkPatternError(r'(?P=1)', "bad character in group name '1'", 4)

235

n/a

self.checkPatternError(r'(?P=a)', "unknown group name 'a'")

236

n/a

self.checkPatternError(r'(?P=a1)', "unknown group name 'a1'")

237

n/a

self.checkPatternError(r'(?P=a.)', "bad character in group name 'a.'", 4)

238

n/a

self.checkPatternError(r'(?P<)', 'missing >, unterminated name', 4)

239

n/a

self.checkPatternError(r'(?P<a', 'missing >, unterminated name', 4)

240

n/a

self.checkPatternError(r'(?P<', 'missing group name', 4)

241

n/a

self.checkPatternError(r'(?P<>)', 'missing group name', 4)

242

n/a

self.checkPatternError(r'(?P<1>)', "bad character in group name '1'", 4)

243

n/a

self.checkPatternError(r'(?P<a.>)', "bad character in group name 'a.'", 4)

244

n/a

self.checkPatternError(r'(?(', 'missing group name', 3)

245

n/a

self.checkPatternError(r'(?())', 'missing group name', 3)

246

n/a

self.checkPatternError(r'(?(a))', "unknown group name 'a'", 3)

247

n/a

self.checkPatternError(r'(?(-1))', "bad character in group name '-1'", 3)

248

n/a

self.checkPatternError(r'(?(1a))', "bad character in group name '1a'", 3)

249

n/a

self.checkPatternError(r'(?(a.))', "bad character in group name 'a.'", 3)

250

n/a

# New valid/invalid identifiers in Python 3

251

n/a

re.compile('(?P<Âµ>x)(?P=Âµ)(?(Âµ)y)')

252

n/a

re.compile('(?P<ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢>x)(?P=ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢)(?(ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢)y)')

253

n/a

self.checkPatternError('(?P<Â©>x)', "bad character in group name 'Â©'", 4)

254

n/a

# Support > 100 groups.

255

n/a

pat = '|'.join('x(?P<a%d>%x)y' % (i, i) for i in range(1, 200 + 1))

256

n/a

pat = '(?:%s)(?(200)z|t)' % pat

257

n/a

self.assertEqual(re.match(pat, 'xc8yz').span(), (0, 5))

258

n/a

259

n/a

def test_symbolic_refs(self):

260

n/a

self.checkTemplateError('(?P<a>x)', r'\g<a', 'xx',

261

n/a

'missing >, unterminated name', 3)

262

n/a

self.checkTemplateError('(?P<a>x)', r'\g<', 'xx',

263

n/a

'missing group name', 3)

264

n/a

self.checkTemplateError('(?P<a>x)', r'\g', 'xx', 'missing <', 2)

265

n/a

self.checkTemplateError('(?P<a>x)', r'\g<a a>', 'xx',

266

n/a

"bad character in group name 'a a'", 3)

267

n/a

self.checkTemplateError('(?P<a>x)', r'\g<>', 'xx',

268

n/a

'missing group name', 3)

269

n/a

self.checkTemplateError('(?P<a>x)', r'\g<1a1>', 'xx',

270

n/a

"bad character in group name '1a1'", 3)

271

n/a

self.checkTemplateError('(?P<a>x)', r'\g<2>', 'xx',

272

n/a

'invalid group reference 2', 3)

273

n/a

self.checkTemplateError('(?P<a>x)', r'\2', 'xx',

274

n/a

'invalid group reference 2', 1)

275

n/a

with self.assertRaisesRegex(IndexError, "unknown group name 'ab'"):

276

n/a

re.sub('(?P<a>x)', r'\g<ab>', 'xx')

277

n/a

self.assertEqual(re.sub('(?P<a>x)|(?P<b>y)', r'\g<b>', 'xx'), '')

278

n/a

self.assertEqual(re.sub('(?P<a>x)|(?P<b>y)', r'\2', 'xx'), '')

279

n/a

self.checkTemplateError('(?P<a>x)', r'\g<-1>', 'xx',

280

n/a

"bad character in group name '-1'", 3)

281

n/a

# New valid/invalid identifiers in Python 3

282

n/a

self.assertEqual(re.sub('(?P<Âµ>x)', r'\g<Âµ>', 'xx'), 'xx')

283

n/a

self.assertEqual(re.sub('(?P<ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢>x)', r'\g<ð”˜ð”«ð”¦ð” ð”¬ð”¡ð”¢>', 'xx'), 'xx')

284

n/a

self.checkTemplateError('(?P<a>x)', r'\g<Â©>', 'xx',

285

n/a

"bad character in group name 'Â©'", 3)

286

n/a

# Support > 100 groups.

287

n/a

pat = '|'.join('x(?P<a%d>%x)y' % (i, i) for i in range(1, 200 + 1))

288

n/a

self.assertEqual(re.sub(pat, r'\g<200>', 'xc8yzxc8y'), 'c8zc8')

289

n/a

290

n/a

def test_re_subn(self):

291

n/a

self.assertEqual(re.subn("(?i)b+", "x", "bbbb BBBB"), ('x x', 2))

292

n/a

self.assertEqual(re.subn("b+", "x", "bbbb BBBB"), ('x BBBB', 1))

293

n/a

self.assertEqual(re.subn("b+", "x", "xyz"), ('xyz', 0))

294

n/a

self.assertEqual(re.subn("b*", "x", "xyz"), ('xxxyxzx', 4))

295

n/a

self.assertEqual(re.subn("b*", "x", "xyz", 2), ('xxxyz', 2))

296

n/a

self.assertEqual(re.subn("b*", "x", "xyz", count=2), ('xxxyz', 2))

297

n/a

298

n/a

def test_re_split(self):

299

n/a

for string in ":a:b::c", S(":a:b::c"):

300

n/a

self.assertTypedEqual(re.split(":", string),

301

n/a

['', 'a', 'b', '', 'c'])

302

n/a

self.assertTypedEqual(re.split(":+", string),

303

n/a

['', 'a', 'b', 'c'])

304

n/a

self.assertTypedEqual(re.split("(:+)", string),

305

n/a

['', ':', 'a', ':', 'b', '::', 'c'])

306

n/a

for string in (b":a:b::c", B(b":a:b::c"), bytearray(b":a:b::c"),

307

n/a

memoryview(b":a:b::c")):

308

n/a

self.assertTypedEqual(re.split(b":", string),

309

n/a

[b'', b'a', b'b', b'', b'c'])

310

n/a

self.assertTypedEqual(re.split(b":+", string),

311

n/a

[b'', b'a', b'b', b'c'])

312

n/a

self.assertTypedEqual(re.split(b"(:+)", string),

313

n/a

[b'', b':', b'a', b':', b'b', b'::', b'c'])

314

n/a

for a, b, c in ("\xe0\xdf\xe7", "\u0430\u0431\u0432",

315

n/a

"\U0001d49c\U0001d49e\U0001d4b5"):

316

n/a

string = ":%s:%s::%s" % (a, b, c)

317

n/a

self.assertEqual(re.split(":", string), ['', a, b, '', c])

318

n/a

self.assertEqual(re.split(":+", string), ['', a, b, c])

319

n/a

self.assertEqual(re.split("(:+)", string),

320

n/a

['', ':', a, ':', b, '::', c])

321

n/a

322

n/a

self.assertEqual(re.split("(?::+)", ":a:b::c"), ['', 'a', 'b', 'c'])

323

n/a

self.assertEqual(re.split("(:)+", ":a:b::c"),

324

n/a

['', ':', 'a', ':', 'b', ':', 'c'])

325

n/a

self.assertEqual(re.split("([b:]+)", ":a:b::c"),

326

n/a

['', ':', 'a', ':b::', 'c'])

327

n/a

self.assertEqual(re.split("(b)|(:+)", ":a:b::c"),

328

n/a

['', None, ':', 'a', None, ':', '', 'b', None, '',

329

n/a

None, '::', 'c'])

330

n/a

self.assertEqual(re.split("(?:b)|(?::+)", ":a:b::c"),

331

n/a

['', 'a', '', '', 'c'])

332

n/a

333

n/a

for sep, expected in [

334

n/a

(':*', ['', 'a', 'b', 'c']),

335

n/a

('(?::*)', ['', 'a', 'b', 'c']),

336

n/a

('(:*)', ['', ':', 'a', ':', 'b', '::', 'c']),

337

n/a

('(:)*', ['', ':', 'a', ':', 'b', ':', 'c']),

338

n/a

]:

339

n/a

with self.subTest(sep=sep), self.assertWarns(FutureWarning):

340

n/a

self.assertTypedEqual(re.split(sep, ':a:b::c'), expected)

341

n/a

342

n/a

for sep, expected in [

343

n/a

('', [':a:b::c']),

344

n/a

(r'\b', [':a:b::c']),

345

n/a

(r'(?=:)', [':a:b::c']),

346

n/a

(r'(?<=:)', [':a:b::c']),

347

n/a

]:

348

n/a

with self.subTest(sep=sep), self.assertRaises(ValueError):

349

n/a

self.assertTypedEqual(re.split(sep, ':a:b::c'), expected)

350

n/a

351

n/a

def test_qualified_re_split(self):

352

n/a

self.assertEqual(re.split(":", ":a:b::c", 2), ['', 'a', 'b::c'])

353

n/a

self.assertEqual(re.split(":", ":a:b::c", maxsplit=2), ['', 'a', 'b::c'])

354

n/a

self.assertEqual(re.split(':', 'a:b:c:d', maxsplit=2), ['a', 'b', 'c:d'])

355

n/a

self.assertEqual(re.split("(:)", ":a:b::c", maxsplit=2),

356

n/a

['', ':', 'a', ':', 'b::c'])

357

n/a

self.assertEqual(re.split("(:+)", ":a:b::c", maxsplit=2),

358

n/a

['', ':', 'a', ':', 'b::c'])

359

n/a

with self.assertWarns(FutureWarning):

360

n/a

self.assertEqual(re.split("(:*)", ":a:b::c", maxsplit=2),

361

n/a

['', ':', 'a', ':', 'b::c'])

362

n/a

363

n/a

def test_re_findall(self):

364

n/a

self.assertEqual(re.findall(":+", "abc"), [])

365

n/a

for string in "a:b::c:::d", S("a:b::c:::d"):

366

n/a

self.assertTypedEqual(re.findall(":+", string),

367

n/a

[":", "::", ":::"])

368

n/a

self.assertTypedEqual(re.findall("(:+)", string),

369

n/a

[":", "::", ":::"])

370

n/a

self.assertTypedEqual(re.findall("(:)(:*)", string),

371

n/a

[(":", ""), (":", ":"), (":", "::")])

372

n/a

for string in (b"a:b::c:::d", B(b"a:b::c:::d"), bytearray(b"a:b::c:::d"),

373

n/a

memoryview(b"a:b::c:::d")):

374

n/a

self.assertTypedEqual(re.findall(b":+", string),

375

n/a

[b":", b"::", b":::"])

376

n/a

self.assertTypedEqual(re.findall(b"(:+)", string),

377

n/a

[b":", b"::", b":::"])

378

n/a

self.assertTypedEqual(re.findall(b"(:)(:*)", string),

379

n/a

[(b":", b""), (b":", b":"), (b":", b"::")])

380

n/a

for x in ("\xe0", "\u0430", "\U0001d49c"):

381

n/a

xx = x * 2

382

n/a

xxx = x * 3

383

n/a

string = "a%sb%sc%sd" % (x, xx, xxx)

384

n/a

self.assertEqual(re.findall("%s+" % x, string), [x, xx, xxx])

385

n/a

self.assertEqual(re.findall("(%s+)" % x, string), [x, xx, xxx])

386

n/a

self.assertEqual(re.findall("(%s)(%s*)" % (x, x), string),

387

n/a

[(x, ""), (x, x), (x, xx)])

388

n/a

389

n/a

def test_bug_117612(self):

390

n/a

self.assertEqual(re.findall(r"(a|(b))", "aba"),

391

n/a

[("a", ""),("b", "b"),("a", "")])

392

n/a

393

n/a

def test_re_match(self):

394

n/a

for string in 'a', S('a'):

395

n/a

self.assertEqual(re.match('a', string).groups(), ())

396

n/a

self.assertEqual(re.match('(a)', string).groups(), ('a',))

397

n/a

self.assertEqual(re.match('(a)', string).group(0), 'a')

398

n/a

self.assertEqual(re.match('(a)', string).group(1), 'a')

399

n/a

self.assertEqual(re.match('(a)', string).group(1, 1), ('a', 'a'))

400

n/a

for string in b'a', B(b'a'), bytearray(b'a'), memoryview(b'a'):

401

n/a

self.assertEqual(re.match(b'a', string).groups(), ())

402

n/a

self.assertEqual(re.match(b'(a)', string).groups(), (b'a',))

403

n/a

self.assertEqual(re.match(b'(a)', string).group(0), b'a')

404

n/a

self.assertEqual(re.match(b'(a)', string).group(1), b'a')

405

n/a

self.assertEqual(re.match(b'(a)', string).group(1, 1), (b'a', b'a'))

406

n/a

for a in ("\xe0", "\u0430", "\U0001d49c"):

407

n/a

self.assertEqual(re.match(a, a).groups(), ())

408

n/a

self.assertEqual(re.match('(%s)' % a, a).groups(), (a,))

409

n/a

self.assertEqual(re.match('(%s)' % a, a).group(0), a)

410

n/a

self.assertEqual(re.match('(%s)' % a, a).group(1), a)

411

n/a

self.assertEqual(re.match('(%s)' % a, a).group(1, 1), (a, a))

412

n/a

413

n/a

pat = re.compile('((a)|(b))(c)?')

414

n/a

self.assertEqual(pat.match('a').groups(), ('a', 'a', None, None))

415

n/a

self.assertEqual(pat.match('b').groups(), ('b', None, 'b', None))

416

n/a

self.assertEqual(pat.match('ac').groups(), ('a', 'a', None, 'c'))

417

n/a

self.assertEqual(pat.match('bc').groups(), ('b', None, 'b', 'c'))

418

n/a

self.assertEqual(pat.match('bc').groups(""), ('b', "", 'b', 'c'))

419

n/a

420

n/a

pat = re.compile('(?:(?P<a1>a)|(?P<b2>b))(?P<c3>c)?')

421

n/a

self.assertEqual(pat.match('a').group(1, 2, 3), ('a', None, None))

422

n/a

self.assertEqual(pat.match('b').group('a1', 'b2', 'c3'),

423

n/a

(None, 'b', None))

424

n/a

self.assertEqual(pat.match('ac').group(1, 'b2', 3), ('a', None, 'c'))

425

n/a

426

n/a

def test_group(self):

427

n/a

class Index:

428

n/a

def __init__(self, value):

429

n/a

self.value = value

430

n/a

def __index__(self):

431

n/a

return self.value

432

n/a

# A single group

433

n/a

m = re.match('(a)(b)', 'ab')

434

n/a

self.assertEqual(m.group(), 'ab')

435

n/a

self.assertEqual(m.group(0), 'ab')

436

n/a

self.assertEqual(m.group(1), 'a')

437

n/a

self.assertEqual(m.group(Index(1)), 'a')

438

n/a

self.assertRaises(IndexError, m.group, -1)

439

n/a

self.assertRaises(IndexError, m.group, 3)

440

n/a

self.assertRaises(IndexError, m.group, 1<<1000)

441

n/a

self.assertRaises(IndexError, m.group, Index(1<<1000))

442

n/a

self.assertRaises(IndexError, m.group, 'x')

443

n/a

# Multiple groups

444

n/a

self.assertEqual(m.group(2, 1), ('b', 'a'))

445

n/a

self.assertEqual(m.group(Index(2), Index(1)), ('b', 'a'))

446

n/a

447

n/a

def test_match_getitem(self):

448

n/a

pat = re.compile('(?:(?P<a1>a)|(?P<b2>b))(?P<c3>c)?')

449

n/a

450

n/a

m = pat.match('a')

451

n/a

self.assertEqual(m['a1'], 'a')

452

n/a

self.assertEqual(m['b2'], None)

453

n/a

self.assertEqual(m['c3'], None)

454

n/a

self.assertEqual('a1={a1} b2={b2} c3={c3}'.format_map(m), 'a1=a b2=None c3=None')

455

n/a

self.assertEqual(m[0], 'a')

456

n/a

self.assertEqual(m[1], 'a')

457

n/a

self.assertEqual(m[2], None)

458

n/a

self.assertEqual(m[3], None)

459

n/a