Python code coverage for Lib/test/test_multibytecodec_support.py

#	count	content
1	n/a	#!/usr/bin/env python3
2	n/a	#
3	n/a	# test_multibytecodec_support.py
4	n/a	# Common Unittest Routines for CJK codecs
5	n/a	#
6	n/a
7	n/a	import codecs
8	n/a	import os
9	n/a	import re
10	n/a	import sys
11	n/a	import unittest
12	n/a	from http.client import HTTPException
13	n/a	from test import support
14	n/a	from io import BytesIO
15	n/a
16	n/a	class TestBase:
17	n/a	encoding = '' # codec name
18	n/a	codec = None # codec tuple (with 4 elements)
19	n/a	tstring = None # must set. 2 strings to test StreamReader
20	n/a
21	n/a	codectests = None # must set. codec test tuple
22	n/a	roundtriptest = 1 # set if roundtrip is possible with unicode
23	n/a	has_iso10646 = 0 # set if this encoding contains whole iso10646 map
24	n/a	xmlcharnametest = None # string to test xmlcharrefreplace
25	n/a	unmappedunicode = '\udeee' # a unicode codepoint that is not mapped.
26	n/a
27	n/a	def setUp(self):
28	n/a	if self.codec is None:
29	n/a	self.codec = codecs.lookup(self.encoding)
30	n/a	self.encode = self.codec.encode
31	n/a	self.decode = self.codec.decode
32	n/a	self.reader = self.codec.streamreader
33	n/a	self.writer = self.codec.streamwriter
34	n/a	self.incrementalencoder = self.codec.incrementalencoder
35	n/a	self.incrementaldecoder = self.codec.incrementaldecoder
36	n/a
37	n/a	def test_chunkcoding(self):
38	n/a	tstring_lines = []
39	n/a	for b in self.tstring:
40	n/a	lines = b.split(b"\n")
41	n/a	last = lines.pop()
42	n/a	assert last == b""
43	n/a	lines = [line + b"\n" for line in lines]
44	n/a	tstring_lines.append(lines)
45	n/a	for native, utf8 in zip(*tstring_lines):
46	n/a	u = self.decode(native)[0]
47	n/a	self.assertEqual(u, utf8.decode('utf-8'))
48	n/a	if self.roundtriptest:
49	n/a	self.assertEqual(native, self.encode(u)[0])
50	n/a
51	n/a	def test_errorhandle(self):
52	n/a	for source, scheme, expected in self.codectests:
53	n/a	if isinstance(source, bytes):
54	n/a	func = self.decode
55	n/a	else:
56	n/a	func = self.encode
57	n/a	if expected:
58	n/a	result = func(source, scheme)[0]
59	n/a	if func is self.decode:
60	n/a	self.assertTrue(type(result) is str, type(result))
61	n/a	self.assertEqual(result, expected,
62	n/a	'%a.decode(%r, %r)=%a != %a'
63	n/a	% (source, self.encoding, scheme, result,
64	n/a	expected))
65	n/a	else:
66	n/a	self.assertTrue(type(result) is bytes, type(result))
67	n/a	self.assertEqual(result, expected,
68	n/a	'%a.encode(%r, %r)=%a != %a'
69	n/a	% (source, self.encoding, scheme, result,
70	n/a	expected))
71	n/a	else:
72	n/a	self.assertRaises(UnicodeError, func, source, scheme)
73	n/a
74	n/a	def test_xmlcharrefreplace(self):
75	n/a	if self.has_iso10646:
76	n/a	return
77	n/a
78	n/a	s = "\u0b13\u0b23\u0b60 nd eggs"
79	n/a	self.assertEqual(
80	n/a	self.encode(s, "xmlcharrefreplace")[0],
81	n/a	b"ଓଣୠ nd eggs"
82	n/a	)
83	n/a
84	n/a	def test_customreplace_encode(self):
85	n/a	if self.has_iso10646:
86	n/a	return
87	n/a
88	n/a	from html.entities import codepoint2name
89	n/a
90	n/a	def xmlcharnamereplace(exc):
91	n/a	if not isinstance(exc, UnicodeEncodeError):
92	n/a	raise TypeError("don't know how to handle %r" % exc)
93	n/a	l = []
94	n/a	for c in exc.object[exc.start:exc.end]:
95	n/a	if ord(c) in codepoint2name:
96	n/a	l.append("&%s;" % codepoint2name[ord(c)])
97	n/a	else:
98	n/a	l.append("&#%d;" % ord(c))
99	n/a	return ("".join(l), exc.end)
100	n/a
101	n/a	codecs.register_error("test.xmlcharnamereplace", xmlcharnamereplace)
102	n/a
103	n/a	if self.xmlcharnametest:
104	n/a	sin, sout = self.xmlcharnametest
105	n/a	else:
106	n/a	sin = "\xab\u211c\xbb = \u2329\u1234\u232a"
107	n/a	sout = b"«&real;» = &lang;ሴ&rang;"
108	n/a	self.assertEqual(self.encode(sin,
109	n/a	"test.xmlcharnamereplace")[0], sout)
110	n/a
111	n/a	def test_callback_wrong_objects(self):
112	n/a	def myreplace(exc):
113	n/a	return (ret, exc.end)
114	n/a	codecs.register_error("test.cjktest", myreplace)
115	n/a
116	n/a	for ret in ([1, 2, 3], [], None, object(), b'string', b''):
117	n/a	self.assertRaises(TypeError, self.encode, self.unmappedunicode,
118	n/a	'test.cjktest')
119	n/a
120	n/a	def test_callback_long_index(self):
121	n/a	def myreplace(exc):
122	n/a	return ('x', int(exc.end))
123	n/a	codecs.register_error("test.cjktest", myreplace)
124	n/a	self.assertEqual(self.encode('abcd' + self.unmappedunicode + 'efgh',
125	n/a	'test.cjktest'), (b'abcdxefgh', 9))
126	n/a
127	n/a	def myreplace(exc):
128	n/a	return ('x', sys.maxsize + 1)
129	n/a	codecs.register_error("test.cjktest", myreplace)
130	n/a	self.assertRaises(IndexError, self.encode, self.unmappedunicode,
131	n/a	'test.cjktest')
132	n/a
133	n/a	def test_callback_None_index(self):
134	n/a	def myreplace(exc):
135	n/a	return ('x', None)
136	n/a	codecs.register_error("test.cjktest", myreplace)
137	n/a	self.assertRaises(TypeError, self.encode, self.unmappedunicode,
138	n/a	'test.cjktest')
139	n/a
140	n/a	def test_callback_backward_index(self):
141	n/a	def myreplace(exc):
142	n/a	if myreplace.limit > 0:
143	n/a	myreplace.limit -= 1
144	n/a	return ('REPLACED', 0)
145	n/a	else:
146	n/a	return ('TERMINAL', exc.end)
147	n/a	myreplace.limit = 3
148	n/a	codecs.register_error("test.cjktest", myreplace)
149	n/a	self.assertEqual(self.encode('abcd' + self.unmappedunicode + 'efgh',
150	n/a	'test.cjktest'),
151	n/a	(b'abcdREPLACEDabcdREPLACEDabcdREPLACEDabcdTERMINALefgh', 9))
152	n/a
153	n/a	def test_callback_forward_index(self):
154	n/a	def myreplace(exc):
155	n/a	return ('REPLACED', exc.end + 2)
156	n/a	codecs.register_error("test.cjktest", myreplace)
157	n/a	self.assertEqual(self.encode('abcd' + self.unmappedunicode + 'efgh',
158	n/a	'test.cjktest'), (b'abcdREPLACEDgh', 9))
159	n/a
160	n/a	def test_callback_index_outofbound(self):
161	n/a	def myreplace(exc):
162	n/a	return ('TERM', 100)
163	n/a	codecs.register_error("test.cjktest", myreplace)
164	n/a	self.assertRaises(IndexError, self.encode, self.unmappedunicode,
165	n/a	'test.cjktest')
166	n/a
167	n/a	def test_incrementalencoder(self):
168	n/a	UTF8Reader = codecs.getreader('utf-8')
169	n/a	for sizehint in [None] + list(range(1, 33)) + \
170	n/a	[64, 128, 256, 512, 1024]:
171	n/a	istream = UTF8Reader(BytesIO(self.tstring[1]))
172	n/a	ostream = BytesIO()
173	n/a	encoder = self.incrementalencoder()
174	n/a	while 1:
175	n/a	if sizehint is not None:
176	n/a	data = istream.read(sizehint)
177	n/a	else:
178	n/a	data = istream.read()
179	n/a
180	n/a	if not data:
181	n/a	break
182	n/a	e = encoder.encode(data)
183	n/a	ostream.write(e)
184	n/a
185	n/a	self.assertEqual(ostream.getvalue(), self.tstring[0])
186	n/a
187	n/a	def test_incrementaldecoder(self):
188	n/a	UTF8Writer = codecs.getwriter('utf-8')
189	n/a	for sizehint in [None, -1] + list(range(1, 33)) + \
190	n/a	[64, 128, 256, 512, 1024]:
191	n/a	istream = BytesIO(self.tstring[0])
192	n/a	ostream = UTF8Writer(BytesIO())
193	n/a	decoder = self.incrementaldecoder()
194	n/a	while 1:
195	n/a	data = istream.read(sizehint)
196	n/a	if not data:
197	n/a	break
198	n/a	else:
199	n/a	u = decoder.decode(data)
200	n/a	ostream.write(u)
201	n/a
202	n/a	self.assertEqual(ostream.getvalue(), self.tstring[1])
203	n/a
204	n/a	def test_incrementalencoder_error_callback(self):
205	n/a	inv = self.unmappedunicode
206	n/a
207	n/a	e = self.incrementalencoder()
208	n/a	self.assertRaises(UnicodeEncodeError, e.encode, inv, True)
209	n/a
210	n/a	e.errors = 'ignore'
211	n/a	self.assertEqual(e.encode(inv, True), b'')
212	n/a
213	n/a	e.reset()
214	n/a	def tempreplace(exc):
215	n/a	return ('called', exc.end)
216	n/a	codecs.register_error('test.incremental_error_callback', tempreplace)
217	n/a	e.errors = 'test.incremental_error_callback'
218	n/a	self.assertEqual(e.encode(inv, True), b'called')
219	n/a
220	n/a	# again
221	n/a	e.errors = 'ignore'
222	n/a	self.assertEqual(e.encode(inv, True), b'')
223	n/a
224	n/a	def test_streamreader(self):
225	n/a	UTF8Writer = codecs.getwriter('utf-8')
226	n/a	for name in ["read", "readline", "readlines"]:
227	n/a	for sizehint in [None, -1] + list(range(1, 33)) + \
228	n/a	[64, 128, 256, 512, 1024]:
229	n/a	istream = self.reader(BytesIO(self.tstring[0]))
230	n/a	ostream = UTF8Writer(BytesIO())
231	n/a	func = getattr(istream, name)
232	n/a	while 1:
233	n/a	data = func(sizehint)
234	n/a	if not data:
235	n/a	break
236	n/a	if name == "readlines":
237	n/a	ostream.writelines(data)
238	n/a	else:
239	n/a	ostream.write(data)
240	n/a
241	n/a	self.assertEqual(ostream.getvalue(), self.tstring[1])
242	n/a
243	n/a	def test_streamwriter(self):
244	n/a	readfuncs = ('read', 'readline', 'readlines')
245	n/a	UTF8Reader = codecs.getreader('utf-8')
246	n/a	for name in readfuncs:
247	n/a	for sizehint in [None] + list(range(1, 33)) + \
248	n/a	[64, 128, 256, 512, 1024]:
249	n/a	istream = UTF8Reader(BytesIO(self.tstring[1]))
250	n/a	ostream = self.writer(BytesIO())
251	n/a	func = getattr(istream, name)
252	n/a	while 1:
253	n/a	if sizehint is not None:
254	n/a	data = func(sizehint)
255	n/a	else:
256	n/a	data = func()
257	n/a
258	n/a	if not data:
259	n/a	break
260	n/a	if name == "readlines":
261	n/a	ostream.writelines(data)
262	n/a	else:
263	n/a	ostream.write(data)
264	n/a
265	n/a	self.assertEqual(ostream.getvalue(), self.tstring[0])
266	n/a
267	n/a
268	n/a	class TestBase_Mapping(unittest.TestCase):
269	n/a	pass_enctest = []
270	n/a	pass_dectest = []
271	n/a	supmaps = []
272	n/a	codectests = []
273	n/a
274	n/a	def __init__(self, args, *kw):
275	n/a	unittest.TestCase.__init__(self, args, *kw)
276	n/a	try:
277	n/a	self.open_mapping_file().close() # test it to report the error early
278	n/a	except (IOError, HTTPException):
279	n/a	self.skipTest("Could not retrieve "+self.mapfileurl)
280	n/a
281	n/a	def open_mapping_file(self):
282	n/a	return support.open_urlresource(self.mapfileurl)
283	n/a
284	n/a	def test_mapping_file(self):
285	n/a	if self.mapfileurl.endswith('.xml'):
286	n/a	self._test_mapping_file_ucm()
287	n/a	else:
288	n/a	self._test_mapping_file_plain()
289	n/a
290	n/a	def _test_mapping_file_plain(self):
291	n/a	unichrs = lambda s: ''.join(map(chr, map(eval, s.split('+'))))
292	n/a	urt_wa = {}
293	n/a
294	n/a	with self.open_mapping_file() as f:
295	n/a	for line in f:
296	n/a	if not line:
297	n/a	break
298	n/a	data = line.split('#')[0].strip().split()
299	n/a	if len(data) != 2:
300	n/a	continue
301	n/a
302	n/a	csetval = eval(data[0])
303	n/a	if csetval <= 0x7F:
304	n/a	csetch = bytes([csetval & 0xff])
305	n/a	elif csetval >= 0x1000000:
306	n/a	csetch = bytes([(csetval >> 24), ((csetval >> 16) & 0xff),
307	n/a	((csetval >> 8) & 0xff), (csetval & 0xff)])
308	n/a	elif csetval >= 0x10000:
309	n/a	csetch = bytes([(csetval >> 16), ((csetval >> 8) & 0xff),
310	n/a	(csetval & 0xff)])
311	n/a	elif csetval >= 0x100:
312	n/a	csetch = bytes([(csetval >> 8), (csetval & 0xff)])
313	n/a	else:
314	n/a	continue
315	n/a
316	n/a	unich = unichrs(data[1])
317	n/a	if ord(unich) == 0xfffd or unich in urt_wa:
318	n/a	continue
319	n/a	urt_wa[unich] = csetch
320	n/a
321	n/a	self._testpoint(csetch, unich)
322	n/a
323	n/a	def _test_mapping_file_ucm(self):
324	n/a	with self.open_mapping_file() as f:
325	n/a	ucmdata = f.read()
326	n/a	uc = re.findall('<a u="([A-F0-9]{4})" b="([0-9A-F ]+)"/>', ucmdata)
327	n/a	for uni, coded in uc:
328	n/a	unich = chr(int(uni, 16))
329	n/a	codech = bytes(int(c, 16) for c in coded.split())
330	n/a	self._testpoint(codech, unich)
331	n/a
332	n/a	def test_mapping_supplemental(self):
333	n/a	for mapping in self.supmaps:
334	n/a	self._testpoint(*mapping)
335	n/a
336	n/a	def _testpoint(self, csetch, unich):
337	n/a	if (csetch, unich) not in self.pass_enctest:
338	n/a	self.assertEqual(unich.encode(self.encoding), csetch)
339	n/a	if (csetch, unich) not in self.pass_dectest:
340	n/a	self.assertEqual(str(csetch, self.encoding), unich)
341	n/a
342	n/a	def test_errorhandle(self):
343	n/a	for source, scheme, expected in self.codectests:
344	n/a	if isinstance(source, bytes):
345	n/a	func = source.decode
346	n/a	else:
347	n/a	func = source.encode
348	n/a	if expected:
349	n/a	if isinstance(source, bytes):
350	n/a	result = func(self.encoding, scheme)
351	n/a	self.assertTrue(type(result) is str, type(result))
352	n/a	self.assertEqual(result, expected,
353	n/a	'%a.decode(%r, %r)=%a != %a'
354	n/a	% (source, self.encoding, scheme, result,
355	n/a	expected))
356	n/a	else:
357	n/a	result = func(self.encoding, scheme)
358	n/a	self.assertTrue(type(result) is bytes, type(result))
359	n/a	self.assertEqual(result, expected,
360	n/a	'%a.encode(%r, %r)=%a != %a'
361	n/a	% (source, self.encoding, scheme, result,
362	n/a	expected))
363	n/a	else:
364	n/a	self.assertRaises(UnicodeError, func, self.encoding, scheme)
365	n/a
366	n/a	def load_teststring(name):
367	n/a	dir = os.path.join(os.path.dirname(__file__), 'cjkencodings')
368	n/a	with open(os.path.join(dir, name + '.txt'), 'rb') as f:
369	n/a	encoded = f.read()
370	n/a	with open(os.path.join(dir, name + '-utf8.txt'), 'rb') as f:
371	n/a	utf8 = f.read()
372	n/a	return encoded, utf8