Move get_email_charset to this module
[leap_pycommon.git] / src / leap / common / mail.py
1 # -*- coding: utf-8 -*-
2 # mail.py
3 # Copyright (C) 2013 LEAP
4 #
5 # This program is free software: you can redistribute it and/or modify
6 # it under the terms of the GNU General Public License as published by
7 # the Free Software Foundation, either version 3 of the License, or
8 # (at your option) any later version.
9 #
10 # This program is distributed in the hope that it will be useful,
11 # but WITHOUT ANY WARRANTY; without even the implied warranty of
12 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
13 # GNU General Public License for more details.
14 #
15 # You should have received a copy of the GNU General Public License
16 # along with this program.  If not, see <http://www.gnu.org/licenses/>.
17 """
18 Utility functions for email.
19 """
20 import email
21 import re
22
23 from leap.common.check import leap_assert_type
24
25
26 def get_email_charset(content, default="utf-8"):
27     """
28     Mini parser to retrieve the charset of an email.
29
30     :param content: mail contents
31     :type content: unicode
32     :param default: optional default value for encoding
33     :type default: str or None
34
35     :returns: the charset as parsed from the contents
36     :rtype: str
37     """
38     leap_assert_type(content, unicode)
39
40     charset = default
41     try:
42         em = email.message_from_string(content.encode("utf-8", "replace"))
43         # Miniparser for: Content-Type: <something>; charset=<charset>
44         charset_re = r'''charset=(?P<charset>[\w|\d|-]*)'''
45         charset = re.findall(charset_re, em["Content-Type"])[0]
46         if charset is None or len(charset) == 0:
47             charset = default
48     except Exception:
49         pass
50     return charset