Починил парсинг адресов эл почты

This commit is contained in:
2025-11-07 21:06:00 +03:00
parent e18407f33e
commit cfefb49ef8
4 changed files with 39 additions and 32 deletions

View File

@@ -109,27 +109,16 @@ class EmailClient:
07.10.2025, 16:01, Имя (email@example.com):
Кому: ...
"""
# Ищем первую секцию пересылаемого сообщения (по структуре письма)
match = re.search(
r"-{8,}\\s*Пересылаемое сообщение\\s*-{8,}.*?(\\d{2}\\.\\d{2}\\.\\d{4},\\s*\\d{2}:\\d{2},.*?)\\(([^\\)]+)\\):",
body, re.DOTALL)
emails = []
# Ищем email внутри скобок после строки "Пересылаемое сообщение"
pattern = r"Пересылаемое сообщение.*?\((.*?)\)"
match = re.search(pattern, body, re.DOTALL)
if match:
emails.append(match.group(2)) # email из первой строки пересыла
# Ищем все email в первой пересылаемой секции (например, в "Кому:")
forwarded_section = re.search(
r"^-{8,}.*?Пересылаемое сообщение.*?:$(.*?)(?:^[-=]{5,}|\\Z)",
body, re.MULTILINE | re.DOTALL)
if forwarded_section:
addresses = re.findall(r"\\b([\\w\\.-]+@[\\w\\.-]+)\\b", forwarded_section.group(1))
for addr in addresses:
if addr not in emails:
emails.append(addr)
return emails
return match.group(1)
return None
def _extract_body(self, msg: email.message.Message) -> str:
"""
Извлечь текст письма.
Извлечь текст письма из любого типа содержимого, кроме вложений.
Args:
msg: Объект письма
@@ -141,25 +130,36 @@ class EmailClient:
if msg.is_multipart():
for part in msg.walk():
content_type = part.get_content_type()
content_disposition = str(part.get("Content-Disposition", ""))
# Ищем текстовые части без вложений
if content_type == "text/plain" and "attachment" not in content_disposition:
# Пропускаем вложения
if "attachment" in content_disposition.lower():
continue
try:
charset = part.get_content_charset() or 'utf-8'
body += part.get_payload(decode=True).decode(charset, errors='ignore')
except:
payload = part.get_payload(decode=True)
if payload:
body_piece = payload.decode(charset, errors='ignore')
body += body_piece
except Exception:
pass
else:
try:
charset = msg.get_content_charset() or 'utf-8'
body = msg.get_payload(decode=True).decode(charset, errors='ignore')
except:
payload = msg.get_payload(decode=True)
if payload:
body = payload.decode(charset, errors='ignore')
except Exception:
pass
return body
def __extract_email(self, text: str) -> str:
match = re.search(r'<([^<>]+)>', text)
if match:
return match.group(1)
return None
def _extract_attachments(self, msg: email.message.Message) -> List[EmailAttachment]:
"""
Извлечь вложения из письма.
@@ -239,6 +239,8 @@ class EmailClient:
from_addr = self._decode_header(msg.get("From", ""))
subject = self._decode_header(msg.get("Subject", ""))
from_email = self.__extract_email(from_addr)
# Получаем дату
date_str = msg.get("Date", "")
try:
@@ -254,6 +256,7 @@ class EmailClient:
# Извлекаем тело письма
body = self._extract_body(msg)
#print(body)
first_sender = self._extract_first_sender(body)
# Извлекаем вложения
@@ -262,6 +265,7 @@ class EmailClient:
# Создаем объект письма
email_obj = EmailMessage(
from_addr=from_addr,
from_email=from_email,
subj=subject,
dt=dt,
body=body,

View File

@@ -14,6 +14,7 @@ class EmailAttachment:
class EmailMessage:
"""Класс для представления электронного письма"""
from_addr: str
from_email: str
subj: str
dt: datetime
body: str

View File

@@ -36,6 +36,7 @@ class MailOrderBot(ConfigManager):
logger.info(email.body)
logger.info(email.first_sender)
logger.info('--------------------------------')
logger.critical("mail checked")
logger = logging.getLogger()

View File

@@ -4,6 +4,7 @@ from mail_order_bot.email_client import EmailClient
if __name__ == "__main__":
print(__name__)
# подгружаем переменные окружения
load_dotenv()
@@ -15,13 +16,13 @@ if __name__ == "__main__":
imap_port=os.getenv('IMAP_PORT'),
smtp_port=os.getenv('SMTP_PORT')
)
emails = email_client.get_emails(folder='spareparts', only_unseen=True, mark_as_read=True)
emails = email_client.get_emails(folder='spareparts', only_unseen=True, mark_as_read=False)
for email in emails:
print(email.subj)
print(email.from_addr)
print(email.from_email)
print(email.dt)
print(email.body)
print(email.first_sender)
print('--------------------------------')