Починил парсинг адресов эл почты

This commit is contained in:
2025-11-07 21:06:00 +03:00
parent e18407f33e
commit cfefb49ef8
4 changed files with 39 additions and 32 deletions

View File

@@ -109,27 +109,16 @@ class EmailClient:
07.10.2025, 16:01, Имя (email@example.com): 07.10.2025, 16:01, Имя (email@example.com):
Кому: ... Кому: ...
""" """
# Ищем первую секцию пересылаемого сообщения (по структуре письма) # Ищем email внутри скобок после строки "Пересылаемое сообщение"
match = re.search( pattern = r"Пересылаемое сообщение.*?\((.*?)\)"
r"-{8,}\\s*Пересылаемое сообщение\\s*-{8,}.*?(\\d{2}\\.\\d{2}\\.\\d{4},\\s*\\d{2}:\\d{2},.*?)\\(([^\\)]+)\\):", match = re.search(pattern, body, re.DOTALL)
body, re.DOTALL)
emails = []
if match: if match:
emails.append(match.group(2)) # email из первой строки пересыла return match.group(1)
# Ищем все email в первой пересылаемой секции (например, в "Кому:") return None
forwarded_section = re.search(
r"^-{8,}.*?Пересылаемое сообщение.*?:$(.*?)(?:^[-=]{5,}|\\Z)",
body, re.MULTILINE | re.DOTALL)
if forwarded_section:
addresses = re.findall(r"\\b([\\w\\.-]+@[\\w\\.-]+)\\b", forwarded_section.group(1))
for addr in addresses:
if addr not in emails:
emails.append(addr)
return emails
def _extract_body(self, msg: email.message.Message) -> str: def _extract_body(self, msg: email.message.Message) -> str:
""" """
Извлечь текст письма. Извлечь текст письма из любого типа содержимого, кроме вложений.
Args: Args:
msg: Объект письма msg: Объект письма
@@ -141,25 +130,36 @@ class EmailClient:
if msg.is_multipart(): if msg.is_multipart():
for part in msg.walk(): for part in msg.walk():
content_type = part.get_content_type()
content_disposition = str(part.get("Content-Disposition", "")) content_disposition = str(part.get("Content-Disposition", ""))
# Пропускаем вложения
# Ищем текстовые части без вложений if "attachment" in content_disposition.lower():
if content_type == "text/plain" and "attachment" not in content_disposition: continue
try: try:
charset = part.get_content_charset() or 'utf-8' charset = part.get_content_charset() or 'utf-8'
body += part.get_payload(decode=True).decode(charset, errors='ignore') payload = part.get_payload(decode=True)
except: if payload:
pass body_piece = payload.decode(charset, errors='ignore')
body += body_piece
except Exception:
pass
else: else:
try: try:
charset = msg.get_content_charset() or 'utf-8' charset = msg.get_content_charset() or 'utf-8'
body = msg.get_payload(decode=True).decode(charset, errors='ignore') payload = msg.get_payload(decode=True)
except: if payload:
body = payload.decode(charset, errors='ignore')
except Exception:
pass pass
return body return body
def __extract_email(self, text: str) -> str:
match = re.search(r'<([^<>]+)>', text)
if match:
return match.group(1)
return None
def _extract_attachments(self, msg: email.message.Message) -> List[EmailAttachment]: def _extract_attachments(self, msg: email.message.Message) -> List[EmailAttachment]:
""" """
Извлечь вложения из письма. Извлечь вложения из письма.
@@ -239,6 +239,8 @@ class EmailClient:
from_addr = self._decode_header(msg.get("From", "")) from_addr = self._decode_header(msg.get("From", ""))
subject = self._decode_header(msg.get("Subject", "")) subject = self._decode_header(msg.get("Subject", ""))
from_email = self.__extract_email(from_addr)
# Получаем дату # Получаем дату
date_str = msg.get("Date", "") date_str = msg.get("Date", "")
try: try:
@@ -254,6 +256,7 @@ class EmailClient:
# Извлекаем тело письма # Извлекаем тело письма
body = self._extract_body(msg) body = self._extract_body(msg)
#print(body)
first_sender = self._extract_first_sender(body) first_sender = self._extract_first_sender(body)
# Извлекаем вложения # Извлекаем вложения
@@ -262,6 +265,7 @@ class EmailClient:
# Создаем объект письма # Создаем объект письма
email_obj = EmailMessage( email_obj = EmailMessage(
from_addr=from_addr, from_addr=from_addr,
from_email=from_email,
subj=subject, subj=subject,
dt=dt, dt=dt,
body=body, body=body,

View File

@@ -14,6 +14,7 @@ class EmailAttachment:
class EmailMessage: class EmailMessage:
"""Класс для представления электронного письма""" """Класс для представления электронного письма"""
from_addr: str from_addr: str
from_email: str
subj: str subj: str
dt: datetime dt: datetime
body: str body: str

View File

@@ -36,6 +36,7 @@ class MailOrderBot(ConfigManager):
logger.info(email.body) logger.info(email.body)
logger.info(email.first_sender) logger.info(email.first_sender)
logger.info('--------------------------------') logger.info('--------------------------------')
logger.critical("mail checked")
logger = logging.getLogger() logger = logging.getLogger()

View File

@@ -4,6 +4,7 @@ from mail_order_bot.email_client import EmailClient
if __name__ == "__main__": if __name__ == "__main__":
print(__name__)
# подгружаем переменные окружения # подгружаем переменные окружения
load_dotenv() load_dotenv()
@@ -15,13 +16,13 @@ if __name__ == "__main__":
imap_port=os.getenv('IMAP_PORT'), imap_port=os.getenv('IMAP_PORT'),
smtp_port=os.getenv('SMTP_PORT') smtp_port=os.getenv('SMTP_PORT')
) )
emails = email_client.get_emails(folder='spareparts', only_unseen=True, mark_as_read=True) emails = email_client.get_emails(folder='spareparts', only_unseen=True, mark_as_read=False)
for email in emails: for email in emails:
print(email.subj) print(email.subj)
print(email.from_addr) print(email.from_addr)
print(email.from_email)
print(email.dt) print(email.dt)
print(email.body)
print(email.first_sender) print(email.first_sender)
print('--------------------------------') print('--------------------------------')