אני מבין את התרגיל ומה הוא מבקש, אבל לא עולה לי דרך איך להגיע לשם.
כשאני קורא ומדפיס לדוגמא את הקובץ הראשון אני מקבל את כל הקשקושים של ה- html שנמצאים בהתחלה (הקישורים ולאחר מכן הרשימה של כל הפרקים).
בחיפוש בתוך המלל שהודפס לי הצלחתי למצוא את אותה הכותרת שמופיעה אם אני פותח את הקובץ בכרום (ישירות מהתיקייה), אבל מעבר לזה אני לא באמת מבין איך לפתור את המשימה.
חיפשתי באינטרנט וכל מה שמצאתי הוא על איך לפתוח את הקובץ לקריאה בפייתון, מעבר לכך כל מה שמצאתי היה איך לכתוב קובץ html בפייתון וכו’.
אשמח להכוונה כי כרגע אין לי שמץ איך להתחיל את זה.
aviadamar
מציע להעזר ברמז הראשון בתרגיל. שם מופיע לך משהו שרומז לך על זה שזה בכמו לעבוד כם סוג מסווים של קבצים שכבר עבדת איתם
DrorBiton
הכוונה בלפחות ידנית היא לפתוח ישירות מהתיקייה עם ׳פתח באמצעות - קובץ טקסט׳?
יש אפשרות לעשות את הפעולה הזאת ישירות מהפייתון?
zurikarat
אפשר להפוך את הקבצים מקובצי html לקובצי txt ידנית…
DrorBiton
להיכנס קובץ קובץ ולשמור אותם כ txt?
orronai
זה לא הפיתרון! קובץ html נכתב כקוד, וכדי לראות את הקוד ניתן לפתוח את הקובץ באמצעות “Notepad” או בשמו בעברית “פנקס רשימות”.
תרפרף על הקובץ לאחר שפתחת אותו ידנית ותראה.
כשפותחים קובץ כזה בפייתון - תנסה ותראה.
אין חכם כבעל ניסיון
DrorBiton
פתחתי גם בפייתון וגם דרך הפנקס רשימות ואני באמת לא מצליח להבין מה לעשות עם המלל שקיבלתי.
בשני המצבים אני מקבל מלל ארוך עם מלא סימונים של ה- html.
פתחתי עכשיו דרך הפייתון עם readlines ואמנם אני כן יכול לגלול ולמצוא את השורה של הכותרת היא עדיין מלאה בסימונים של ה- html.
הדרך היחידה שהצלחתי לפתוח את הקובץ ובאמת לקבל רק את המלל בלי כל הקוד מסביב הייתה לפתוח אותו דרך הוורד.
orronai
אתה מוצא אולי חוקיות כלשהי שהשם של הפרק מופיע אולי בשורה מסויימת בקובץ?
zurikarat
למה? כששיחקתי עם זה, אפשר…
zurikarat
כמובן שלא חייב…
…
orronai
ברור שאפשר. גם את קבצי המחברות של פייתון מסיומת ipynb אתה יכול לשנות ל-txt.
zurikarat
כן, זה מה שהתכוונתי ונראה לי גם הם…
כי למדנו עד עכשיו לעבוד עם קבצי csv וtxt…
אז יותר נוח להמיר את זה לtxt למרות שאין שום בעיה לפתור את ככה…
orronai
אני חושב שהעניין פה הוא לפתוח את הקובץ בתור Notepad ולא לשנות סיומות של קבצים
לייק 1
zurikarat
ככה או ככה, זה עובד…
orronai
אין ספק שזה עובד, כי אתה פותח את הקובץ txt בתור Notepad במילא. אבל אחרי זה כשאתה ניגש לקובץ עצמו (מנסה לפתוח ידנית) אתה לא נכנס לקובץ המקורי, אלא לקובץ טקסט.
תחשוב שמראש נגיד אתה אמור לעבור על אלפי קובצי html. בהצלחה עם לשנות את כולם ידנית ל-txt כשאתה מראש יודע שאתה יכול לגשת אליהם ב’אותה צורה’
2 לייקים
DrorBiton
תודה רבה על הטיפ עזר לי מאוד,
לבינתיים הצלחתי למצוא שבכל קובץ מופיעה פעמיים הכותרת עם התוספות של html, משם הצלחתי לפצל אותה ולמצוא את המיקום ברשימה שבו הכותרת נמצאת עם פונקציה פשוטה
עכשיו רק לשמור אותם מחדש ולבנות את הקוד
עריכה:
אני מנסה לבנות את הקוד ככה שאני קודם כל אצור רשימה של כל הקבצים שקיימים בתיקייה, ולאחר מכן עבור כל קובץ ברשימה, אשתמש בשם שלו כדי לייצר לי את ה- path שאני צריך בשביל לפתוח אותו, ומשם למצוא את השורה הנכונה לשלוף את הכותרת ולשנות את השם.
הקוד נתקע לי בשלב הפתיחה של הקובץ ואני מקבל את ההתראה הבאה: