<html><head><style>body{font-family:Helvetica,Arial;font-size:13px}</style></head><body style="word-wrap:break-word"><div id="bloop_customfont" style="margin:0px">It took me a while to get a sample that matched what you’re describing, so I’ll share it here incase anyone else wants to help;</div><div id="bloop_customfont" style="margin:0px"><br></div><div id="bloop_customfont" style="margin:0px">Sample Transcript: <a href="https://gist.github.com/loadedsith/15b87f873a5abe0546c095874051d195">https://gist.github.com/loadedsith/15b87f873a5abe0546c095874051d195</a></div><div id="bloop_customfont" style="margin:0px"><br></div><div id="bloop_customfont" style="margin:0px">I’ve created a macro to help save you steps. With any luck you’ll be able to add this macro and use it to accomplish what you want.</div><div id="bloop_customfont" style="margin:0px"><br></div><div id="bloop_customfont" style="margin:0px">StripTimestamps.tmMacro: <a href="https://gist.github.com/loadedsith/5add3a739777ee11aa20c8656d9b515e">https://gist.github.com/loadedsith/5add3a739777ee11aa20c8656d9b515e</a></div><div id="bloop_customfont" style="margin:0px"><br></div><div id="bloop_customfont" style="margin:0px">The macro is, like all macros, simply a replay of my commands those steps are;</div><div id="bloop_customfont" style="margin:0px"><br></div><div id="bloop_customfont" style="margin:0px">A) Remove the time codes</div><ol><li>Open the find window (Command + F)</li><li>Check "Regular Expression"</li><li>*Set Find to '<font face="Courier New">\d+:\d+:\d+.\d+,\d+:\d+:\d+.\d+</font><font face="Helvetica">'</font></li><li><font face="Helvetica">Set Replace to nothing, just an empty textbox</font></li><li><font face="Helvetica">Click Replace All</font></li></ol><div id="bloop_customfont" style="margin:0px">B) Remove the extra lines</div><div id="bloop_customfont" style="margin:0px"><ol><li>Open the find window (Command + F)</li><li><li>"Regular Expression" should still be checked</li><li>*Set Find to: <font face="Helvetica">'<span style="font-family:'Courier New'">\n{2,}</span>'</font></li><li>*Set Replace to: '<font face="Courier New">\n</font><font face="Helvetica">'</font></li><li>Click Replace All</li></li></ol></div><div id="bloop_customfont" style="margin:0px"><div id="bloop_customfont" style="margin:0px">C) Remove whitespace after commas</div><div id="bloop_customfont" style="margin:0px"><ol><li>Open the find window (Command + F)</li><li>"Regular Expression" should still be checked</li><li>*Set Find to <font face="Helvetica">'<span style="font-family:'Courier New'">,\s+</span>'</font></li><li>*Set Replace to '<font face="Courier New">,</font><font face="Helvetica">'</font></li><li>Click Replace All</li></ol></div></div><div id="bloop_customfont" style="margin:0px">*: In each of these steps regular expressions are wrapped with single quotes, these are not part of the expression, they are simply marking the start and end of the expression.</div><div id="bloop_customfont" style="margin:0px"><br></div><div id="bloop_customfont" style="margin:0px">Regex explained: </div><div id="bloop_customfont" style="margin:0px">  Step A-3: <a href="https://regex101.com/r/mC8kU6/1">https://regex101.com/r/mC8kU6/1</a></div><div id="bloop_customfont" style="margin:0px">  Step B-4: <a href="https://regex101.com/r/iT4jD2/1">https://regex101.com/r/iT4jD2/1</a></div><div id="bloop_customfont" style="margin:0px">  Step C-3: <a href="https://regex101.com/r/aS9rE8/1">https://regex101.com/r/aS9rE8/1</a></div><div id="bloop_customfont" style="margin:0px"><br></div><div id="bloop_customfont" style="margin:0px">Good luck!</div><div id="bloop_sign_1469151731693389824" class="bloop_sign"><div style="font-family:helvetica,arial;font-size:13px"><br>Graham Heath<br><br></div></div> <br><p class="airmail_on">On July 21, 2016 at 6:05:45 PM, Gradivus (<a href="mailto:gradivus@optonline.net">gradivus@optonline.net</a>) wrote:</p> <blockquote type="cite" class="clean_bq"><span><div><div></div><div>Hi guys
<br>
<br>I wanted to know if there was a way in Textmate to do a find and replace on text files generated as a youtube transcript. These are text files downloaded containing the closed captioning text.
<br>
<br>The time stamp lines are formatted with quasi timecode as start,end: 0:00:10.100,0:00:11.191
<br>
<br>So there would be a line of timecode, then 1 or more lines of text, then a blank line, and then it starts over again on a new line with the next timecode start.
<br>
<br>Also, if there is a way to remove white space after commas, but keep sentences in tact, that would save heaps of time.
<br>
<br>These transcript files are long, and are taken from videos that are 25minutes to 1 hour duration, so doing it manually would be hell. At least if there is an easy way to strip out this stuff, manually separating paragraphs would be pretty fast.
<br>
<br>Any advice is welcomed.
<br>
<br>thanks
<br>
<br>_______________________________________________
<br>textmate mailing list
<br><a href="mailto:textmate@lists.macromates.com">textmate@lists.macromates.com</a>
<br><a href="http://lists.macromates.com/listinfo/textmate">http://lists.macromates.com/listinfo/textmate</a>
<br></div></div></span></blockquote></body></html>