Jak otevřít opravdu velké textové soubory a soubory CSV


MS Excel dokáže zobrazit 1 048 576 řádků. I když se to při běžném používání může zdát jako opravdu velké číslo, existuje spousta scénářů, kdy to nestačí.

Ať se díváte na soubory protokolu nebo velké soubory dat, je snadné narazit na soubory CSV s miliony řádků nebo obrovské textové soubory. Protože Vynikat nemůže podporovat soubory tak velké, jak přesně je otevřete? Pojďme to zjistit.

Proč normální textové editory nemohou otevřít opravdu velké soubory?

Počítač má gigabajty úložiště, tak proč textové editory nemohou otevírat velké soubory?

Ve hře jsou dva faktory. Některé aplikace mají pevně zakódovaný limit množství dat, které mohou zobrazit. Nezáleží na tom, kolik paměti má váš počítač, prostě ji nevyužijí.

Druhým problémem je RAM. Mnoho textových editorů nemá pevný limit na počet řádků, ale nemohou zobrazovat velké soubory kvůli omezení paměti. Načtou celý soubor do systémové RAM, takže pokud tato paměť není dostatečně velká, proces selže.

Metoda č. 1: Použití bezplatných editorů

Nejlepší způsob, jak zobrazit extrémně velké textové soubory, je použít... textový editor. Nejen jakýkoli textový editor, ale nástroje určené pro psaní kódu. Takové aplikace si obvykle bez problémů poradí s velkými soubory a jsou zdarma.

Prohlížeč velkých textových souborů je pravděpodobně nejjednodušší z těchto aplikací. Je to opravdu snadné použití, funguje rychle a má velmi nízkou náročnost na zdroje. Jediná nevýhoda? Nemůže upravovat soubory. Pokud si ale chcete prohlížet pouze velké soubory CSV, je to pro vás ten nejlepší nástroj.

Pro úpravy velkých textových souborů byste měli zkusit Emacs. Původně vytvořen pro systémy Unix, funguje perfektně i na Windows a zvládne velké soubory. Podobně Neovim a Vznešený text jsou dvě odlehčená IDE, která lze použít k otevírání textových souborů CSV o velikosti gigabajtů.

Pokud vše, co hledáte, je vyhledávat data ve velkých souborech protokolu, pak je klogg tím pravým nástrojem pro vás. Tato aplikace, aktualizační větev oblíbeného glogg, vám umožňuje snadno provádět složité vyhledávací operace v obrovských textových souborech. Protože počítačem generované soubory protokolu mohou mít často miliony řádků, je klogg navržen tak, aby s takovými velikostmi souborů fungoval bez problémů..

Metoda č. 2: Rozdělení na více částí

Celý problém při pokusu o otevření velkých souborů CSV spočívá v tom, že jsou příliš velké. Ale co kdybyste je měli rozdělit do několika menších souborů?

Toto je oblíbené řešení, protože obecně nevyžaduje učení se rozhraní nového textového editoru. Místo toho můžete použít jeden z mnoha rozdělovačů CSV dostupných online k rozdělení velkého souboru na několik snadno otevíraných souborů. Ke každému z těchto souborů pak lze normálně přistupovat.

Toto však není nejlepší způsob, jak toho dosáhnout. Rozdělení velkého souboru může často vést k podivným překlepům nebo nesprávně nakonfigurovaným souborům. Navíc otevření každého bloku zvlášť vám zabrání filtrovat všechna data najednou.

Metoda č. 3: Import do databáze

Textové soubory a soubory .csv dosahující více gigabajtů jsou obecně velké datové sady. Proč je tedy jednoduše neimportovat do databáze?

SQL je v současnosti nejběžnějším značkovacím jazykem databáze. Používá se jich mnoho verzí SQL, ale nejjednodušší je pravděpodobně MySQL. A jako štěstí, je možné převést soubor CSV na tabulku MySQL.

Toto není v žádném případě nejjednodušší způsob práce s velkými soubory CSV, takže to doporučujeme pouze v případě, že chcete pravidelně pracovat s velkými soubory dat. Pokud vám MySQL zní příliš složitě, můžete místo toho vždy importovat soubory .csv do MS Access.

Metoda č. 4: Analýza pomocí knihoven Pythonu

Když pracujete se souborem .csv s miliony řádků dat, očividně v tom nebudete schopni manuálně porozumět. Pravděpodobně budete chtít filtrovat data a spustit konkrétní dotazy, abyste porozuměli trendům.

Tak proč to neudělat napsat kód Python?

Opakuji, toto není uživatelsky nejpřívětivější metoda. Zatímco Python není nejtěžší programovací jazyk na naučení, je to kódování, takže to pro vás nemusí být nejlepší přístup. Přesto, pokud zjistíte, že musíte denně procházet opravdu velké soubory CSV, možná budete chtít automatizovat úlohu pomocí nějakého kódu Pythonu.

Metoda č. 5:  S prémiovými nástroji

Textové editory, které jsme viděli v první metodě, nebyly specializované nástroje určené pro zpracování CSV. Byly to univerzální nástroje, které bylo možné použít i pro práci s velkými soubory .csv.

Ale co specializované aplikace? Neexistují žádné aplikace vytvořené k vyřešení tohoto problému?.

Vlastně existují. Například Průzkumník CSV staví na samotném procesu, který jsme popsali v posledních dvou metodách (databáze SQL a kód Python), a vytváří aplikaci schopnou prohlížet a upravovat soubory CSV libovolné velikosti. V Průzkumníku CSV můžete dělat vše, co očekáváte od tabulkového procesoru, jako je vytváření grafů nebo filtrování dat.

Další možností je UltraEdit. Na rozdíl od předchozího nástroje to není určeno pouze pro soubory .csv, ale pro jakýkoli typ textového souboru. Dokáže snadno zpracovat text a soubory CSV v rozsahu několika gigabajtů s rozhraním podobným mnoha bezplatných editorů, o kterých jsme hovořili dříve.

Jedinou nevýhodou těchto nástrojů je, že se jedná o prémiové aplikace, které vyžadují, abyste získali placenou licenci, abyste je mohli používat. Vždy můžete vyzkoušet jejich bezplatné zkušební verze a vyzkoušet jejich funkce, nebo pokud máte pouze jednorázové použití.

Jaký je nejlepší způsob otevírání velkých textových souborů a souborů CSV?

V tomto věku velkých dat není neobvyklé narazit na textové soubory o velikosti gigabajtů, které může být obtížné dokonce zobrazit pomocí vestavěných nástrojů, jako je Poznámkový blok nebo MS Excel. Abyste mohli otevřít tak velké soubory CSV, musíte si stáhnout a použít aplikaci třetí strany.

Pokud chcete pouze takové soubory prohlížet, pak je pro vás Prohlížeč velkých textových souborů tou nejlepší volbou. Chcete-li je skutečně upravovat, můžete vyzkoušet textový editor s bohatými funkcemi, jako je Emacs, nebo použít prémiový nástroj, jako je CSV Explorer.

Techniky, jako je rozdělení souboru CSV nebo jeho import do databáze, zahrnují příliš mnoho kroků. Pokud často pracujete s velkými textovými soubory, je lepší získat placenou licenci specializovaného prémiového nástroje.

.

Související příspěvky:


24.10.2021